Robots.txt 文件是網(wǎng)站用來與網(wǎng)絡(luò)爬蟲和其他網(wǎng)絡(luò)機器人通信的標(biāo)準(zhǔn)。了解您的新虛擬主機是否需要 robots.txt 文件可能很難估計。本文旨在強調(diào) robots.txt 文件的工作原理以及您是否需要它們來進(jìn)行網(wǎng)站優(yōu)化。

什么是 Robots.txt 文件
在Google Bots等網(wǎng)絡(luò)爬蟲搜索您的網(wǎng)站內(nèi)容之前,它們會搜索 robots.txt 文件。該文件將包含關(guān)于網(wǎng)絡(luò)爬蟲可以訪問和不能訪問哪些文件和頁面的具體說明。搜索引擎(例如 Google)使用此文件來映射您的網(wǎng)站內(nèi)容,從而決定您的網(wǎng)站將如何排名。
如何使用 Robots.txt 文件?
防止服務(wù)器節(jié)流:當(dāng)網(wǎng)絡(luò)爬蟲掃描沒有 robots.txt 文件的網(wǎng)站時,它將遍歷所有頁面、所有腳本和所有圖片。在此期間,這可能會對您網(wǎng)站的性能產(chǎn)生負(fù)面影響。您的 Web 服務(wù)器將忙于處理來自爬蟲的請求,這可能會導(dǎo)致性能下降。這可能會導(dǎo)致您的用戶加載網(wǎng)頁的速度變慢。通過阻止網(wǎng)絡(luò)爬蟲訪問某些不需要為網(wǎng)站優(yōu)化建立索引的腳本和圖像來防止這種情況。這將確保爬蟲只掃描您想要索引的頁面。
提高您的搜索引擎排名:搜索引擎使用 robots.txt 文件對網(wǎng)站進(jìn)行排名。優(yōu)化您的 robots.txt 文件可確保良好的 SEO 實踐增加您獲得排名的機會。
阻止出現(xiàn)在搜索結(jié)果中的圖像或網(wǎng)頁:您可能專注于在您的網(wǎng)站上銷售照片。如果搜索引擎在圖像搜索中為您的圖像編制索引,人們可能會竊取您的內(nèi)容供自己使用,而無需向您支付版稅。為防止這種情況,您可以阻止搜索引擎訪問您的圖像,這有助于防止未經(jīng)授權(quán)使用您的作品。
我需要 Robots.txt 文件嗎?
大多數(shù)網(wǎng)站使用 robots.txt 文件,但并非每個網(wǎng)站都需要一個。了解您是否需要 Robots.txt 文件很重要。以下是決定時要遵循的一些準(zhǔn)則。
什么時候需要使用robots.txt
- 您的網(wǎng)站可能包含您不希望搜索引擎對其進(jìn)行排名的內(nèi)容。使用 robots.txt 文件可以阻止此內(nèi)容被編入索引。
- 如果您阻止爬蟲訪問您的頁面,廣告可能會面臨挑戰(zhàn)。您不想阻止廣告抓取工具,因為這會阻止您的網(wǎng)站被刊登廣告。
- 您可能仍在您的網(wǎng)站上工作,因此您不希望它在完成之前在搜索引擎中排名。您可以在 robots.txt 文件中完全阻止網(wǎng)絡(luò)爬蟲。
我什么時候不需要 Robots.txt?
- 如果您不需要阻止某些頁面出現(xiàn)在搜索排名中,則不需要 robots.txt。
- 您希望所有頁面都在搜索引擎中編入索引
Robots.txt 文件示例
為了說明 Robots.txt 文件是如何工作的,這里有幾個例子。
1.允許完全訪問
需要時,您可以向網(wǎng)絡(luò)爬蟲表明它們具有完全訪問權(quán)限。大多數(shù)網(wǎng)絡(luò)爬蟲將掃描所有文件夾。
用戶代理:* 允許:
2.允許訪問某些文件夾
如果您想向網(wǎng)絡(luò)爬蟲表明我可以訪問某些文件夾,您可以通過定義文件夾目錄來實現(xiàn)。
用戶代理:* 允許:/目錄/
3. 阻止所有訪問
使用它來阻止網(wǎng)絡(luò)爬蟲訪問您服務(wù)器上的所有文件。這將對搜索引擎排名產(chǎn)生負(fù)面影響,因為搜索引擎無法掃描您的網(wǎng)站,因此不會索引任何頁面。
用戶代理:* 不允許:
4. 阻止訪問文件夾
使用它來阻止網(wǎng)絡(luò)爬蟲訪問某些文件夾。這對于阻止訪問包含個人信息的敏感文件夾很有用
用戶代理:* 不允許:/文件夾名稱/
3. 阻止對文件的訪問
使用它來阻止網(wǎng)絡(luò)爬蟲訪問您網(wǎng)站中的某些文件或頁面。這對于您不想排名的頁面很有用。
用戶代理:* 不允許:/filename.html
6. 阻止對某些爬蟲的訪問
這將阻止對某些爬蟲的訪問,但是未定義的爬蟲仍然可以訪問。
用戶代理:爬蟲名稱 不允許: /
7.允許訪問某些爬蟲
這將向某些爬蟲指示允許他們訪問哪些部分。只有定義的爬蟲才會讀取它。
用戶代理:爬蟲名稱
不允許:
“User-Agent: *”表示本節(jié)適用于所有機器人。使用“User-Agent: Googlebot”確保此部分僅適用于 Google Bots。
“允許:”部分向網(wǎng)絡(luò)爬蟲指示允許它們訪問和索引哪些頁面或文件夾。這很有用,因為它允許您指定需要索引的某些頁面,以確保爬蟲專注于這些頁面。
“禁止:”部分向機器人指示不允許它們訪問的頁面或文件夾。這可以用來防止
如何制作 robots.txt 文件
為您的新虛擬主機創(chuàng)建一個 robots.txt 文件非常簡單,它為 Google 機器人等爬蟲提供了說明。這可以通過打開文本編輯器(如記事本)來完成。包括有關(guān)每個部分適用于哪個用戶代理以及可以或不能訪問哪些文件或文件夾的信息。
我應(yīng)該將 robots.txt 文件放在哪里?
當(dāng)網(wǎng)絡(luò)爬蟲掃描您的網(wǎng)站時,它會首先查找 robots.txt 文件。這是通過獲取您的網(wǎng)站 url 并在其末尾添加 (/robots.txt) (www.monsterhost.com/robots.txt) 來完成的。添加 robots.txt 文件時,務(wù)必確保將其放在與 index.html 文件相同的目錄中。請務(wù)必記住,您的文件必須命名為“robots.txt”,而不是“Robots.txt”或“robot.txt”。
robots.txt 是安全功能嗎
否 robots.txt 文件不是安全功能,無論 robots.txt 內(nèi)容如何,??任何人都可以訪問未設(shè)置適當(dāng)安全性的文件夾。robots.txt 文件是網(wǎng)絡(luò)爬蟲遵循的簡單文本文件,但絕不會阻止網(wǎng)絡(luò)爬蟲掃描受限目錄。















