robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個(gè)搜索蜘蛛訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪(fǎng)問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪(fǎng)問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě)。
語(yǔ)法:最簡(jiǎn)單的 robots.txt 文件使用兩條規(guī)則:
• User-Agent: 適用下列規(guī)則的漫游器
• Disallow: 要攔截的網(wǎng)頁(yè)