Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。
珠海网络推广
robots.txt文件的用处是非常大的,它在网站建设和
SEO优化中起着很关键的作用。搜索引擎在访问任意网站的网页之前,都会查看是否存在阻止它们访问特定网页的robots.txt文件。
我们给出样本,并且应该把robots.txt文件放置在网站根目录下:
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}
譬如,如果您想告诉Excite搜索引擎的Spider(ArchitextSpider),不检索您站点中三个特定页面,您可这样操作:
User-agent: ArchitextSpider
Disallow: /orderform.html
Disallow: /product1.html
Disallow: /product2.html
如果您不想让Excite的Spider检索在abc目录下的def.htm文件:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
不检索整个mydirectory目录:
User-agent: ArchitextSpider
Disallow: /mydirectory/
不让所有Spider检索:
User-agent: *
不检索整个站点:
Disallow: /
我们给出其他实例:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
User-agent: Infoseek
Disallow: /ghi/jkl.htm
User-agent: ArchitextSpider
User-agent: Infoseek
Disallow: /abc/def.htm