1.什么是机器人协议
r唐山企业官网obots协议,也叫robots.txt(统一小写),是存储在网站根目录下的ASCII编码的文本文件。它通常告诉网络搜索引擎的漫游器(也称为web spider ),该网站中的哪些内容不应由搜索引擎的漫游器获取,哪些内容可以由漫游器获取。
2.如何编写机器人协议
有些系统中的URL是区分大小写的,所以robots.txt的文件名要统一小写。
用户代理: *
不允许:
allow:
“*”和“$”的含义
Baiduspider支持使用通配符' * '和' $ '来模糊匹配URL。
“$”匹配行结束符。
*”匹配0个或更多任意字符。
对于一般企业来说,你可以这样写,你只要不允许你不想被搜索引擎抓取的文件,比如我们的网站数据,图片等等。