飞网设计:山西互联网营销策划推广中心
电话咨询 133-1343-5212
山西做网站营销策划公司--太原飞网设计

当前位置:建站知识
如何设置robots.txt不让搜索引擎抓取网站内容?
时间:2022/12/12 20:51:25   浏览量:1230

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

robots.txt 禁止百度蜘蛛抓取,robots.txt内容如下:
User-agent: Baiduspider
Disallow: /

禁止所有搜索引擎访问网站的任何部分,robots.txt内容如下:
User-agent: *
Disallow: / 

健康用品公司网站建设
政府机构网站定制
农业技术帮扶团体网站定制
投资管理类企业网站建设
公司地址:山西省太原市长风西街62号
QQ:94589848   电话:133-1343-5212
  晋ICP备08001781号