网站日志中出现CCbot蜘蛛是被攻击了吗
  • 作者:admin
  • 发表时间:2020-07-01 17:41
  • 来源:未知

  不清楚您的网站系统日志中是不是有出現过一个不太普遍的CC蜘蛛,访问名字为:CCBot/2.0,下边大家实际来了解一下CCbot是什么蜘蛛?

  一. CCbot是什么蜘蛛?

  CCbot,全称之为Common Crawl Bot,是一个非盈利性慈善基金会着眼于出示能够被任何人访问和剖析的Web爬网数据信息的对外开放储存库。

  二. 你如何处理CCbot蜘蛛?

  方式 1. 应用robots.txt

  应用robots.txt文件来容许或严禁蜘蛛访问网页页面的管理权限。robots.txt是放到网站网站根目录中,蜘蛛来访问时候先搜索并查询robots.txt文件,并遵循robots协议书来访问网站上的內容,容许访问则访问,不允许访问蜘蛛则离去。

  ①. 不允许一切蜘蛛访问您站点的一切一部分

  User-agent:*

  Disallow:/

  ②. 容许一切蜘蛛访问您站点的一切一部分

  User-agent:*

  Disallow:

  ③. 不允许CCbot蜘蛛访问网站的一切一部分

  User-agent:ccbot

  Disallow:/

  ④. 容许CCbot蜘蛛访问您站点的一切一部分

  User-agent:ccbot

  Disallow:

  ⑤. 容许CCbot蜘蛛访问您站点,但不允许CCbot访问“wp-admin”文件夹名称

  User-agent:ccbot

  Disallow:/wp-admin

  方式 2. 应用元标识

  能够在网页页面中应用元标识来协助操纵百度搜索引擎蜘蛛对您网站的访问管理权限。假如您为全部网页页面应用模版,则能够在和中间加上元标识, 它将适用应用该模版的全部网页页面。假如要操纵特殊网页页面,能够在和中间的每个网页页面上加上元标识 。

  ①. 容许全部蜘蛛访问您的网页页面

  ②. 容许全部蜘蛛访问您的网页页面并追踪网页页面上的连接

  ③. 容许全部蜘蛛访问您的网页页面,但不允许她们追踪连接

  ④. 不允许一切蜘蛛访问您的网页页面

  ⑤. 容许CCbot访问您的网页页面

  ⑥. 不允许CCbot访问您的网页页面

  ⑦. 容许CCbot访问您的网页页面并追踪大量网页页面的连接

  假如你一直在网站系统日志中也发觉了CCbot,不必慌乱,你接下去必须做的便是是容许它再次爬取還是严禁爬取?May本人感觉这类蜘蛛沒有多少的实际意义,一旦发觉这类蜘蛛爬取较为经常,最好是的方法便是严禁这种蜘蛛再次访问大家的网站。