推广

什么是站点抓取压力?

iseeyu2年前 (2024-01-26)推广151

什么是站点抓取压力?
站点抓取压力即搜索引擎在单位时间内对一个服务器访问的频率和总次数。
什么是抓取压力反馈工具:
1. 此工具主要是为了让站长在网站抓取压力出现问题时,可以向百度及时反馈网站抓取压力问题,同时还提供给站长近一个月的站点抓取量趋势图,站长可以了解站点抓取压力是否存在异常并符合预期。
2. 为保证您网站的正常抓取,百度会将您的调整压力和网站实际情况综合考虑,因此并不能保证完全按照您的反馈进行调整。这个反馈是个参考值,我们会根据实际情况综合调整,避免因压力调整造成不必要的抓取异常。
在网站robots里限制百度的抓去频率!
如:
User-agent:Baiduspider
crawl-delay: 3600
意思是限制百度蜘蛛抓去网站频率间隔为3600秒。
楼主也可以根据日志,分析出蜘蛛爬去时间频率最高和抓去哪些页面是否具有价值,在robots.txt进一步限制

如下可以限制蜘蛛的访问时间:
Visit-time:0930-1630
意思:制定百度蜘蛛每天开始访问和结束访问网站的时间。
国内的搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛: Sosospider
国外的搜索引擎蜘蛛
google蜘蛛: googlebot
yahoo蜘蛛:Yahoo! Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):msnbot
bing蜘蛛(MSN):msnbot
robots.txt内容格式非常简单,用文本文件的每一行代表一条规则。
? User-Agent: 适用下列规则的漫游器
? Allow: 充许被抓取的网页
? Disallow: 要拦截的网页
Robots.txt的两个常用符号
“*”: 匹配0或多个任意字符(也有所有的意思)
“$”:匹配行结束符。
禁止某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介绍得有)
Disallow: /
只充许某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介绍得有)
Disallow:
User-agent: *
Disallow: /
robots.txt扩展协议
robots协议中除allow,disallow外,其扩展协议中还有Request-rate,Crawl-delay,Visit-time等,可以通过率这些协议来限制蜘蛛访问的频率,访问的时间等。
一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
语法:Crawl-delay:XX
“XX”,是指两间抓取的间隔时间,,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。
二、Visit-time 指定蜘蛛的访问时间。
语法:Visit-time:0930-1630
开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630
三、Request-rate 指定采集的频率
语法:Request-rate:1/5 0600-0845
指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。
四、禁止指定类型后缀的文件抓取
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
另外,在网页中增加名字为“robots”的meta标签,也可以让某些网络蜘蛛不采集这一页。不过,这也只是某些网络蜘蛛认同,不是大家都认同的标准。
实例
例1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2.允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)
User-agent: *
Allow: /
另一种写法是
User-agent: *
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /
例5. 禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
例7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow:/ .htm$
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: / .jpeg$
Disallow:/ .gif$
Disallow:/ .png$
Disallow: /.bmp$
例11. 仅允许Baiduspider抓取网页和。gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: /.jpg$
Disallow:/ .jpeg$
Disallow:/ .png$
Disallow: /.bmp$
例12. 仅禁止Baiduspider抓取。jpg格式图片
User-agent: /Baiduspider
Disallow:/ .jpg$

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/96812.html

相关文章

淘宝店铺免费推广平台有哪些(淘宝推广平台有哪些)

淘宝店铺免费推广平台有哪些(淘宝推广平台有哪些)

问答是很多搜索引擎或者各大社区都会设置的板块,用作用户之间相互交流的场所。通过一问多答的方式,将具有共同话题的人群聚集在一成,从而形成流量圈层。卖家可以利用这一点,发布自己的问答吸引用户然后再进行引流。...

天猫入驻申请被拒3次还能申请吗,怎么才能入驻天猫(入驻天猫好通过吗)

天猫入驻申请被拒3次还能申请吗,怎么才能入驻天猫(入驻天猫好通过吗)

被天猫拒绝了3次,首先要确定品牌是不是被天猫拉黑了,失败之后再继续申请其实是错误的做法,需要好好分析一下哪里出了问题。...

物质是一种能量,还是能量是一种物质?物质和能量运动谁是 ...

物质是一种能量,还是能量是一种物质?物质和能量运动谁是 ...

看到爱因斯坦的这个方程,忽然想问这问题?既然质能能转化,宇宙的起源是能量沉淀成物质,还是物质生成能量?「宇宙是一个巨大的能量体」还是「宇宙是一个巨大的物质体」?是「能量是物质的一种属性」还是「物质是能量的一种状态」?能量和物质是否如气体和液体一样,有一个临界点,只是某种不可...

抖音 快手 视频号:2021谁营销红利更大?

移动互联网早已进入饱和竞争状态,短视频与直播成为最大的增长点,至今风口依旧强劲。从行业格局看,短视频竞争已进入成熟期,格局相对稳定,抖音与快手最具行业竞争力。不过,2020年,视频号横空出世,背靠10亿日活的微信,迅速成长并跻身第一梯队,打破了“两超多强”格局,逐步形成抖音...

淘宝直通车怎么设置地域不推广,直通车地域怎么优化(淘宝直通车地域设置在哪里)

淘宝直通车怎么设置地域不推广,直通车地域怎么优化(淘宝直通车地域设置在哪里)

选用该用户群的广告将只在你选定的地域展示。你也可以,利用投放地域功能,为不同地域的广告设置不同的出价,精打细算,降低推广成本。...

市场部OKR案例集(最新市场营销)

市场部OKR案例集(最新市场营销)

由于有意义的指标或关键绩效指标的众多或缺失,为制定OKR变得更加困难。营销人员应该根据更高层次的公司目标来设定目标,并关注营销的基本绩效驱动因素,而不是仅仅作为绩效指标的衡量标准。营销的KPI是什么?我们最近研究了为销售团队制定OKR的问题,营销团队所面临的挑战是完全不同的...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片