推广

做SEO怎么用好scrapy

iseeyu2年前 (2024-01-26)推广135

SEO怎么用好scrapy?python的爬虫框架,scrapy,收集效率相当高,一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了,当然了,不妨同时跑多只蜘蛛。

首先是scrapy的安装教程,就不搬砖了,直接贴上位置:

http://blog.csdn.net/pleasecallmewhy/article/details/19354723

而后是新建名目标教程:

http://blog.csdn.net/pleasecallmewhy/article/details/19642329

之后就不妨收集了。

在Scrapy里,运用的是叫做 XPath selectors的机制,它基于 XPath表明式。所以,假如要收集仍然要了解下Xpath(正则也行)。之后的事情就简单多了。底下融合自身写的一只爬虫来吧,这个应当是属于scrapy简单的爬虫了:

baidu_spider.py 取排名,题目,快照,和url(暂未引入其余模块获得真切url),当然,想取描述相同的,再写一个xpath法则,并在items.py中对应的肋下增添dec=Field()能够(拜见新建名目标教程)。

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import BaiduItem

class BaiduSpider(Spider):

name = "baidu"

allowed_domains = ["baidu.com"]

start_urls = ["http://www.baidu.com/s?q1=%BD%F0%B8%D5%C9%B0"]

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//div[@class="result c-container "]'

items = []

for site in sites:

item = BaiduItem()

item['num'] = site.re('(id="d{1,3}"'

item['title'] = site.xpath('h3/a/text()'.extract()

item['link'] = site.xpath('h3/a/@href'.extract()

item['date'] = site.re('�(d{4}-d{2}-d{2})�'

items.append(item)

return items

复制代码

运转号令:

json数据:

上边是一个简单的使用,在此基本上,咱们将以上代码改进,批量获得一些内容:

以爬某站的spider为例:

1、url.txt存储url,一行一个。读取后作为参数传给start_urls。

2、咱们要取的是他的全部h1,那么修正xpath表明式。

3、url.txt需求放在根目次下,蜘蛛也是在根目次下号令行运转。运转的号令为scrapy crawl mouzhan -o items.json -t json.(这里咱们保存成功了json格式,文件名叫做items.json)

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import MouzhanItem

class MouzhanSpider(Spider):

name = "mouzhan"

allowed_domains = ["mouzhan.com"]

start_urls = open('url.txt','r'.readlines()

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//h1/text()'.extract()

items = []

for site in sites:

item = MouzhanItem()

item['h1'] = site

items.append(item)

return items

复制代码

收集到的数据:

后输送的文件是json格式(也不妨存储为csv等格式),编码是unicode,收集的中文在读取时处理下能够。测试的是一只蜘蛛10分钟1万url。不妨同时运转多只蜘蛛。这里没有研究ip代理,ua那些器材,不晓得是收集的网站没有限制仍然scrapy内部有处理,不过查了下,scrapy不妨自行配置代理的。

scrapy也只是刚接触,并未有更深的研讨,可是相对而言收集的速度相当快,我用beautifulsoup分析html收集的脚本要运转2个半小时才能收集1万数据,应当是不用给定url,在写的过程中制订法则就不妨让蜘蛛去爬的。

至于scrapy在seo上的使用,我也说不走出多少,起码用这个器材用来查排名应当不慢(杀鸡焉用牛刀),批量查收录之类的,收集效率也高,至于收集谁,收集回来的器材怎么用,看你自身了。ps(轻喷:原本我也不晓得学这器材做什么,反正我是小企业站,暂且不晓得用来做什么。)

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/97237.html

相关文章

seo长尾关键词排名优化。

seo长尾关键词排名优化。

大家都知道核心关键词竞争力是非常大的,短期内是无法做到上首页的,这个是一个长期积累的过程,所以更多的是在做长尾关键词排名,长尾关键词是核心关键词与厂家词、盈利模式词等组合而成的,这种长尾词竞争力非常小,搜索量比核心关键词要小的多,但是流量精准,排名也是非常稳定的,带来的客户也是非常精准的,所以要做好...

具备营销推广性的软文有什么作用。

具备营销推广性的软文有什么作用。

网络推广员在网络单位里边应当都是需要量较为大的1个技术工种,与网络推广员相互配合的就是说网站编辑。 这儿无论是网络推广员還是编写,我觉得都分工作能力等級高矮的。 比如编写所作的稿子,将会会是:对于SEO优化的废弃物文,对于用户的一切正常文,具备营销推广性的推广软文,具有散播性的营销推广文这...

江门台山市8大推荐美食,这些地方美食值得你的品尝

江门台山市8大推荐美食,这些地方美食值得你的品尝

台山市位于珠江三角洲西南部,属于江门市管辖,东邻珠海特区,北靠江门新会区,西连开平、恩平、阳江三市,南临南海,下面小编给大家分享一下到了台山市要品尝一下的8道地方。1、台山黄鳝饭台山黄鳝饭是一道色香味俱全的传统名点,属于粤菜系。制法依据各人口味各有不同,黄鳝有切成一截截的,...

零基础开淘宝店的过程(新手淘宝开店经验分享)

零基础开淘宝店的过程(新手淘宝开店经验分享)

  淘宝经常会升级更新以保证用户的使用体验,不过这也就使得在淘宝开店的流程时常会变动,不少新手在开店初期还没来得及为选品、店铺运营烦恼,就得为“怎么在淘宝开店”费不少脑细胞。那么新手怎么开淘宝店呢?   个人开店   淘宝是可以以个人名义开店的。你需要准备好自己的实名制手机号、支付宝账号以及...

经得起实战检验的营销策略。

经得起实战检验的营销策略。

很多人对于“营销”这次词理解的可能并不是非常清晰,甚至认为“营销”就是“销售”。其实营销与销售是有很大区别的,营销更加趋向于对某个品牌、某个企业的营销,是站在企业、品牌这样比较高的战略位置上的推广,而销售更加专注于某个商品等等。因此,营销策略对于一个品牌和企业来说具有重要的指导作用,一个好的营销策...

360搜索推广,360推广开户

360搜索推广,360推广开户

360搜索推广作为一个搜索引擎类竞价推广媒体,凭借着强大的推广优势,成为了众多行业广告主进行广告推广的选择方式。其实,想要做好媒体的网络广告营销推广,并不是很简单。那么,如何360搜索推广到底怎么做呢? 1、账户开通: 360推广开户不同于百度那么繁琐,一般开户只需要到代理商那里申请开...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片