scrapy学习

scrapy是什么

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

scrapy架构图

绿线是数据流向

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的URL，Scrapy也会重新下载。）

制作 Scrapy 爬虫 一共需要4步：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标 （编写items.py）：明确你想要抓取的目标
制作爬虫 （spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容 （pipelines.py）：设计管道存储爬取内容

scrapy安装

1. 如果你用的是Anaconda或者Minconda，可以使用下面的命令：conda install -c conda-forge scrapy
2. 如果你已经安装了python包管理工具PyPI，可以使用下面命令进行安装：pip install Scrapy。值得注意的是，如果你使用的是pip安装，你需要解决相应的包依赖。

scrapy依赖的一些包：
lxml：一种高效的XML和HTML解析器，
PARSEL：一个HTML / XML数据提取库，基于上面的lxml，
w3lib：一种处理URL和网页编码多功能辅助
twisted,：一个异步网络框架
cryptography and pyOpenSSL，处理各种网络级安全需求

以上包需要的最低版本：
Twisted 14.0
lxml 3.4
pyOpenSSL 0.14

常见依赖问题:
1.错误提示：ModuleNotFoundError: No module named 'win32api'
解决方法：
(1)到这个网站下载跟使用的Python版本相匹配的软件：https://github.com/mhammond/pywin32/releases
(2)进入使用的Python解释器里的Scripts目录，里面有一个easy_install.exe文件
(3)打开命令行，使用如下命令进行安装：easy_install.exe pywin32-224.win-amd64-py3.6.exe
2.错误提示：building 'twisted.test.raiser' extension
解决方法：
(1)到这个网站下载跟使用的Python版本相匹配的软件：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
(2)进入使用的Python解释器里的Scripts目录，里面有一个pip.exe文件
(3)打开命令行，使用如下命令进行安装：pip.exe Twisted-18.9.0-cp36-cp36m-win_amd64.whl

win7安装scrapy

推荐使用Anaconda进行安装

CentOS 7安装scrapy

CentOS 7系统自带的python版本是2.7，若是python3.5+版本，则不用再安装pip了。
(1)安装pip
# yum -y install epel-release
# yum install python-pip
# pip install --upgrade pip
(2)安装依赖包
# yum install gcc libffi-devel python-devel openssl-devel -y
(3)安装scrapy
# pip install scrapy

scrapy入门

新建项目

在开始爬取之前，首先要创建一个scrapy项目，在命令行输入一下命令即可创建:
# scrapy startproject mySpider
scrapy  startproject是固定写法，注意scrapy和startproject和mySpider中间是有空格的！ 
mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：
mySpider/
    scrapy.cfg
    mySpider/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ......

这些文件分别是:
    scrapy.cfg: 项目的配置文件。
    mySpider/: 项目的Python模块，将会从这里引用代码。
    mySpider/items.py: 项目的目标文件。
    mySpider/pipelines.py: 项目的管道文件。
    mySpider/settings.py: 项目的设置文件。
    mySpider/spiders/: 存储爬虫代码目录。

明确目标

打开 mySpider 目录下的 items.py，
Item 定义结构化数据字段，用来保存爬取到的数据，有点像 Python 中的 dict，但是提供了一些额外的保护减少错误。
可以通过创建一个 scrapy.Item 类， 并且定义类型为 scrapy.Field 的类属性来定义一个 Item（可以理解成类似于 ORM 的映射关系）。
创建一个 ItcastItem 类，和构建 item 模型（model）：
import scrapy

class ItcastItem(scrapy.Item):
   name = scrapy.Field()
   title = scrapy.Field()
   info = scrapy.Field()

制作爬虫

命令：scrapy genspider mingyan2 mingyan2.com
mingyan2为蜘蛛名，mingyan2.com为要爬取的网站地址

运行蜘蛛

命令：scrapy crawl  mingyan2
要重点提醒一下，我们一定要进入：mingyan 这个目录，也就是我们创建的蜘蛛项目目录，以上命令才有效！还有 crawl 后面跟的mingyan2是你类里面定义的蜘蛛名，也就是：name，并不是项目名、也不是类名。

scrapy start_url（初始链接）的两种不同写法

第一种：
start_urls = [  # 另外一种写法，无需定义start_requests方法
    'http://lab.scrapyd.cn/page/1/',
    'http://lab.scrapyd.cn/page/2/',
]，
必须定义一个方法为：def parse(self, response)，方法名一定是：parse
第二种：
自己定义一个start_requests()方法

示例代码：
"""
scrapy初始Url的两种写法，
一种是常量start_urls，并且需要定义一个方法parse（）
另一种是直接定义一个方法：star_requests()
"""
import scrapy
class simpleUrl(scrapy.Spider):
    name = "simpleUrl"
    start_urls = [  #另外一种写法，无需定义start_requests方法
        'http://lab.scrapyd.cn/page/1/',
        'http://lab.scrapyd.cn/page/2/',
    ]

    # 另外一种初始链接写法
    # def start_requests(self):
    #     urls = [ #爬取的链接由此方法通过下面链接爬取页面
    #         'http://lab.scrapyd.cn/page/1/',
    #         'http://lab.scrapyd.cn/page/2/',
    #     ]
    #     for url in urls:
    #         yield scrapy.Request(url=url, callback=self.parse)
    # 如果是简写初始url，此方法名必须为：parse

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'mingyan-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('保存文件: %s' % filename)

scrapy调试工具：scrapy shell使用方法

进入scrapy shell调试命令：scrapy shell http://lab.scrapyd.cn
scrapy shell 是固定格式，后面跟的是你要调试的页面。这段代码就是一个下载的过程，一执行这么一段代码scrapy就立马把我们相应链接的相应页面给拿到了

scrapy css选择器使用

进入scrapy shell调试命令：scrapy shell http://lab.scrapyd.cn
在命令行输入如下命令：
>>> response.css('title') 
[<Selector xpath='descendant-or-self::title' data='<title>SCRAPY爬虫实验室 - SCRAPY中文网提供</title>'>]
使用这个命令提取的一个Selector的列表，并不是我们想要的数据；那我们再使用scrapy给我们准备的一些函数来进一步提取，那我们改变一下上面的写法，
>>> response.css('title').extract()
['<title>SCRAPY爬虫实验室 - SCRAPY中文网提供</title>']
我们只是在后面加入了：extract() 这么一个函数你就提取到了我们标签的一个列表，更近一步了，那如果我们不要列表，只要title这个标签，要怎么处理呢，看我们的输入：
>>>  response.css('title').extract()[0]
'<title>爬虫实验室 - SCRAPY中文网提供</title>'
这里的话，我们只需要在后面添加：[0]，那代表提取这个列表中的第一个元素，那就得到了我们的title字符串；这里的话scrapy也给我提供了另外一个函数，可以这样来写，一样的效果：
>>>  response.css('title').extract_first()
'<title>爬虫实验室 - SCRAPY中文网提供</title>'
extract_first()就代表提取第一个元素，和我们的：[0]，一样的效果，只是更简洁些，
至此我们已经成功提取到了我们的title，但是你会发现，肿么多了一个title标签，这并不是你需要的，那要肿么办呢，
我们可以继续改变一下以上的输入：
>>> response.css('title::text').extract_first()
'爬虫实验室 - SCRAPY中文网提供'
在title后面加上了 ::text ,这代表提取标签里面的数据，至此，我们已经成功提取到了我们需要的数据：
'爬虫实验室 - SCRAPY中文网提供'
总结一下，其实就这么一段代码：
response.css('title::text').extract_first()

scrapy提取一组数据

class选择器使用的是".",比如.text ，如果是id选择器的话：使用"#",比如 #text
示例代码：
import scrapy

class itemSpider(scrapy.Spider):
    name = 'itemSpider'
    start_urls = ['http://lab.scrapyd.cn']

    def parse(self, response):
        mingyan = response.css('div.quote')[0]

        text = mingyan.css('.text::text').extract_first()  # 提取名言
        autor = mingyan.css('.author::text').extract_first()  # 提取作者
        tags = mingyan.css('.tags .tag::text').extract()  # 提取标签
        tags = ','.join(tags)  # 数组转换为字符串

        fileName = '%s-语录.txt' % autor  # 爬取的内容存入文件，文件名为：作者-语录.txt
        f = open(fileName, "a+")  # 追加写入文件
        f.write(text)  # 写入名言内容
        f.write('\n')  # 换行
        f.write('标签：'+tags)  # 写入标签
        f.close()  # 关闭文件操作

scrapy 爬取多条数据

这次比上次唯一多了个递归调用，我们来看一下关键变化，原先我们取出一条数据，用的是如下表达式：mingyan = response.css('div.quote')[0]
我们在后面添加了游标 [0]  表示只取出第一条，那我们要取出全部，那我们就不用加了，直接：mingyan = response.css('div.quote')
那现在的变量就是一个数据集，里面有多条数据了，那接下来我们要做的就是循环取出数据集里面的每一条数据，那我们看一下怎么做：
mingyan = response.css('div.quote')  # 提取首页所有名言，保存至变量mingyan
for v in mingyan:  # 循环获取每一条名言里面的：名言内容、作者、标签
    text = v.css('.text::text').extract_first()  # 提取名言
    autor = v.css('.author::text').extract_first()  # 提取作者
    tags = v.css('.tags .tag::text').extract()  # 提取标签
    tags = ','.join(tags)  # 数组转换为字符串
    # 接下来，进行保存

可以看到，关键是：for v in mingyan:
表示把 mingyan 这个数据集里面的数据，循环赋值给：v ，第一次循环的话 v 就代表第一条数据，
那text = v.css('.text::text').extract_first() 就代表第一条数据的名言内容，以此类推，把所有数据都取了出来，最终进行保存，我们看一下完整的代码：
import scrapy

class itemSpider(scrapy.Spider):

    name = 'listSpider'

    start_urls = ['http://lab.scrapyd.cn']

    def parse(self, response):
        mingyan = response.css('div.quote')  # 提取首页所有名言，保存至变量mingyan

        for v in mingyan:  # 循环获取每一条名言里面的：名言内容、作者、标签

            text = v.css('.text::text').extract_first()  # 提取名言
            autor = v.css('.author::text').extract_first()  # 提取作者
            tags = v.css('.tags .tag::text').extract()  # 提取标签
            tags = ','.join(tags)  # 数组转换为字符串

            """
            接下来进行写文件操作，每个名人的名言储存在一个txt文档里面
            """
            fileName = '%s-语录.txt' % autor  # 定义文件名,如：木心-语录.txt

            with open(fileName, "a+") as f:  # 不同人的名言保存在不同的txt文档，“a+”以追加的形式
                f.write(text)
                f.write('\n')  # ‘\n’ 表示换行
                f.write('标签：' + tags)
                f.write('\n-------\n')
                f.close()

scrapy 爬取下一页

要爬取下一页，那我们首先要分析链接格式，找到下一页的链接，那爬取就简单了。下一页的链接如下：
<li class="next">
    <a href="http://lab.scrapyd.cn/page/2/">下一页 »</a>
</li>
每爬一页就用css选择器来查询，是否存在下一页链接，存在：则爬取下一页链接：http://lab.scrapyd.cn/page/*/，
然后把下一页链接提交给当前爬取的函数，继续爬取，继续查找下一页，知道找不到下一页，说明所有页面已经爬完，那结束爬虫。

爬取内容的代码和上一文档（listSpider）一模一样，唯一区别的是这么一个地方，我们在：listSpider 蜘蛛下面添加了这么几段代码：
next_page = response.css('li.next a::attr(href)').extract_first()  
        if next_page is not None: 
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)
首先：我们使用：response.css('li.next a::attr(href)').extract_first()查看有木有存在下一页链接，如果存在的话，我们使用：urljoin(next_page)把相对路径，如：page/1转换为绝对路径，其实也就是加上网站域名，如：http://lab.scrapyd.cn/page/1；
接下来就是爬取下一页或是内容页的秘诀所在，scrapy给我们提供了这么一个方法：scrapy.Request()
这个方法还有许多参数，后面我们慢慢说，这里我们只使用了两个参数，一个是：我们继续爬取的链接（next_page），
这里是下一页链接，当然也可以是内容页；另一个是：我们要把链接提交给哪一个函数爬取，这里是parse函数，也就是本函数；
当然，我们也可以在下面另写一个函数，比如：内容页，专门处理内容页的数据。
经过这么一个函数，下一页链接又提交给了parse，那就可以不断的爬取了，直到不存在下一页；

scrapy arguments：指定蜘蛛参数爬取

scrapy提供了可传参的爬虫，首先按scrapy 参数格式定义好参数，如下：
def start_requests(self):
    url = 'http://lab.scrapyd.cn/'
    tag = getattr(self, 'tag', None)  # 获取tag值，也就是爬取时传过来的参数
    if tag is not None:  # 判断是否存在tag，若存在，重新构造url
        url = url + 'tag/' + tag  # 构造url若tag=爱情，url= "http://lab.scrapyd.cn/tag/爱情"
    yield scrapy.Request(url, self.parse)  # 发送请求爬取参数内容
可以看到   tag = getattr(self, 'tag', None)  就是获取传过来的参数，然后根据不同的参数，构造不同的url，然后进行不同的爬取，经过这么一个处理，我们的蜘蛛就灰常的灵活了，我们来看一下完整代码：
# -*- coding: utf-8 -*-

import scrapy

class ArgsspiderSpider(scrapy.Spider):

        name = "argsSpider"

        def start_requests(self):
            url = 'http://lab.scrapyd.cn/'
            tag = getattr(self, 'tag', None)  # 获取tag值，也就是爬取时传过来的参数
            if tag is not None:  # 判断是否存在tag，若存在，重新构造url
                url = url + 'tag/' + tag  # 构造url若tag=爱情，url= "http://lab.scrapyd.cn/tag/爱情"
            yield scrapy.Request(url, self.parse)  # 发送请求爬取参数内容

        """
        以下内容为上一讲知识，若不清楚具体细节，请查看上一讲！
        """

        def parse(self, response):
            mingyan = response.css('div.quote')
            for v in mingyan:
                text = v.css('.text::text').extract_first()
                tags = v.css('.tags .tag::text').extract()
                tags = ','.join(tags)
                fileName = '%s-语录.txt' % tags
                with open(fileName, "a+") as f:
                    f.write(text)
                    f.write('\n')
                    f.write('标签：' + tags)
                    f.write('\n-------\n')
                    f.close()
            next_page = response.css('li.next a::attr(href)').extract_first()
            if next_page is not None:
                next_page = response.urljoin(next_page)
                yield scrapy.Request(next_page, callback=self.parse)

要如何传参,可以这样：scrapy crawl argsSpider -a tag=爱情

详解scrapy

scrapy如何打开页面

那蜘蛛要发送请求，那总得要有请求链接，如果木有，蜘蛛肯定得不到返回，那页面也就打不开了，因此引出了scrapy spiders的第一个必须的常量：start_urls
URL有两种写法，一种作为类的常量、一种作为start_requests(self)方法的常量，无论哪一种写法，URL都是必须的！
有了URL那就可以发送请求了，如果URL是定义在start_request(self)这个方法里面，那我们就要使用： yield scrapy.Request 方法发送请求：如下：

import scrapy

class simpleUrl(scrapy.Spider):

    name = "simpleUrl"

    # 另外一种初始链接写法
    def start_requests(self):
         urls = [ #爬取的链接由此方法通过下面链接爬取页面
             'http://lab.scrapyd.cn/page/1/',
             'http://lab.scrapyd.cn/page/2/',
         ]
         for url in urls:
            #发送请求
             yield scrapy.Request(url=url, callback=self.parse)

这样写的一个麻烦之处就是我们需要处理我们的返回，也就是我们还需要写一个callback方法来处理response；
因此大多数我们都是把URL作为类的常量，然后再加上另外一个方法： parse(response)

使用这个方法来发送请求，可以看到里面有个参数已经是：response（返回），也就是说这个方法自动化的完成了：request（请求页面）-response（返回页面）的过程，我们就不必要再写函数接受返回

import scrapy

class simpleUrl(scrapy.Spider):

    name = "simpleUrl"

    start_urls = [  #另外一种写法，无需定义start_requests方法
        'http://lab.scrapyd.cn/page/1/',
        'http://lab.scrapyd.cn/page/2/',
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'mingyan-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('保存文件: %s' % filename)

scrapy css选择器

和scrapy相关的函数就这么三个而已：response.css("css表达式")、extract()、extract_first()。
有变化的就是：css表达式的写法,按照HTML标签的结构可以分为：标签属性值提取、标签内容提取
1. 标签属性值的提取 
提取属性是用：“标签名::attr(属性名)”，首先找到要提取的标签最近的class或id，缩小范围！
比如我们要提取url表达式就是：a::attr(href)，要提取图片地址的表达式就是：img::attr(src)
限定一下提取的范围，最好的方法就是找到要提取目标最近的class或是id，可以看到这段代码中有个class="page-navigator"，那我们就可以这样来写：response.css(".page-navigator a::attr(href)").extract()

说明：.page-navigator，其中点代表class选择器，如果代码中是：id=“page-navigator”，那我们这里就要写成：“#page-navigator”

2. 标签内容的提取
提取标签内容是用：“::text”
含有嵌套标签文字的提取：response.css(".post-content *::text").extract()
可以看到，“::tex“t前面有个“*”号，表示当前class或id下所有标签

3. CSS 高级用法
CSS选择器用于选择你想要的元素的样式的模式。"CSS"列表示在CSS版本的属性定义（CSS1，CSS2，或对CSS3）

scrapy xpath选择器

从几个方面说：一、属性提取；二、内容提取；三、标签内包含标签又包含标签的最外层标签里的所有内容提取；
1. scrapy xpath 属性提取
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式：

调试的话我们还是在命令行使用下面命令：scrapy shell lab.scrapyd.cn
函数：response.xpath("表达式")，提取属性的话既然使用：@，那我们要提取href就是：@href，试一下：response.xpath("//@href")
限定我们的属性，使用的是：标签[@属性名='属性值']；
表达式就是：//@属性名，缩小标签范围、限定属性的方式

2. scrapy xpath 标签内容提取
表达式为：//text() 

3. 包含HTML标签的所有文字内容提取
这种用法主要是提取一些内容页，标签里夹杂着文字，但我们只要文字！比如下面的这段代码：
<div class="post-content" itemprop="articleBody">
   <p>如果你因失去了太阳而流泪，那么你也将失去群星了。 
   <br>If you shed tears when you miss the sun, you also miss the stars. 
   </p>
   <p><a href="http://www.scrapyd.cn">scrapy中文网（</a><a href="http://www.scrapyd.cn">http://www.scrapyd.cn</a>）整理</p>        
</div>
如果我们用表达式：//div[@class='post-content']//text()，你会发现虽然能提取但是一个列表，不是整段文字。
那就用到一个xpath函数：string()，可以把表达式这样写：response.xpath("string(//div[@class='post-content'])").extract()，可看到我们没有使用：text()，而是用：string(要提取内容的标签)，这样的话就能把数据都提取出来了，而且都合成为一条，并非一个列表。
这一种用法在我们提取商品详情、小说内容的时候经常用到

4. xpath实例

scrapy命令行工具

1. scrapy全局命令
scrapy startproject project_name
scrapy genspider example example.com (cd project_name)
scrapy crawl XX（运行XX蜘蛛）
scrapy shell www.example.com
(1)startproject
创建项目的，如，创建一个名为：scrapyChina的项目：scrapy strartproject scrapychina
(2)genspider
根据蜘蛛模板创建蜘蛛的命令
(3)settings
scray设置参数,比如我们想得到蜘蛛的下载延迟，我们可以使用：scrapy settings --get DOWNLOAD_DELAY;比如我们想得到蜘蛛的名字：scrapy settings --get BOT_NAME
(4)runspider
运行蜘蛛除了使用：scrapy crawl XX之外，我们还能用：runspider，
前者是基于项目运行，后者是基于文件运行，也就是说你按照scrapy的蜘蛛格式编写了一个py文件，那你不想创建项目，那你就可以使用runspider，比如你编写了一个：scrapyd_cn.py的蜘蛛，你要直接运行就是：scrapy runspider scrapy_cn.py
(5)shell
主要是调试用
(6)fetch
模拟蜘蛛下载页面，也就是说用这个命令下载的页面就是蜘蛛运行时下载的页面，好处是能准确诊断出，得到的html结构到底是不是我们所看到的，然后能及时调整我们编写爬虫的策略。演示window下如下如何把下载的页面保存：scrapy fetch http://www.scrapyd.cn >d:/3.html
(7)view
和fetch类似都是查看蜘蛛看到的是否和你看到的一致，便于排错，用法：scrapy view http://www.scrapyd.cn
(8)version
查看scrapy版本，用法：scrapy version

2. scrapy项目命令
需要在项目文件夹下面打开CMD命令，然后再执行下面的这些命令
(1)crawl
运行蜘蛛
(2)check
检查蜘蛛
(3)list
显示有多少个蜘蛛,这里的蜘蛛就是指spider文件夹下面xx.py文件中定义的name，你有10个py文件但是只有一个定义了蜘蛛的name，那只算一个蜘蛛