scrapy 学习
命令行
在想要创建项目的目录执行命令:scrapy startproject projectname
创建一个爬虫:scrapy genspider mydomain mydomain.com
执行爬虫:scrapy crawl dmoz
shell:scrapy shell "http://XXXXXX"
脚本中运行scrapy
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from testspiders.spiders.followall import FollowAllSpider
from scrapy.utils.project import get_project_settings
spider = FollowAllSpider(domain='scrapinghub.com')
settings = get_project_settings()
crawler = Crawler(settings)
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here until the spider_closed signal was sent
selector
Selector有四个基本的方法(点击相应的方法可以看到详细的API文档):
xpath()
: 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。css()
: 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表.extract()
: 序列化该节点为unicode字符串并返回list。re()
: 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。
XPATH
辅助工具:firedebug 复制xpath、xpath checker 插件
CrawlSpider
CrawSpider与Spider区别在于,可以自动对response的页面中符合rules规则的链接进行自动爬取,若一个链接匹配多条规则,默认按第一条规则进行处理,rules为若干个Rule
对象的集合,Rule对象包括如下参数:
link_extractor
是一个 Link Extractor 对象。 其定义了如何从爬取到的页面提取链接,scrapy将自动根据这些链接创建Request
对象,并进行爬取callback
是一个callable或string(该spider中同名的函数将会被调用),其作用是做为根据该规则生成的Request对象的回调函数follow
是一个布尔(boolean)值,指定了是否需要对调用根据该规则生成的Request对象返回的Response进行跟进(不是是否对当前链接进行爬取),是否跟进是指是否将response与rules进行匹配。 如果 callback 为None, follow 默认设置为 True ,否则默认为 False 。对初始url产生的Request,默认进行follow。process_links
是一个callable或string(该spider中同名的函数将会被调用)。 从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤,使用方法如下:
def process_links(self,links):
mylinks = []
for link in links:
if(link.url=="xxxxxx"):
mylinks.append(link)
return mylinks
process_request
是一个callable或string(该spider中同名的函数将会被调用)。 该规则提取到每个request时都会调用该函数。该函数必须返回一个request或者None。 (用来过滤request)
CrawlSpider爬取知乎示例:
# !/usr/bin/env python
# -*- coding:utf-8 -*-
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import Selector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.http import Request, FormRequest
from zhihu.items import ZhihuItem
class ZhihuSipder(CrawlSpider) :
name = "zhihu"
allowed_domains = ["www.zhihu.com"]
start_urls = [
"http://www.zhihu.com"
]
rules = (
Rule(SgmlLinkExtractor(allow = ('/question/\d+#.*?', )), callback = 'parse_page', follow = True),
Rule(SgmlLinkExtractor(allow = ('/question/\d+', )), callback = 'parse_page', follow = True),
)
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip,deflate",
"Accept-Language": "en-US,en;q=0.8,zh-TW;q=0.6,zh;q=0.4",
"Connection": "keep-alive",
"Content-Type":" application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36",
"Referer": "http://www.zhihu.com/"
}
#重写了爬虫类的方法, 实现了自定义请求, 运行成功后会调用callback回调函数
def start_requests(self):
return [Request("https://www.zhihu.com/login", meta = {'cookiejar' : 1}, callback = self.post_login)]
#FormRequeset出问题了
def post_login(self, response):
print 'Preparing login'
#下面这句话用于抓取请求网页后返回网页中的_xsrf字段的文字, 用于成功提交表单
xsrf = Selector(response).xpath('//input[@name="_xsrf"]/@value').extract()[0]
print xsrf
#FormRequeset.from_response是Scrapy提供的一个函数, 用于post表单
#登陆成功后, 会调用after_login回调函数
return [FormRequest.from_response(response, #"http://www.zhihu.com/login",
meta = {'cookiejar' : response.meta['cookiejar']},
headers = self.headers, #注意此处的headers
formdata = {
'_xsrf': xsrf,
'email': '1095511864@qq.com',
'password': '123456'
},
callback = self.after_login,
dont_filter = True
)]
def after_login(self, response) :
for url in self.start_urls :
yield self.make_requests_from_url(url)
def parse_page(self, response):
problem = Selector(response)
item = ZhihuItem()
item['url'] = response.url
item['name'] = problem.xpath('//span[@class="name"]/text()').extract()
print item['name']
item['title'] = problem.xpath('//h2[@class="zm-item-title zm-editable-content"]/text()').extract()
item['description'] = problem.xpath('//div[@class="zm-editable-content"]/text()').extract()
item['answer']= problem.xpath('//div[@class=" zm-editable-content clearfix"]/text()').extract()
return item
Link Extractor
每个LinkExtractor有唯一的公共方法是 extract_links
,它接收一个 Response 对象,并返回一个 scrapy.link.Link
对象。Link Extractors,要实例化一次并且 extract_links
方法会根据不同的response调用多次提取链接。
问题
scrapy的去重机制和深度
如何保存scrapy爬取过的url
def parse(self, response):
item = DmozItem(link=response.url)
yield item
CrawlSpider递归爬取:
设置follow为true,或者在parse_item方法中调用parse
Rule(LinkExtractor(allow=('blog.agppp.cn',)), callback='parse_item',follow=True),
def parse_item(self, response):
item = DmozItem(link=response.url)
yield item
for i in self.parse(response):
yield i
scrapy 设置代理
CrawlSpider详解
request API
response API
XPATH入门教程
scrapy入门教程
scrapy入门教程2