Zhangxu's Blog.

Scrapy实用技巧
在使用scrapy过程中总结了一些小技巧,在此分享出来供大家参考。 用 LinkExtractor 收取链接以 http://www.hao123.com/sitemap 为例子: 在shell中运行 1scrapy shell http://www.hao123.com/sitemap 进入shell调试模式,我们来看看使用linkextractors的效果 1234567891011121314151617>>> from scrapy.linkextractors import LinkExtractor>>> links = LinkExtra...
Scrapy实现动态调试和同时启动多个爬虫
一般启动方式1scrapy crawl spider_name 命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。 参见官方文档 比如你可以配置爬虫采集到数据的输出方式:1scrapy crawl dmoz -o items.json 但是它的缺点也很明显: 原子性太强,不方便动态调试代码 当需要启动多个爬虫时,不方便操作 新的思路我们知道Scrapy是基于Twisted实现的爬虫框架, 因此我们可以通过引入reactor来启动我们的爬虫。 为了方便理解,我把的项目结构展示出来: 123456789101112.├── learn_scrapy│   ├──...