Zhangxu's Blog.

Scrapy实现动态调试和同时启动多个爬虫
一般启动方式1scrapy crawl spider_name 命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。 参见官方文档 比如你可以配置爬虫采集到数据的输出方式:1scrapy crawl dmoz -o items.json 但是它的缺点也很明显: 原子性太强,不方便动态调试代码 当需要启动多个爬虫时,不方便操作 新的思路我们知道Scrapy是基于Twisted实现的爬虫框架, 因此我们可以通过引入reactor来启动我们的爬虫。 为了方便理解,我把的项目结构展示出来: 123456789101112.├── learn_scrapy│   ├──...