Zhangxu's Blog.

Zhangxu's Blog.

ever youthful, ever weeping.

HTTPS 环境搭建
申请证书 登录阿里云管理控制台 CA证书服务 -> 购买证书 选择 免费型DV SSL 品牌 Symantec 购买 -> 支付 回到步骤2证书服务控制台 补全域名信息 等待审核成功 下载证书 登录证书服务控制台,找到到对应证书点击下载。 得到两个证书文件:214448811130415.key、 214448811130415.pem 在Nginx安装目录下创建一个文件夹将其放入,我这里是:123456[root@Guitar cert]# pwd/etc/nginx/cert[root@Guitar cert]# lltotal 8-rw-r--r-- 1 root r...
Scrapy实用技巧
在使用scrapy过程中总结了一些小技巧,在此分享出来供大家参考。 用 LinkExtractor 收取链接以 http://www.hao123.com/sitemap 为例子: 在shell中运行 1scrapy shell http://www.hao123.com/sitemap 进入shell调试模式,我们来看看使用linkextractors的效果 1234567891011121314151617>>> from scrapy.linkextractors import LinkExtractor>>> links = LinkExtra...
Scrapy实现动态调试和同时启动多个爬虫
一般启动方式1scrapy crawl spider_name 命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。 参见官方文档 比如你可以配置爬虫采集到数据的输出方式:1scrapy crawl dmoz -o items.json 但是它的缺点也很明显: 原子性太强,不方便动态调试代码 当需要启动多个爬虫时,不方便操作 新的思路我们知道Scrapy是基于Twisted实现的爬虫框架, 因此我们可以通过引入reactor来启动我们的爬虫。 为了方便理解,我把的项目结构展示出来: 123456789101112.├── learn_scrapy│   ├──...
Zhangxu
witness me