Zhangxu's Blog.

第1周ARTS
写在前面最近参加陈皓老师的专栏活动,每周一篇ARTS,即: algorithm -> 一个算法题 review -> 点评一篇英文技术文章 tip -> 学习一个技术技巧 share -> 分享一个有观点和思考的文章 至少坚持一年。 我是一个菜鸡,之前没有接触过JAVA,最近跟着专栏才开始学习,希望自己可以在这个活动中能够打牢基础,学好英语,期待自己的变化。 Algorithm说来惭愧,我没有系统的学习过算法知识,第一周先来个简单的题尝尝,后面再接再厉。 题目:给定一个整数数组和一个目标值,找出数组中和为目标值的两个数。你可以假设每个输入只对应一种答案,且同...
matplotlib简单上手
本文总结自途索的慕课网课程,增加了些自己的理解。 matplotlib 是一个优秀的数据可视化库,可以很方便的使用Python生成方便我们分析的数据图表,一起来看看吧。 导入必要的包12import matplotlib.pyplot as pltimport numpy as np 如果是在jupyter中操作,可以使用%matplotlib inline这个魔术方法,它会将matplotlib绘制的图表显示在记事本中,方便直观的浏览。 同时我们还导入了numpy,它是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 准备绘图...
短文本分类之构建词向量
前期工作我的目标是利用tenserflow得到一个可以对新闻标题进行准确分类的分类器。 首先我需要有新闻标题的原始数据,因此我从今日头条抓取了近十万条新闻标题用于接下来的训练工作。 得到原始标题数据后,我需要对其进行分词构建语料库,分词我使用jieba这个第三方库。 之后要通过语料库用Word2vec算法对分词进行训练,这里我使用gensim的word2vec。 梳理下准备条件: 原始新闻标题数据 jiaba gensim 生成语料文件我抓取的数据存放在MYSQL,因此我将查询出标题进行分词后写入语料文件:yuliao.txt。 123456789101112131415161718...
Hive常用操作
创建表简单的建表123456789create tablespec_table_from_textfile( id bigint, table_code string, table_name string, table_common string, column_code string, column_name string, column_common string) 从查询结果创建表1234create table table2as select phone_num,real_name,id_card,create_time from table1 where info...
HTTPS 环境搭建
申请证书 登录阿里云管理控制台 CA证书服务 -> 购买证书 选择 免费型DV SSL 品牌 Symantec 购买 -> 支付 回到步骤2证书服务控制台 补全域名信息 等待审核成功 下载证书 登录证书服务控制台,找到到对应证书点击下载。 得到两个证书文件:214448811130415.key、 214448811130415.pem 在Nginx安装目录下创建一个文件夹将其放入,我这里是:123456[root@Guitar cert]# pwd/etc/nginx/cert[root@Guitar cert]# lltotal 8-rw-r--r-- 1 root r...
Scrapy实用技巧
在使用scrapy过程中总结了一些小技巧,在此分享出来供大家参考。 用 LinkExtractor 收取链接以 http://www.hao123.com/sitemap 为例子: 在shell中运行 1scrapy shell http://www.hao123.com/sitemap 进入shell调试模式,我们来看看使用linkextractors的效果 1234567891011121314151617>>> from scrapy.linkextractors import LinkExtractor>>> links = LinkExtra...
Scrapy实现动态调试和同时启动多个爬虫
一般启动方式1scrapy crawl spider_name 命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。 参见官方文档 比如你可以配置爬虫采集到数据的输出方式:1scrapy crawl dmoz -o items.json 但是它的缺点也很明显: 原子性太强,不方便动态调试代码 当需要启动多个爬虫时,不方便操作 新的思路我们知道Scrapy是基于Twisted实现的爬虫框架, 因此我们可以通过引入reactor来启动我们的爬虫。 为了方便理解,我把的项目结构展示出来: 123456789101112.├── learn_scrapy│   ├──...