猿急送>

北京其它兼职程序员

ID：158604

饮鸩不止渴

爬虫工程师

公司信息：
广州量数科技

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
北京
海淀

技术能力

Python 技能：
* 熟练掌握python 的基本语法，对面向对象思想有一定的了解
* 了解Python 垃圾回收机制及其原理
* 熟悉python 多线程多进程编程
## 数据分析技能：
* 熟悉Linux 开发环境，熟练掌握常用命令行的使用
* 熟悉PDFMiner，pdf2htmlEX 模块进行pdf 文本处理
* 掌握jieba 分词，newspapers 新闻，正则表达式等提取模块
* 了解Numpy, Pandas，matplotlib 等的数据分析工具
* 熟悉基本的excel，word 等办公软件
## 爬虫技能：
* 熟悉HTTP/HTTPS 协议，TCP/IP 网络协议
* 掌握常见的爬虫、反爬虫知识及应对措施
* 熟练使用Python lxml、Beautiful、re、json 模块进行数据提取
* 熟悉XPath 语法规则和各CSS Selector 的使用
* 熟练使用Selenium+PhantomJS 实施动态HTML 抓取
* 掌握Scrapy 框架，以及编写各类中间件
* 熟悉fiddler 抓包工具的使用，能够获取手机端，web端，数据接口api
## 数据库技能：
· 熟练使用MySQL 数据库，了解MongoDB，Redis 的相关操作

项目经验

汽车之家app内容爬取
##### 项目描述
该项目主要是升级旧爬虫，抓取用户口碑，以及经销商信息，定期监控新车信息。突破汽车之家 web 页面更新的字体，ip 反爬措施，利用 fiddler 抓包汽车之家APP 的 api 接口，获取口碑帖子，提车文章
##### 责任描述
- 个人完成数据的抓包，分析数据是否加密，请求发送数据内容，制定爬取策略
- 依据车型信息，获取车型分论坛url 接口，用户提车帖url 接口，使用正则匹配信息数据
- 使用scrapy 爬取口碑数据，提车数据，User-Agent 池模拟手机端信息，绕过反爬，获取数据，存入mysql
- 后期改进爬取策略，以爬取日期作为判断依据，升级定时爬取，减少资源浪费
- 涉及技术：Docker + mysql + scrapy + fiddler + 代理ip
### 财经网站, 财经论坛, 微博股票, 财经新闻内容爬取
##### 项目描述
应客户需求抓取新浪微博历史热点评论信息，爬取东方财富个股的评论，个股的公告数据，个股的交易信息等数据。爬取雪球网个股的文本数据。爬取百度新闻，新浪财经等新闻历史数据。依据提取关键词、热词、情感标注，来分析相关因子与股票时间轴走势相关性。