1.熟悉Linux系统,掌握JavaScript 、Python、Go等语言;
2.了解多线程、多进程、网络通信编程相关知识,有分布式爬虫架构,数据挖掘经验;
3.掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;
4.熟悉APP模拟及接口验签破解技术,了解APP用户授权访问机制,掌握Selenium,APP破解技术;
1.知乎
2.微博
3.搜狗
a.获取搜狗指数(包括搜狗搜索指数与微信指数)
b.获取微信公众号文章链接(搜狗的链接是临时的,2小时左右过期,需尽快保存文章到本地)
4.微信公众号文章转换小工具
将从搜狗取得的微信公众号文章保存到数据库(保持正常访问的显示效果)
5.今日头条
a.获取今日头条新闻
b.获取头条媒体实验室关键词热议指数
6.boss直聘招聘信息
获取北京地区Python岗位详情