1. 熟练使用Python urllib2、Requests等网络模块。
2. 熟练使用Selenium+PhantomJS实现动态HTML抓取。
3. 熟练掌握Scrapy框架、scrapy-redis分布式组。
4. 了解Django/Flask框架。
5. 熟悉Redis缓存技术。
6. 了解MySQL,MongoDB数据库。
7. 熟悉CSS,JS,HTML,能够完成简单的页面开发。
8. 了解JavaScript、Ajax、JQuery等WEB前端技术。
项目名称:态势感知大数据平台系统
开发环境:Pycharm + Scrapy框架 + Scrapy-redis分布式组件 + Mongodb + Redis
项目工作:爬取贴吧、微博热门,明星,大V的微博,分析内容和客户公司相关信息,进行反馈, 实时抓取微博与客户有关的负面微博,及时汇报给客户
项目职责:负责爬虫的开发和维护
主要技术:
1、采用scrapy框架开发 scrapy-redis分布式实现
2、请求中加入cookie,获取登陆权限
3、对于图片登陆验证,使用Tesseract等第三方模块识别
5、分布式使用Redis做为缓存数据库,利用Redis的高并发和I/O读写来实现下载,将数据同步到Mongodb数据库里,并建立索引方便查询和管理
6、为了保证数据抓取的准确, 购买了IP代理池,每10次发送请求,更换一次代理ip