主要工作是爬虫,各种逆向,js加密,验证码处理,分布式任务框架搭建,同时兼顾前后端,网站搭建,移动端app数据采集,电商平台数据采集,数据可视化,保证数据完整性。
1.Python中8种数据类型的精通使用
2.Python匿名函数、列表推导式、装饰器的熟练使用
3.Python中re、requests、beautifulSoup等库的熟练使用
4.Python爬虫框架Scrapy的熟练使用
5.Python爬虫伪装中代理IP、UserAgent的熟练使用
6.Python与scrapyt-redis分布式爬虫的基本使用
7.Python操作Mysql数据库增删改查
8.Python操作MongoDB数据库增删改查
9.Python建立数据库连接池提高效率
10.团队协作开发工具git的熟练使用
11.熟悉Linux日常工作环境,熟练掌握常用命令和调优监控手段
12.python机器学习库scikit-learn库的熟练使用
13.python科学计算库numpy、scipy和数据分析库pandas的熟练使用
1.基于Selenium的12306自动刷票软件
2.基于Scrapy爬取伯乐在线网站存入mysql数据库
3.基于GradientBoosting模型的厦门市房价预测系统
熟悉多线程多进程分布式等,对爬虫任务调度有很好的解决办法
采集数据频率高,数据量大,范围广,能做深度抓取。爬虫遇到性能瓶颈,如何分析瓶颈并解决。
熟悉并能解决常见的反爬措施,比如常见的图片验证,滑动验证,拼图,短信验证等。常见的封IP,封header等。比如给爬虫投毒喂假数据如何识别。
负责整个项目的搭建,框架的编写,部分子任务的编写,该项目可以定时自动运行,自动监控运行异常,邮件方式提醒异常
完全负责该项目,该项目主要内容是舆情监测,有微信公众号的文章信息,阿里的拍卖数据,各种其它网站的信息数据
完全负责该项目,该项目主要内容是舆情监测,有微信公众号的文章信息,阿里的拍卖数据,各种其它网站的信息数据