1、熟悉Python语法,三年python语言开发经验;
2、熟悉HTTP/HTTPS协议、TCP/UDP、熟悉Socket、多线程、多进程编程,了解Shell编程;
3、熟悉使用urllib、urllib2、requests、urllib.requests、urllib.parse、等网络模块;
4、熟悉使用lxml、BeautifulSoup、正则、及json模块进行数据提取;
5、熟悉Xpath语法规则和各CSS Selector的使用;
6、熟练使用Selenium+PhantomJS(headless Chrome)实施动态HTML抓取;
7、熟悉Scrapy, crawl Scrapy及Scrapy-redis分布式框架;
8、熟练掌握Django框架下的Web后台业务编程,熟悉MVC框架开发;
9、了解Flask和Tornado框架下的Web后台业务编程;
10、熟悉应用MySQL、Redis、MongoDB数据库设计及SQL语句;
11、了解数据结构,排序算法,熟悉各种常见设计模式;
12、了解Javascript、Jquery、CSS、AJAX、HTML、Bootstrap、react等前端开发。
1、百度指数数据采集(百度数据以图片返回,使用百度和谷歌图像识别采集数据)
2、搜狗指数数据采集(数据在script中,通过正则提前)
3、CFDA数据采集(数据是js加密)
4、1药网数据采集
5、药渡数据采集
6、丁香园数据采集
7、医药新势力数据采集
8、药智数据采集
9、等很多其他项目