主要写python,scrapy,selenium等爬虫框架,xpath,css,bs4,re网页解析库,urllib,requests等等爬虫验证码,反爬,反反爬,ip代理问题。numpy,pandas,sklearn等科学计算,掌握部分机器学习例如逻辑回归、决策树、svm等,数据库方面mysql,mongodb,ridis.
淘宝/京东指定关键字采集,采用selenium采集,并写入mongodb数据库
博客新闻采集:采用scrapy采集部分博客账号下的资料,包含新闻标题,时间,内容,简介,评论数,阅读数,发布时间,作者,运用动态ip更换,tessorc等技术识别部分验证码,图片内容等。
历史天气数据采集:北京各地区天气,空气质量
供应商数据采集:已知电商/各大商超供应商订单信息采集,包含订单,验收单,结算单,付款单,发票等信息,定时采集并建表存储。