l熟悉Scrapy框架、XPath、BeautifulSoup4,jsonPATH正则等数据提取工具,
l熟悉Selenium自动化测试工具,对网站反爬与防反爬与有一定研究
l熟练使用Django,flask等Python后台框架;
l掌握Javascript / HTML / XML / JSON / HTML5 /AJAX/ JQuery;
l熟悉Linux操作系统及shell编程;
l熟悉MySql、redis、MongoDB数据库;
l对git版本控制有一定了解
l熟悉数据可视化处理工具:matplotlib、seaborn;科学计算工具-numpy;数据分析工具-pandas等
l亚马逊分布式爬虫
使用scrapy框架结合redis数据库同时使用多台机器对亚马逊商品数据进行分布式爬取,同时应对爬虫做了反爬处理,可根据需求达到每天更新120w以上商品数据
l国外网站数据爬取
对liligal、77onlineshop等网站的爬虫,基于scrapy框架,实现对所有商品数据的爬取与整理,并根据销量、评论数等筛选进行图片的收集
l网上食品购物商城
一个B2C的购物网站,实现用户商品浏览与搜索、加入购物车、支付结算、浏览记录等功能,基于django框架开发,共有用户,商品,订单,购物车四大模块,采用了fastDFS分布式系统存储、首页静态化处理等技术减轻服务器压力
l仿简书网站
一个写作平台,基于Django框架,和团队完全独立开发,实现文章发表,评论,打赏,私信,文集,推荐、简信、验证码发送等功能