熟悉windows, linux环境的开发
熟悉分布式,多线程,协程
熟练使用Flask, Django开发
熟练使用scrapy、scrapy_redis等爬虫框架
拥有使用requests 多线程 以及kafka 搭建爬虫架构经验
熟练使用phantomJS、selenium模块
能够应对 封锁ip,登录,cookie,js加密等常见反爬手段
了解HTTP/HTTPS,TCP/IP等网络协议
熟练使用正则表达式,xpath,json提取网页数据
熟悉HTML、CSS、JS、AJAX、JSON等前端技术
熟练使用MySQL/MongoDB/Redis
熟练使用numpy、pandas进行数据分析和特征提取
掌握常用的数据结构和算法
熟练使用Jenkins+Docker+Rancher+harbor部署
熟练使用Consul配置中心;
熟练使用Zabbix监控程序的运行状况;
熟练使用crontab, apscheduler定时
掌握svn,git
遵循PEP8,熟练使用Python2,Python3
开发b2c电商平台,使用scrapy进行数据采集,带团队搭建数据采集平台,对京东天猫亚马逊平台进行商品信息采集,使用numpy以及pandas对客户数据进行特征提取,搭建算法工程化服务并部署,编写spark脚本。
- 使用技术:Requests,Scrapy, RabbitMQ, XXL-JOB, Xpath,正则表达式,SimHash,分布式,搭建网站采集配置化页面 - 项目描述:主要采集光伏太阳能相关的网站以及相应技术网站的数据,保存到内部的MongoDB;商情系统通过对特定信息的检
- 使用技术:使用Requests,多线程,搭建爬虫框架,mysql, selenium, chromedriver - 项目描述:采集天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书信息以及评论信息,并对图书销量以及口碑进行评估并将结果推送给出版商 - 项目