开发语言:Python、Java
云计算相关技术:Xen、KVM、Docker、K8s
数据库:MySQL
其他:Linux、Redis、Restful、TCP/IP、Jenkins、HTML、CSS、JS
1、爬虫项目
最近的一个项目为爬取国内外45个新闻媒体网站新闻。 可以根据关键词,新闻发布时间,是否有视频等进行抓取。 爬虫运行方式为后台运行,控制端为web页面,数据抓取之后即时存储在数据库。
熟悉python爬虫技术栈,尤其擅长Scrapy。熟悉各种反爬虫策略以及应对措施,包括代理池,设置cookie,伪装请求,ajax请求,分布式爬虫,selenium, phantomjs, bs4。爬虫开发经验非常多。
1. 5个国外实时信息更新网站数据循环抓取,运行在云主机上。包括,全球足球信息网站,全球航班信息网站,全球天气查询,全球赛事信息;
2. 15个国内外视频网站视频信息爬取,爬取字段包括,播放量,下载地址,封面,摘要等重要信息,主要有新浪,凤凰,youtube,华盛顿邮报,芝加哥日报,联合早报。
3. 多个旅游、餐饮网站数据抓取,猫头鹰,yelp等。
2 小程序后端开发【业余】
某线上小程序后端开发,采用Django后端开发。