有完整的大型爬虫设计和开发经验。
非常了解scrapy框架, requests,urllib,beautifulsoup等第三方库,并使用它们进行抓取任务。
熟练使用xpath,css,正则表达式等对数据做清理。
轻松应对常用的反爬技术,如模拟登录、IP/UA代理池、数字、图片、滑块等验证码的破解、cookie、url加密,前端的伪元素,自定义字体等。
有js逆向项目经验。
有安卓逆向项目经验,通过xposed HOOK JAVA层代码获取原始参数,完成数据抓取。
熟练使用selenium。
熟练使用spiderkeeper对爬虫项目进行可视化管理。
熟练使用scrapyd进行scrapy爬虫的部署,监测爬虫的运行状况。
有海外平台的爬虫经验,推特和ESPN。
有多个使用python作为后端的小程序全栈开发经验。
熟练使用Djang框架,能独立开发完整的数据库驱动的服务端项目。
熟练使用Tornado框架,有单独tornado项目开发经验。
熟练部署nginx + uwsgi + django开发的项目。
熟练部署nginx + supervisor + tornado开发的项目。
熟练使用 MongoDB、redis,在近两年长期使用mongodb和redis。
熟练使用mongodb的索引建立,聚合查询。
熟练微信小程序开发流程,有4个上线微信小程序开发经验。
有过半年vue开发h5前端的经历。
开发环境,ubuntu;IDE使用pycharm,webstrom。
多年都使用git作为版本控制工具。
一、18年世界杯爬虫。
爬取世界杯比赛期间比赛的实时相关数据(当时的数据比视频信号快接近10秒),并通过公众号对订阅用户进行推送。
分组的各个球队的信息,包括榜单,积分,球员资料等。
世界杯新闻聚合,涉及的网站有FIFA官网、腾讯体育、新浪体育、虎扑、ESpn、部分世界杯参赛球员的推特内容。
部分世界杯视频集锦。
二、中国工商局商标网商标信息的爬取
语言: Python3.6
技术选型: scrapy + mongodb
成果: 破解了商标网url加密,人机识别, IP的封禁反爬虫机制。抓取了大量商标信息并储存入库。
三、章鱼直播比分模块开发。
项目描述:为用户提供全球2193家足球赛事的比赛数据信息。包括多赛季赛程,赛果,实时比分、角球,红黄牌、控球率、进攻次数、危险进攻次数,文字直播的push,并支持动画直播。全球20+公司的实时赔率数据与多种不同玩法的数据展示。
我的职责:负责整个比分的数据结构设计,爬虫架构。赛程, 多赛季历史数据赛,实时比分push, 北单竞彩等多家彩票赔率, 20+公司的赔率数据, 文字直播, 动画直播的爬虫开发(scrapy, scrapy-redis),部署(jenkins+scrapyd)和维护。
足球比赛的数据挖掘、数据包括赛程、实时比分、赔率、最近战绩、文字直播、动画直播;后台 api 的开发。 项目介绍: 整个项目基于 tornado框架的异步机制,使用了websocket长连接针对实时比分,实时赔率的推送,聊天室也使用websocket。在开发的过程中,整个爬虫的
实现了料的上传, 生成有料的二维码, 通过分享二维码进行推销自己的料(扫码跳转到支付页),后台审核(人工审核后扫码才能跳转支付页), 个人买的料和卖的料页面展示, 每条有料的详情页面, 个人历史战绩表, 钱包系统(支持企业付款到零钱),购买历史记录和出售记录等功能。