猿急送>

北京后端兼职程序员

ID：198547

welsher

爬虫工程师

公司信息：
章鱼风云互联网科技有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程
可工作日驻场（离职原因）

所在区域：
北京
海淀

技术能力

有完整的大型爬虫设计和开发经验。
非常了解scrapy框架, requests,urllib,beautifulsoup等第三方库，并使用它们进行抓取任务。
熟练使用xpath,css,正则表达式等对数据做清理。
轻松应对常用的反爬技术,如模拟登录、IP/UA代理池、数字、图片、滑块等验证码的破解、cookie、url加密，前端的伪元素，自定义字体等。
有js逆向项目经验。
有安卓逆向项目经验,通过xposed　HOOK　JAVA层代码获取原始参数,完成数据抓取。
熟练使用selenium。
熟练使用spiderkeeper对爬虫项目进行可视化管理。
熟练使用scrapyd进行scrapy爬虫的部署，监测爬虫的运行状况。
有海外平台的爬虫经验，推特和ESPN。

有多个使用python作为后端的小程序全栈开发经验。
熟练使用Djang框架,能独立开发完整的数据库驱动的服务端项目。
熟练使用Tornado框架,有单独tornado项目开发经验。
熟练部署nginx + uwsgi + django开发的项目。
熟练部署nginx + supervisor + tornado开发的项目。
熟练使用 MongoDB、redis,在近两年长期使用mongodb和redis。
熟练使用mongodb的索引建立，聚合查询。
熟练微信小程序开发流程，有４个上线微信小程序开发经验。
有过半年vue开发h5前端的经历。

开发环境，ubuntu;IDE使用pycharm，webstrom。
多年都使用git作为版本控制工具。

项目经验

一、18年世界杯爬虫。

爬取世界杯比赛期间比赛的实时相关数据（当时的数据比视频信号快接近１０秒），并通过公众号对订阅用户进行推送。
分组的各个球队的信息，包括榜单，积分，球员资料等。
世界杯新闻聚合，涉及的网站有FIFA官网、腾讯体育、新浪体育、虎扑、ESpn、部分世界杯参赛球员的推特内容。
部分世界杯视频集锦。

二、中国工商局商标网商标信息的爬取

语言: Python3.6
技术选型: scrapy + mongodb
成果：破解了商标网url加密,人机识别, IP的封禁反爬虫机制。抓取了大量商标信息并储存入库。

三、章鱼直播比分模块开发。

项目描述：为用户提供全球2193家足球赛事的比赛数据信息。包括多赛季赛程，赛果，实时比分、角球，红黄牌、控球率、进攻次数、危险进攻次数，文字直播的push，并支持动画直播。全球20+公司的实时赔率数据与多种不同玩法的数据展示。
我的职责：负责整个比分的数据结构设计，爬虫架构。赛程，多赛季历史数据赛，实时比分push, 北单竞彩等多家彩票赔率， 20+公司的赔率数据，文字直播，动画直播的爬虫开发（scrapy, scrapy-redis），部署（jenkins+scrapyd）和维护。

案例展示

章鱼比分

足球比赛的数据挖掘、数据包括赛程、实时比分、赔率、最近战绩、文字直播、动画直播;后台 api 的开发。项目介绍: 整个项目基于 tornado框架的异步机制，使用了websocket长连接针对实时比分，实时赔率的推送，聊天室也使用websocket。在开发的过程中,整个爬虫的
章鱼有料

实现了料的上传, 生成有料的二维码, 通过分享二维码进行推销自己的料（扫码跳转到支付页）,后台审核(人工审核后扫码才能跳转支付页), 个人买的料和卖的料页面展示, 每条有料的详情页面, 个人历史战绩表, 钱包系统（支持企业付款到零钱）,购买历史记录和出售记录等功能。