猿急送>

杭州其它兼职程序员

ID：283384

西贝

高级爬虫工程师

公司信息：
杭州抖查查科技有限公司

工作经验：
6年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
杭州
余杭

技术能力

1. 掌握Python、Golang、PHP语法，了解Java、scala,掌握多进程、多线程、协程，有良好的代码编程习惯
2. 熟练使用数据库 ES、kafka、mysql、redis、mongodb、oss、ssdb、pika、clickhouse、adb-mysql、polarDB
3. 熟练使用docker以及相关的容器化管理服务。比如Rancher部署web和spider服务
4. 熟练掌握分布式爬虫的设计思想，并参与过分布式爬虫框架的设计
5. 掌握基本的反爬策略。IP、验证码、MultiProxy中间人攻击拦截。
6. 熟练掌握 TCP 的三次握手，四次挥手，网络七层模型，五层模型，域名解析；熟练掌握 Linux 的基本命令
7.了解阿里云的一些大数据组件：数据湖spark作业任务部署、dms、dataworks
8.掌握APP端、WEB端基本逆向。包括脱壳、反编译。Xposed、Frida Hook调用和jadx、jeb、IDA等工具基本使用。

项目经验

一、企查查、、天眼眼查、、爱企查、、水滴信用、、企信宝、、慧聪网、、阿里巴巴

获取企业平台的基本信息和联系方式。独立解决网站风控加密、数据挖掘、数据清洗、数据处理等工作。由于资源有限，日采集量500万+，累计2亿+。理论无上限。

二、D音APP、、火山、、WEB端数据

项目描述 : 对D音的全方位的数据的挖掘，主要包括人物、视频、话题、音乐、商品、直播（弹幕、基础数据、大赏、福袋、广告）等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取，千万量级采用的golang高并发采集。队列系统采用的是SSDB、pika、redis进行去重和设计，数据统一放到kafka进行，大数据进行处理。日常也会协助大数据开发进行处理所有爬虫服务统一放到docker里面，结合rancher对docker进行监控技术架构：Python + Golang + spark 数据库： ES、kafka、mysql、redis、mongodb、oss、ssdb、pika、clickhouse、adb-mysql、polarDB WEB服务：golang Gin框架 + python flask框架 + java spring boot API服务 + PHP swoft框架 I P服务：拨号搭建IP服务

案例展示

抖查查

项目描述 : 对D音的全方位的数据的挖掘，主要包括人物、视频、话题、音乐、商品、直播（弹幕、基础数据、大赏、福袋、广告）等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取，千万量级采用的golang高并发采集。队列系统采用的是SSDB、pika、redi
抖查数据

项目描述 : 对D音的全方位的数据的挖掘，主要包括人物、视频、话题、音乐、商品、直播（弹幕、基础数据、大赏、福袋、广告）等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取，千万量级采用的golang高并发采集。队列系统采用的是SSDB、pika、redi