1. 掌握Python、Golang、PHP语法,了解Java、scala,掌握多进程、多线程、协程,有良好的代码编程习惯
2. 熟练使用数据库 ES、kafka、mysql、redis、mongodb、oss、ssdb、pika、clickhouse、adb-mysql、polarDB
3. 熟练使用docker以及相关的容器化管理服务。比如Rancher部署web和spider服务
4. 熟练掌握分布式爬虫的设计思想,并参与过分布式爬虫框架的设计
5. 掌握基本的反爬策略。IP、验证码、MultiProxy中间人攻击拦截。
6. 熟练掌握 TCP 的三次握手,四次挥手,网络七层模型,五层模型,域名解析; 熟练掌握 Linux 的基本命令
7.了解阿里云的一些大数据组件:数据湖spark作业任务部署、dms、dataworks
8.掌握APP端、WEB端基本逆向。包括脱壳、反编译。Xposed、Frida Hook调用和jadx、jeb、IDA等工具基本使用。
一、企查查、、天眼眼查、、爱企查、、水滴信用、、企信宝、、慧聪网、、阿里巴巴
获取企业平台的基本信息和联系方式。独立解决网站风控加密、数据挖掘、数据清洗、数据处理等工作。由于资源有限, 日采集量500万+,累计2亿+。理论无上限。
二、D音APP、、火山、、WEB端数据
项目描述 : 对D音的全方位的数据的挖掘,主要包括人物、视频、话题、音乐、商品、直播(弹幕、基础数据、大赏、 福袋、广告)等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取,千万量级采用的golang高并发采 集。队列系统采用的是SSDB、pika、redis进行去重和设计,数据统一放到kafka进行,大数据进行处理。日常也会协助大 数据开发进行处理 所有爬虫服务统一放到docker里面,结合rancher对docker进行监控 技术架构:Python + Golang + spark 数据库: ES、kafka、mysql、redis、mongodb、oss、ssdb、pika、clickhouse、adb-mysql、polarDB WEB服务:golang Gin框架 + python flask框架 + java spring boot API服务 + PHP swoft框架 I P服务:拨号搭建IP服务
项目描述 : 对D音的全方位的数据的挖掘,主要包括人物、视频、话题、音乐、商品、直播(弹幕、基础数据、大赏、 福袋、广告)等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取,千万量级采用的golang高并发采 集。队列系统采用的是SSDB、pika、redi
项目描述 : 对D音的全方位的数据的挖掘,主要包括人物、视频、话题、音乐、商品、直播(弹幕、基础数据、大赏、 福袋、广告)等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取,千万量级采用的golang高并发采 集。队列系统采用的是SSDB、pika、redi