熟练掌握Python等语言编程和Linux系统的命令使用
熟练逆向分析app、app脱壳。用xposed、frida、jadx、jeb、ida等工具,动态分析和破解app在java层和so层的加密参数
熟练使用unidbg调用so文件来破解app的加密参数
突破网站各种反爬手段,通过利用逆向js,利用ast处理js混淆,通过补环境或者还原算法,或者rpc方式,解决js的加密问题
实现图片验证码识别、滑块等
熟练调试和分析微信小程序的加密参数问题
熟练利用uiautomator2工具实现操控手机app,实现手机群控
快速搭建VPS代理
熟练利用Mysql、MongoDB、Redis、kafka、Hive、Hbase等关系型和非关系型数据库进行数据存储和处理
做的爬虫有各大电商(天猫,京东,国美,苏宁等)的爬虫,地产,各大论坛,今日头条,新浪等数百个网站的爬虫
其中一个项目名称:新浪网分类资讯分布式爬虫:
项目简介:
1. 这个项目是对新浪网分类资讯新闻爬取的分布式实现。Windows 10做Master端,多个Linux端做Slave端。采用scrapy-redis分布式框架实现爬虫集群,分布式使用Redis实现,存储Request请求和指纹集合,并且对各个Slave端爬虫实现集中管理和控制,
2. 利用Redis的高并发和I/O读写来实现高速下载,并且可以通过扩展Redis集群和Slave集群来应对性能瓶颈。采用MongoDB做为本地数据库,将资讯新闻按所属大类、子类以及标题和内容,保存在MongoDB中。同时每次下载前会检查请求指纹,防止重复下载,避免资源浪费。
1: 抖音app、抖音网页数据采集: 独立负责整个抖音所有站点的开发和维护工作,日采集数据量上亿条。采集内容主要分为抖音电商模块、抖音视频模块、抖音直播和抖音本地生活模块。实时性要求较高 1: 解决了抖音pc端的参数X-Bogus、_signature,以及msToken、t
一、目标网站: 天猫,京东等电商。 使用资源: 阿里云服务器,拨号VPS代理、讯代理, redis,kafka,spark,hive,hbase等 … 开发过程: 设计爬取策略爬取商品品类对应的全部url,商品价格、和商品评论,促销信息等。 利用scrapy-red
网易云音乐app、酷狗音乐app、陌陌app采集、瑞幸咖啡app等app破解和采集: 独立负责公司娱乐相关项目采集。同时维护爬虫比较多,日常出现问题需要快速解决。按时完成数据交付。 1:网易云音乐app的请求和响应在so层做了加密,同时so无法静态分析。利用frida从内存中