一、目标网站: 天猫,京东等电商。 使用资源: 阿里云服务器,拨号VPS代理、讯代理, redis,kafka,spark,hive,hbase等 … 开发过程: 设计爬取策略爬取商品品类对应的全部url,商品价格、和商品评论,促销信息等。 利用scrapy-redis开发分布式采集程序 评论图片存入存入阿里云oss上。 分布式爬虫集群部署利用fabric部署在阿里云服务器。 结果利用redis做缓存数据库,利用spark开发流式处理流程,数据通过kafka存入hive和hbase。 解决淘宝app端的算法并实现app端的采集...
网易云音乐app、酷狗音乐app、陌陌app采集、瑞幸咖啡app等app破解和采集: 独立负责公司娱乐相关项目采集。同时维护爬虫比较多,日常出现问题需要快速解决。按时完成数据交付。 1:网易云音乐app的请求和响应在so层做了加密,同时so无法静态分析。利用frida从内存中dump so,并利用工具对dump的so做修复。通过ida和frida联合分析调试,进而逆向出算法 2:破解瑞幸咖啡app的加密参数时候需要对app脱壳,但分析出加密参数是白盒aes做的加密,无法动态分析出aes的key,则使用unidbg调用so的加密参数,并搭建接口供爬虫调用 3:陌陌采集需要注册账号,但是账...