爬虫方面:
掌握逆向分析(JS逆向破解)技能
熟悉反反爬原理、各网页抓包技能
熟悉scrapy、aiohttp、mysql、mongo,selenium的开发和使用
能使用set,Md5,哈希算法等对数据进行去重
熟悉加速乐、极验等产品逆向与处理
能自行搭建部署gerapy和scrapyd进行爬虫监控
三年Python开发经验
web方面:
熟悉Django、Flask等框架开发、能熟练使用flask开放接口,简单的后端开发
了解HTML、CSS、JS、jquery等前端页面制作
电商领域
项目名称:电商数据采集
项目描述:采集1688,亚马逊等电 商平台的数据
项目流程:
1.根据关键字搜索到所需要的数据
1.破解各种反爬措施
2.分布式采集数据
3.将数据清洗入库mongodb
该项目分为主程序模块、执行模块、解析模块、参数获取模块、存储模块。 其中主程序模块为入口文件 执行模块为功能执行 解析模块为数据解析、筛选 参数获取模块为分析加密参数并进行逆向 存储模块为保存提取到的数据
分析该网站规律 发现某参数由后端返回,并进行一系列测试,这里就不一一赘述了。主要加密参数w 该项目分为获取后端返回参数 发送请求,开始滑块 获取图片数据,进行底图还原 检测滑动距离 传递参数 发送请求, 大功告成
该网站主要使用(某乐)技术进行cookie反爬虫 经过两次重定向方才返回数据 处理返回的js生成 携带生成后的cookie进行访问 即可获得数据