熟悉python,JavaScript语言
熟悉requests、aiohttp发生请求,熟悉scrapy框架,scrapy-redis分布式框架,liunx下的定时启动爬虫
熟悉mysql、mongodb、redis数据库的增删改查
熟悉多线程,多进程,协程
熟悉正则表达式、xpath提取网页数据,Ajax获取动态数据,解析json、jsonp数据
熟悉charles抓包工具
熟悉js逆向技术,包括浏览器调试,哈希、对称、非对称加密,国密算法,webpack技术,能过混淆代码,浏览器补环境
能过cookie反爬虫,比如加速乐、瑞数4
能过用js过极验验证码,无感、滑块、文字点选,文字点选需要使用打码平台
能用set、布隆过滤器、哈希、md5去重
能自行搭建部署crawlab分布式爬虫监管系统
电商类数据采集
项目名称:电商数据采集
项目描述:采集1688,亚马逊等电商平台数据
项目流程:
1. 根据关键字搜索到所需要的数据
2. 破解各种反爬措施
3. 分布式采集数据
4. 将数据清洗入库到mongdb
一个简单的cookie池,对应网站是闪职,这个网站是专门的爬虫工程师练习网站.在这里感谢网站作者的贡献 该项目全部是异步编程 用户名密码存入mongodb数据库中,cookie存入redis数据库中 使用了redis的发布订阅模式,cookie过期后会自动登录,如果cook
项目用的aiohttp异步库发生请求 本项目的难点是过无限debugger,需要手动去源码过定时器和条件分支,不然浏览器点一律不在此处执行会有内存爆破,浏览器会卡死 视频下载地址在m3u8文件里面,需要AES-128解密。下载的文件是ts,需要合并 用ffmpeg命令行工具