1. 具备网页抓包能力及逆向分析能力,熟悉常见反爬机制及解决方法
2. 熟悉 HTTP 协议、熟练掌握 HTML5、CSS,JavaScript,Ajax 等技术
3. 熟练运用正则表达式、XPath、bs4 提取网页数据
4. 熟练掌握 scrapy、feapder、scrapy-redis 等爬虫框架,有构建分布式爬虫经验
5. 熟练运用 MySQL、MongoDB、Redis 等数据库进行数据清洗,存储入库
6. 熟练使用 selenium 自动化工具模拟登录、绕过反爬手段获取网页数据
7. 能够使用多线程、多进程、aiohttp 提高爬虫效率
8. 能够使用 scrapyd、Gerapy、Docker 部署爬虫服务
9. 掌握 Flask 框架
10. 掌握 Linux 基本命令和常用操作,熟练使用 Git 等版本管理工具
爬取过各类网站:
新闻类型:36氪、长沙晚报、巨潮资讯
短视频榜单:新榜、红人点集、巨量星图
电商类型:考古加、唯品会、聚美优品
政务类型:阳关问政、金昌市公共资源交易网、海关总署、麻章区政府网
金融类型:乙方宝、蛋卷基金、同花顺
房地产:诸葛找房、房天下、乐居二手房
二手车:瓜子二手车、人人车、二手摩托车
图片类型:极简壁纸、彼岸图网
爬取考古加网站商品数据(名称,价格,销量,浏览量,推广人数),断点调式接口数据,破解网站反爬手段(ob混淆,AES 加密)。
利用 scrapy 框架提取阳光问政网站咨询数据,xpath 提取网页数据,处理翻页跳转,数据清洗存储至 MongoDB