Python:
爬虫:
- 熟练使用requests、selenium、urllib获取、提交网页请求
- 熟练使用pyquery、scrapy.selector、beautifulsoup、re、lxml.xpath解析网页
- 基本了解使用matplotlib解析数据
- 熟练使用scrapy、pyspider爬虫框架
- 熟练使用flask web框架
- 熟练使用asyncio + aiohttp编写异步爬虫
- 有过ip代理池独立搭建经历(redis数据库)
反爬虫:
- 独立使用selenium破解滑动验证码
- 独立破解图形验证码
- 独立破解字体反爬
- 独立破解ip限制
1、Flask-Tiktok
项目描述:
抓取手机端国际版Tiktok视频内容,将获取到内容解析为json数据在flask中使用,flask中是用ajax实现免刷新页面自动加载视频。
项目地址:https://github.com/ZCKun/Flask-Tiktok
2、NeteaseMusicComment
项目描述:
抓取网易云歌曲热门评论并将其保存至mongodb,其中有两个加密的参数需要分析js代码重写加密方法
项目地址:https://github.com/ZCKun/NeteaseMusicComment
3、BiliBIliCaptch
项目描述:
使用selenium破解哔哩哔哩网站登陆时的滑动验证码
项目地址:https://github.com/ZCKun/BiliBIliCaptch