掌握 Python、C语言。
熟悉 linux操作系统。
熟悉 Scrapy、Requests、Xpath、selenium等爬虫工具及正则表达式,可解决常见反爬机制。
了解 Pandas、Numpy数据清洗操作以及matplotlib可视化。
掌握 MongDB、MySQL的基本增、删、改、查操作。
熟练使用wareshark抓包软件。
有 良好数据结构以及计算机网络基础。
2018/4: 基于python的疾病信息采集系统
项目简介: 使用Scrapy框架,爬取jb39网站收录的所有疾病信息,根据疾病类别进行清洗、分类、统计、入库,最终借助PyQt以图形界面的形式供用户查询疾病信息,并提供简单数据分析功能。
涉及技术:Scrapy、PyQt5、Matplotlib、MongoDB
2019/3: 基于Scrapy的伯乐在线文章采集
项目简介: 使用Scrapy框架,对伯乐在线的全部530页目录、11782篇文章进行异步爬取。整理存入MySQL。
涉及技术: Scrapy、MySQL、twisted
2019/4-至今: 基于scrapy模拟登录知乎
项目简介: 使用Scrapy框架,结合Selenium、mouse、以及云打码平台和Github中zheye项目识别倒立中文。针对知乎新型验证码(倒立汉字点击验证码以及英文验证码),以及对Selenium拦截进行破解。最终成功自动登录知乎。
涉及技术: Scrapy、Selenium、mouse、zheye、验证码识别