熟悉 numpy、pandas、matplotlib、sklearn 等数据挖掘的相关库
了解正则表达式、CSS、xPath 等数据解析库
利用 header、Cookie 等进行反爬虫
了解反爬虫(验证码破解、js 解密等)
了解 scrapy 爬虫框架、分布式爬虫
了解多线程多进程爬虫
了解网络编程 redis、mysql 等数据库的使用
了解 Linux 系统、搭建虚拟机,了解大数据的生态(Spark)
曾获奖项:Python 大数据应用开发中级职业技能证书
Python实现爬取小说付费章节
1、利用 requests 库并添加请求头获取数据
2、利用 CSS 解析数据
3、使用官网的 SDK 将付费章节的图片识别为文字
4、将文字保存为 txt 文件
Python实现自动答题
1、使用 selenium 类自动打开目标网站
2、使用元素定位函数定位到题目
3、使用 parsel 第三方库和 CSS 解析数据
4、定位到答案后使用点击方法选择答题
5、并设置延时防止点击速度过快
利用re正则表达式解析视频的URL地址,并构建翻页逻辑需要使用js解密,最后将mp3和mp4合成为音频
利用re正则表达式提取视频和音频的url地址,利用js逆向,构建请求参数并完成翻页逻辑,最后合成音频视频