1.对Python爬取数据较为熟练,善于处理爬取后的数据以及处理反爬,例如封ip问题等。
2.掌握JavaScript结合selenium自动化提取数据。
3.熟悉掌握Python爬虫脚本开发,掌握Vscode和Pycharm的使用,掌握Python与Excel的交互
4.通过调整频率,配置请求头信息,cookies保持,使用代理ip池等手段应对一些网站的反爬
5.通过异常处理来处理网站分页解析不兼容的问题
6.利用BlockingScheduler设置定时任务进行数据的回溯
**《基于Python的网络爬取并转存pdf》**
- **开发工具**:Python,redis,FTP
- **责任描述**:设计爬虫框架,编写解析规则
- **项目描述**:此项目以私募基金业务网站为例,实现了数据标题,详情页链接以及时间等信息的获 取,通过详情页链接进一步对二级页面解析从而获取详情页内容,用户也可将详情页以pdf形式转 存到本地
- **技术路线**:利用翻页获取网页接口数据的url,加上User-Agent,Content-Type等请求头以及 payload参数,**利用post请求对接口数据进行获取** → 将详情页的MD5以及详情页url作为键值对**存入redis** → 通过**遍历提取**redis中的详情页url,**利用pdfkit生成**以其MD5作为文件名的文件 → 利用**FTP服务器**与远程客户端建立连接并进行文件传输
- **问题以及解决方案**:
为加快迭代速度,创建线程池,在线程池中进行响应数据的获取,实现了阻塞操作异步执行,降低了系统的开销,提高了程序接近一倍的运行效率。