需求描述:
爬虫动态页面网站文章,需要在现有框架内完成,提供一个样例包,要用到bs4、selenium,要求将爬取内容转换成html和pdf格式,整体代码较为完善,需要将一个半成品的项目包完善关键代码即可,属于一个项目
1)会提供一个含有大量关键代码的半成品包,需完成代码后正常运行,并实现以下需求
2)可爬取内容,保留源文件,转换格式为pdf和html文件
3)实现对文章的全量采集,如果实现不了,仅完成第一页的增量采集也可
技术:Python开发、beautifulsoup、seletnuim等
开发方式:远程开发
开发周期:1-3天