1.熟悉 HTTP协议,熟悉 HTML5,JavaScript,XPath
2. 熟练掌握爬虫技术
3. 从事 Python 开发 3年及以上
4. 熟练使用 Python 进行抓取及格式化信息提取
开发网络爬虫,根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
根据主页链接采集博主所有短视频及相关信息,检查并核对短视频中是否出现侵权信息,如出现侵权信息则提交人工复核
采集招聘网站的职位信息,对数据进行分析整理,提取需要的数据存入数据库,根据数据库生成词云,以了解当前搜索岗位的整体数据信息