1、好的沟通和理解需求的能力,能对上级交代的任务准确无误完成
2、熟练掌握爬虫requests、scrapy、scrapy-redis爬虫流程,掌握正则表达式、xpath提取网页资源方法,定时启动爬虫
3、熟悉各个网站常见反爬策略,能根据网页分析出常见反爬手段
4、熟悉前端代码,可以分析目标网站真实request地址和response内容,使用代理试水网站反爬虫级别
5、针对不同反爬虫级别网站,做出具体Scrapy部署,使用工具包括不局限于:伪造User-Agent,批量IP代理池,设置并发数量及下载速度
项目概况:爬取上海期货交易所信息+遇到问题及解决方案如下:
1、数据量小,用requests爬取
2、数据都存在表格中,每次的表格结构不一样,需要分段解析html表格
3、保存到mysql中以便用数据制表
项目概况:爬取豆瓣、猫眼电影信息+遇到问题及解决方案如下:
1、数据量较少,用requests爬取
2、需要的数据通过抓包返回json数据
3、转字典提取想要的数据
4、保存MongoDB和CSV
5、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
爬取各个金融数据网站,存进数据库以便使用,制作交互界面实现金融数据图表展示,分析行业走势,用于基本面分析。
爬取各个金融数据网站,存进数据库以便使用,制作交互界面实现金融数据图表展示,分析行业走势,用于基本面分析。