熟练xpath、bs4、re等各种数据抓取工具以及各种模块的使用;熟练使用scrapy框架对一些网站进行抓取;熟练掌握MySQL、mongo基本操作语句,以及redis缓存数据;熟练selenium抓取网页,以及掌握利用接口对各大网页进行抓取;熟悉爬虫的一些反爬机制,熟练应对反爬虫的策略(IP池,验证码,cookies模拟登陆等);了解爬虫分布式抓取,实现对各种网站解析及提取;掌握多线程抓取网页,加速数据提取速度;熟悉Web前端的简单布局、html/css/javascript/ajax的基本用法;熟练使用appium抓取数据。
项目名称: 旅游票务数据
软件环境:Python | Appium | Mysql | Fiddler
项目简介:进行获取国内国外部分旅游网站中所需的票务数据。
责任描述:
1、分析需求,指定简单流程,进行手机端与电脑连接;
2、分析数据,数据抓取;
3、编写程序,修改bug;
4、维护程序,解决问题;
项目名称: Selenium数据
软件环境:Ubuntu | Python | Selenium | RabbitMq
项目简介:主要是进行大批量的购票操作,购票完成后将我们所需要的信息存放进入mq,以便数据不会丢失并且可以随时使用。
责任描述:
1、分析需求,指定简单流程;
2、编写程序,修改bug;
3、优化代码,层次化区分程序的数据结构,更改后整体项目代码为800多行,并且优化程序完成时间;
4、日常维护程序,解决问题;
项目名称: 全国影城、院线影片数据
软件环境:python3.6 + MONGO | MySQL 5.5
责任描述:
1、分析网页结构,制定抓取方案;
2、使用正则以及lxml来解析数据;
3、获取全部院线中个城市下的所有影片信息,分类存入各个表中;
4、在获取数据的过程中遇见的反爬虫机制的处理;
5、存入MONGO数据库;
项目简介:抓取之前,我们需要该需求进行一个清洗;不同的院线,不同的影城进行分类抓取,进行有层次化的抓取,主要抓取的内容影片、简介、海报、预告片、场次信息、座位信息等,随后将需要的数据分类存入对应的数据库以及对应的表中。
1、分析网页结构,制定抓取方案; 2、使用正则以及lxml来解析数据; 3、获取全部院线中个城市下的所有影片信息,分类存入各个表中; 4、在获取数据的过程中遇见的反爬虫机制的处理; 5、存入MONGO数据库;
进行获取国内国外部分旅游网站中所需的票务数据。 1、分析需求,指定简单流程,进行手机端与电脑连接; 2、分析数据,数据抓取; 3、编写程序,修改bug; 4、维护程序,解决问题;
1、查看各大主流网站(今日头条、百家号、豆瓣)中影片的资讯信息,进行简单的逻辑梳理; 2、编写程序,进行区分,抓取哪些平台的数据; 3、解析数据,取出相应的字段; 4、根据不同的数据,存放进入相应的数据表; 5、程序优化,减少程序所消耗的时间,添加线程池; 6、日常