1,熟练掌握 python 基本语法,有良好的编程习惯,对面向对象有一定的了解
2,爬虫技能: 熟悉 http/https 协议,tcp/ip 网络协议 熟练多线程,多进程,协程结合爬虫的使用
熟练使用 Xpath,re json jsonpath 模块进行数据提取
掌握常见的爬虫以及反爬虫知识的应对措施
熟悉 Xpath 语法规则和 CSS Selector 的使用
熟悉使用 Selenium 自动化,requests,requests-html 抓取数据
熟练 scrapy 框架,以及编写各类中间件 掌握 scrapy-redis 分布式框架,了解各组中间件的运行机制
掌握一些基本的 charles 抓包工具的使用
web 技能: 熟练掌握 css3 html5 以及基本掌握一些 JavaScript 的制作,如:轮播图,tab 选项卡,点击事件,移入移出事件
数据库技能: 熟悉使用关系型数据库 mysql,掌握 MongDB,Redis 的相关操作
采集的携程机票
项目描述: 外包项目:主要作用是采集携程机票的数据,为决策者提供数据的支撑。
项目需求: 1,根据用户输入的起飞地点,抵达地点,以及日期,采集机票数据 2,采集携程上的机票信息,包括,起飞航班名称,起飞机场名称,起飞时间,抵达机场名称,预计抵达时间,机 票价格。 3,将采集下来的数据存入 exel 和数据库
责任描述: 1,分析该网站的加载方式,是同步加载还是异步加载, 2,通过抓包分析每一个接口以及每一个请求参数的分析 3,对加密参数,通过 search 搜索,找出加密的接口,接着采取断点 debug 的方式,观察数据的加密流程
4,使用 hashlib,还原加密过程,实现 js 反解析
5,采用 ua 大列表,随机更换 ua 从而达到突破 ua 的反爬机制
6,对解析出来的数据,进行清洗保存到数据库
7,项目工具:request-html, request, jsonpath, tkinter, re 等 兴趣扩展:编写了美团机票信息采集的程序,也进行了可执行程序的改造。
电商网站《京东》
项目描述: 该项目的主要作用是采集京东所有商品的信息,为数据部门提供数据支撑。
项目需求: 1,采集京东,商品的名称,发货地址,商品价格,商品购买人数,商品的评价人数,商品的店铺名称,商品的评 价人数,商品的详情页链接。 2,不同商品信息分表存储 3,将获取下来的数据,存入 exel 表格,存入 mysql'数据库,交付用户 责任描述: 1,分析目标网站,观察是否存在数据加密以及反爬机制 2,编写程序,爬取京东商品数据,使用爬虫框架 scrpay_redis,xpath 工具提取数据 3,解析京东需要 cookie 字段的反爬机制 4,解决在获取数据过程中,封 ip 的机制,采用代理池,每访问一个地址,更换一次 ip+useragent 5,将获取下来的数据,进行数据清洗,过滤等操作 6,最终将数据根据不同类别的商品分表存储,交付 7,项目工具:scrapy-redis,json,selenium,正则,xpath,fake-useragent 等等
项目描述: 1.外包项目 2.负责采集淘宝网站商品的名称,商品价格,商品详情链接,商品所在店铺,商品发货地点与商品销量 3.采用技术包含:request-html, request, jsonpath, tkinter, re
项目描述: 该项目的主要作用是采集京东所有商品的信息,为数据部门提供数据支撑。 项目需求: 1,采集京东,商品的名称,发货地址,商品价格,商品购买人数,商品的评价人数,商品的店铺名称,商品的评 价人数,商品的详情页链接。 2,不同商品信息分表存储 3,将获取下来的数
项目描述: 该项目的主要作用是采集京东所有商品的信息,为数据部门提供数据支撑。 项目需求: 1,采集京东,商品的名称,发货地址,商品价格,商品购买人数,商品的评价人数,商品的店铺名称,商品的评 价人数,商品的详情页链接。 2,不同商品信息分表存储 3,将获取下来的