1. 熟练使用 Python 语言和常见的第三方库;有良好的代码风格及编程能力
2. 熟悉使用正则表达式、Xpath 和 BeautifulSoup 等相关网页提取技术
3. 熟悉 Scrapy 框架的使用,同时有过 Scrapy-redis 分布式爬虫经验
4. 熟悉 Fiddler、AirtextIDE 等 app 爬虫工具
5. 熟悉 MySQL、redis 等数据库
6. .熟悉常见的反爬机制,如验证码识别、IP 封禁、UA 监测和 cookie 认证等;了解加密数据的处理
7. 了解 web 框架 Django 和 Flask
8. 了解多进程多线程和协程的相关使用
9. 了解代码管理工具 git
10. 了解多进程多线程和协程的相关使用
11. 了解前端 HTML,CSS,JS,AJAX 等相关前端知识
12. 了解 Linux 操作系统,熟悉其基本操作
13. 了解数据清洗,能够使用 NumPy、Pandas 等工具进行数据处理
航空机票信息查询
项目描述:
应客户需求,对某国外航空公司网站进行机票信息爬取,然后把数据交给用户,供用户平台使用。
责任描述:
使用 Scrapy 框架,主要进行页面分析、 数据采集、数据清洗、数据保存等处理
1. 登录验证码的处理-该网站验证码比较简单,采用 Scrapy 自带的验证码处理模块
2. 由于只能使用国外 IP,使用代理 IP,并添加 user-agent 和延时规避反爬
3. 使用 Xpath、正则和 lxml 的 etree 模块进行页面解析与数据提取
4. 使用 Mongodb 数据库保存爬取数据