1. 熟练使用 Linux 命令,能够在 Linux 和 windows 下开发;
2. 熟练掌握 Scrapy 爬虫框架,requests 爬虫模块,了解常见的反爬规则及对应
策略
3.熟练掌握 Python 语言 常见第三方库和第三方库
4. 熟练掌握 MySQL、REDIS 数据库与相关 SQL 语句
5. 熟练掌握 Python 语言
6.熟悉常见反爬机制及应对策略 如Cookie IP Headers 及滑动等等
项目经历
一、爬取美团/大众点评/携程等网站酒店、机票、餐饮等信息
项目概述: 为客户爬取酒店、餐饮等信息
工作职责:使用 scrapy+redis 分布式进行爬虫,部分网站使用scrapy+
selenium 爬取,抓取 JS 动态加载数据,建立字体映射关系,破解字 体反
爬,建立代理 IP 池防止屏蔽,加快爬取速度,数据存入 MySQL 数据库
二、爬取淘宝、京东、苏宁、拼多多等汽车饰品信息
项目描述:为公司数据分析提供支撑
工作职责:参与爬虫系统的架构设计与开发
负责执行和开发分布式网络爬虫进行多平台信息的抓取和分析
设计爬虫策略和屏蔽规则,保证数据的抓取
三、国内各大租房平台数据抓取
项目介绍:抓取国内各大租房网站(链家、安居客、贝壳、蛋壳 自如网等)
房源信息(地址、价格、面积、户型、楼层等 清洗并存储到数据库
工作职责:按指定要求抓取房源信息并对数据进行清洗去
重,统一格式根据城市及网站来源分表入库,以及增量抓取功能实现等