熟悉Python爬虫,熟练使用scrapy、requests、lxml等各种爬虫技术;
熟悉python/javascript语言,熟悉Linux开发环境和常用命令,具有 3年的操作经验;
熟悉mysql、 redis 等,熟悉Internet基本协议(如TCP/IP. HTTP等);
熟悉selenium等常用爬虫技术;
熟练掌握网页抓取原理及技术,熟悉正则表达式,从结构化的和非结构化的数据中获取信息;
能够解决封账号、封IP采集等问题解决网页抓取、信息抽取等问题构建完善的网络信息收集平台;
熟悉Scrapy、Scrapy-redis、selenium、re、xpath等爬虫相关技能点及常见反爬措施
房天下爬虫
技术运用:
该项目是分布式爬虫 采用scrapy_redis开发,继承自RedisSpider;通过url爬取国内城市的房价,通过构建新 房和二手房的url;
item中定义NewHouseItem和EsfHouseItem分别来爬取新房和二手房的数据;
middlewares中自定义随机USER_AGENTS以达到反反爬的目的;
settings中配置scrapy_redis分布式爬虫的配置。
项目成绩: item爬虫字段的设置;spider爬虫代码的实现;middlewares中下载中间件的功能实现;settings中分 布式的相关配置。
简书爬虫 项目描述:
采用scrapy框架和selenium+chromedriver.开发设计,网站数据通过ajax方式传递数据;
采用自定义下载中间件,在下载中间件中采用selenium+chromedriver的方式解析数据;
采用selenium和chromedriver抓取动态数据,让浏览器模拟人的行为进行数据的抓取;
采用mysql数据存储,在pipelines中实现数据的存储,通过异步存储数据。
项目成绩: item爬取字段的分析设计;spider爬虫代码的实现;DownloadMiddleware的功能实现;pipelines 中数据库交互代码的实现。
汽车之家爬虫项目
技术运用:
采用scrapy框架开发设计,程序重在自定义图片保存Pipeline,爬取的数据分类下载到不同的文件夹中;
通过get_media_requests和file_path方法来完成图片的下载和保存功能;
通过spider爬取返回的item中的category字段来判断数据所属类别,进行数据的分类;
自定义Pipeline继承ImagesPipeline;
设置item中的image_urls来获取数据下载url。
项目成绩:item爬取字段的设置;spider代码的实现;Pipeline 功能的实现;项目的其他配置 。
苏宁图书网络爬虫
技术运用:
采用scrapy框架开发,主要爬取图书的大分类b_cate、大分类下的小分类s_cate以及图书列表详情页;
item中定义需要爬取的字段;
Pipeline中将爬虫到数据通过json的方式保存到本地;
settings中设置UA 和默认的请求速度,防止请求服务器的数据限制,开启 Pipeline,并给予相应的权重。
项目成绩:item爬取字段的设置;spider爬取代码的实现;Pipeline 中数据的存储;项目的其他配置。
人人网爬虫
技术运用:
该爬虫采用scrapy框架设计开发;
采用FormRequest进行账号密码的表单提交,构造请求,待表单数据提交完成后进行数据的爬取;
pipelines采用json存储爬取的数据。
项目成绩: item爬取字段的设置;spider爬虫的实现;pipelines数据存储的实现;settings的配置。
Boss职位爬取
技术运用:
采用scrapy框架中的crawlspider规则爬虫爬取;
分析要爬取的url的规则,在rules中进行url的配置,设置回调函数,爬取Item设置的数据;
采用了策略反反爬策略,在Middleware中设置了随机USER_AGENT和ip地理池,达到反反爬的策略;
pipelines采用json的数据存储方式,将爬取的数据存储到本地; settings中设置请求速度,开启下载中间件和pipelines。
项目成绩:请求网站的url分析;item爬取字段分析定义;spider爬虫代码的全部实现;下载中间件功能自定义