猿急送>

北京Python兼职程序员

ID：176386

Te Furi

python开发工程师

公司信息：
数字广东

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后

所在区域：
北京
海淀

技术能力

熟悉Python爬虫，熟练使用scrapy、requests、lxml等各种爬虫技术；
熟悉python/javascript语言，熟悉Linux开发环境和常用命令，具有 3年的操作经验;
熟悉mysql、 redis 等，熟悉Internet基本协议(如TCP/IP. HTTP等);
熟悉selenium等常用爬虫技术；
熟练掌握网页抓取原理及技术，熟悉正则表达式，从结构化的和非结构化的数据中获取信息;
能够解决封账号、封IP采集等问题解决网页抓取、信息抽取等问题构建完善的网络信息收集平台;
熟悉Scrapy、Scrapy-redis、selenium、re、xpath等爬虫相关技能点及常见反爬措施

项目经验

房天下爬虫
技术运用：
该项目是分布式爬虫采用scrapy_redis开发，继承自RedisSpider；通过url爬取国内城市的房价，通过构建新房和二手房的url；
item中定义NewHouseItem和EsfHouseItem分别来爬取新房和二手房的数据；
middlewares中自定义随机USER_AGENTS以达到反反爬的目的；
settings中配置scrapy_redis分布式爬虫的配置。
项目成绩： item爬虫字段的设置；spider爬虫代码的实现；middlewares中下载中间件的功能实现；settings中分布式的相关配置。

简书爬虫项目描述：
采用scrapy框架和selenium+chromedriver.开发设计，网站数据通过ajax方式传递数据；
采用自定义下载中间件，在下载中间件中采用selenium+chromedriver的方式解析数据；
采用selenium和chromedriver抓取动态数据，让浏览器模拟人的行为进行数据的抓取；
采用mysql数据存储，在pipelines中实现数据的存储，通过异步存储数据。
项目成绩： item爬取字段的分析设计；spider爬虫代码的实现；DownloadMiddleware的功能实现；pipelines 中数据库交互代码的实现。

汽车之家爬虫项目
技术运用：
采用scrapy框架开发设计，程序重在自定义图片保存Pipeline，爬取的数据分类下载到不同的文件夹中；
通过get_media_requests和file_path方法来完成图片的下载和保存功能；
通过spider爬取返回的item中的category字段来判断数据所属类别，进行数据的分类；
自定义Pipeline继承ImagesPipeline；
设置item中的image_urls来获取数据下载url。
项目成绩：item爬取字段的设置；spider代码的实现；Pipeline 功能的实现；项目的其他配置。

苏宁图书网络爬虫
技术运用：
采用scrapy框架开发，主要爬取图书的大分类b_cate、大分类下的小分类s_cate以及图书列表详情页；
item中定义需要爬取的字段；
Pipeline中将爬虫到数据通过json的方式保存到本地；
settings中设置UA 和默认的请求速度，防止请求服务器的数据限制，开启 Pipeline，并给予相应的权重。
项目成绩：item爬取字段的设置；spider爬取代码的实现；Pipeline 中数据的存储；项目的其他配置。

人人网爬虫
技术运用：
该爬虫采用scrapy框架设计开发；
采用FormRequest进行账号密码的表单提交，构造请求，待表单数据提交完成后进行数据的爬取；
pipelines采用json存储爬取的数据。
项目成绩： item爬取字段的设置；spider爬虫的实现；pipelines数据存储的实现；settings的配置。

Boss职位爬取
技术运用：
采用scrapy框架中的crawlspider规则爬虫爬取；
分析要爬取的url的规则，在rules中进行url的配置，设置回调函数，爬取Item设置的数据；
采用了策略反反爬策略，在Middleware中设置了随机USER_AGENT和ip地理池，达到反反爬的策略；
pipelines采用json的数据存储方式，将爬取的数据存储到本地；  settings中设置请求速度，开启下载中间件和pipelines。
项目成绩：请求网站的url分析；item爬取字段分析定义；spider爬虫代码的全部实现；下载中间件功能自定义