猿急送>

北京其它兼职程序员

ID：306250

小张同学

爬虫开发工程师

公司信息：
天津神州信通讯科技有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
海淀

技术能力

本人在原公司担任爬虫开发工程师，主要工作内容是根据需求对抓取的网站进行分析与设计爬虫流程，从结构化与非结构化的数据里提取有效信息；主要掌握python的语言开发，熟练使用requests、熟练使用数据解析方法：xpath、re

项目经验

拉勾网的数据抓取：首先要分析网站真实的request地址和内容，然后用scrapy_redis爬取，因为该框架实现url和数据去重、持久化，通过md5实现网页的去重和更新；使用代理ip解决封ip的操作；数据在json字符串中，转换成python字典提取数据；最后把数据保存到mysql中；
美团抓取：用 Scrapy 框架，在中间键里写了代理、header 等，防止爬虫中断，由于部分网
页采取了动态网页 js 加载，因此采用了 Pyppeteer 进行了对动态 html 的处理。根据网页数据
在 items.py 中建模。定义爬虫行为，编写对应 spider 文件,模拟登陆使用验证码识别。利用
xpath 对数据进行抽取。编写中间件模拟客户端访问

案例展示

京东网站产品价格的抓取

我在本案例中是自己做的，因为比较简单，所以也是自己做的-，没有同其他同事一起合作，虽然这个项目用了我很长时间完成的，但是也是自己比较有成就感的
大众点评数据的抓取

这个比上一个做的时间长一点儿，因为自己在这上面也是很难找到突破点，然后向前辈学习了一下，自己慢慢琢磨出来的，因为也是项目比较小，自己就做了。
大众点评数据的抓取

这个比上一个做的时间长一点儿，因为自己在这上面也是很难找到突破点，然后向前辈学习了一下，自己慢慢琢磨出来的，因为也是项目比较小，自己就做了。