ID:142131

我跨過山和大海

爬虫工程师

  • 公司信息:
  • 普擎数字科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 成都
  • 金牛

技术能力

ϒ 熟练使用python及其常见的模块
ϒ 熟悉pycharm,anaconda,sublime等开发工具,熟悉linux系统
ϒ 熟悉scrapy框架在项目中的开发流程
ϒ 了解Web前端的知识:HTML, CSS, JavaScript,Ajax, json和Django框架开发流程
ϒ 能够构造爬虫的基本架构完成对动态网页及静态网页的数据精准爬取
ϒ 掌握自动化测试工具 Selenium 驱动浏览器和Python对接,使用BeautifulSoup、re、XPath 将网页的数据提取出来进行存储

项目经验

1.去哪网任意城市今日酒店信息
◎ 开发平台:Unix
◎ 开发工具:pycharm
◎ 技术实现:利用Selenium+PhantomJS
◎ 项目描述:主要爬取去哪儿网任意城市的今日酒店信息,今日酒店价格、酒店地址、酒店介绍、客户评分、基础设备等信息,并将这些信息存成文本文件。使用BeautifulSoup 解析酒店信息,并将数据进行清洗和本地持久化保持。
◎ 责任描述:主要负责代码实现爬取和对爬取到的数据进行清洗和储存。该网站使用Ajax局部加载技术,对对部分数据进行了加密,所以使用Selenium+Phantom对网页进行数据爬取。
◎ 项目收获:通过这个项目锻炼了我的程序设计能力及分析解决问题的能力,对Selenium的使用也有了更深的理解。
2.爬取今日头条信息
◎ 开发平台:Unix
◎ 开发工具: pycharm
◎ 技术实现:分析网页json文件,构建连接发起请求、代理池
◎ 项目描述:该项目主要实现对今日头条新闻信息进行爬取,该网站使用Ajax技术实现对对新闻信息下一页的加载,通过分析多个json文件,构造URL发起请求并对数据进行提取。使用设置请求头,降低访问频率,使用代理池等反爬机制,使用re对数据进行清洗和本地持久化储存。
◎ 项目收获:通过该项目锻炼分析动态网页的能力,同时也了解了如何更好的应对反爬指定反爬策略。
3.爬取赶集网商户联系方式
◎ 开发平台:Unix
◎ 开发工具: Pycharm
◎ 技术实现:拼接商户联系方式页URL、清洗数据得到重要字段并持久化保持、代理池、多线程
◎ 项目描述:该项目主要实现对赶集网商户联系方式及有效字段进行精准抓取,通过request 发起请求,抓取商户主页的所有URL并做去重处理,并对处理后的URL再次发起请求,最终得到要爬取的联系页URL并对其访问解析。
◎ 责任描述:负责清洗数据得到提取有效字段,针对每个商户联系页所呈现的效果不同,制定了多套解析提取策略,并对每个数据判断指定策略提取数据。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服