ID:163192

哈喽米闹

python爬虫工程师

  • 公司信息:
  • 郑州火爆文集团
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周日
  • 可工作日远程
  • 所在区域:
  • 郑州
  • 全区

技术能力

1、了解基于Json、Re、Xpath、CSS、BeautifulSoup4及selenium等网页信息抽取技术,从结构化和非结构化数据中获取信息。
2、掌握requests爬虫模块,熟悉多线程爬取;熟悉Scrapy爬虫框架,掌握其各组件工作机制以及Python多线程爬虫及其机制。
3、扎实的python基础,娴熟的运用linux开发环境,良好的编程习惯,对代码质量和编程规范有较高追求,熟悉掌握svn版本管理工具。
4、掌握MySQL以及Redis进行数据存储与读取。能孰练编写SQL语句,使用Scrapy_Redis爬虫框架实现分布式爬虫,针对特定网站信息进行采集并完成数据的存取。
5、深入理解网络通信原理,熟悉HTTP、TCP/IP协议,熟悉Django开发框架,JS,HTML,CSS 等前端开发,并有实际开发经验。

项目经验

1、爬取今日头条 2019.05-2019.04
项目描述:该项目主要对今日头条的文章进行抓取,抓取的条件为公司指定的条件:作者+文章内容+关注数+阅读量+粉丝数等。
个人职责:通过伪装浏览器及添加代理IP处理反爬机制,获取页面信息,然后通过xpath/re等方法提取页面信息,最后根据公司要求,保存到mysql数据库中,或者生成文本等方法保存,方便使用。
2、爬取搞笑妹子APP 2019.04-2019.03
项目描述:该项目主要是对搞笑段子的图文进行抓取,抓取的条件为公司指定的条件:作者+图片+标题。
个人职责:通过fiddler截获http的数据,分析数据找出我们想要获取的数据的接口。用bs4、xpath/re等方法提取页面信息,最后根据要求,保存到mysql数据库中。
3、爬取爆笑一刻、福莱岛、新浪微博等搞笑网站2019.01-2018.12
项目描述:该项目主要是对搞笑网站的爬取,抓取条件为公司指定的条件:1、搞笑图文,2、作者+图片+标题
个人职责:使用Scrapy框架对网站的数据进行采集,通过伪装浏览器及添加代理IP处理应对反爬机制获取页面的信息,然后通过使用Xpath/re等方法提取商品的信息,使用sha1加密的方法将数据存入redis中实现数据和url去重,最后根据需要保存到mysql 数据库中。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服