ID:158604

饮鸩不止渴

爬虫工程师

  • 公司信息:
  • 广州量数科技
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

Python 技能:
* 熟练掌握python 的基本语法,对面向对象思想有一定的了解
* 了解Python 垃圾回收机制及其原理
* 熟悉python 多线程多进程编程
## 数据分析技能:
* 熟悉Linux 开发环境,熟练掌握常用命令行的使用
* 熟悉PDFMiner,pdf2htmlEX 模块进行pdf 文本处理
* 掌握jieba 分词,newspapers 新闻,正则表达式等提取模块
* 了解Numpy, Pandas,matplotlib 等的数据分析工具
* 熟悉基本的excel,word 等办公软件
## 爬虫技能:
* 熟悉HTTP/HTTPS 协议,TCP/IP 网络协议
* 掌握常见的爬虫、反爬虫知识及应对措施
* 熟练使用Python lxml、Beautiful、re、json 模块进行数据提取
* 熟悉XPath 语法规则和各CSS Selector 的使用
* 熟练使用Selenium+PhantomJS 实施动态HTML 抓取
* 掌握Scrapy 框架,以及编写各类中间件
* 熟悉fiddler 抓包工具的使用,能够获取手机端,web端,数据接口api
## 数据库技能:
· 熟练使用MySQL 数据库,了解MongoDB,Redis 的相关操作

项目经验

汽车之家app内容爬取
##### 项目描述
该项目主要是升级旧爬虫,抓取用户口碑,以及经销商信息,定期监控新车信息。 突破汽车之家 web 页面更新的字体,ip 反爬措施,利用 fiddler 抓包汽车之家APP 的 api 接口,获取口碑帖子,提车文章
##### 责任描述
- 个人完成数据的抓包,分析数据是否加密,请求发送数据内容,制定爬取策略
- 依据车型信息,获取车型分论坛url 接口, 用户提车帖url 接口,使用正则匹配信息数据
- 使用scrapy 爬取口碑数据,提车数据,User-Agent 池模拟手机端信息,绕过反爬,获取数据,存入mysql
- 后期改进爬取策略,以爬取日期作为判断依据,升级定时爬取,减少资源浪费
- 涉及技术 :Docker + mysql + scrapy + fiddler + 代理ip
### 财经网站, 财经论坛, 微博股票, 财经新闻内容爬取
##### 项目描述
应客户需求抓取新浪微博历史热点评论信息,爬取东方财富个股的评论,个股的公告数据,个股的交易信息等数据。爬取雪球网个股的文本数据。爬取百度新闻,新浪财经等新闻历史数据。依据提取关键词、热词、情感标注,来分析相关因子与股票时间轴走势相关性。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服