ID:178933

浪你个巴啦啦

爬虫工程师

  • 公司信息:
  • 深圳市三希软件科技有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 深圳
  • 南山

技术能力

Python/Scrapy/Requests/Urllib/Lxml 库/Css/Xpath/正则表达式/ 断点调试/JS 破解/JS 反混淆/网页渲染工具/UA/IP 限制/模拟登陆/验证码 Selenium/PhantomJS/Chrome Headless/分布式/多线程/多进程/并发爬虫 国内网站爬虫/国外网站爬虫/APP 爬虫/小程序爬虫/数据去重/ OS/Mysql/Redis/Mongodb/Linux 等.

项目经验

项目描述 A (财经网站爬虫):

1. 数据类型-股票期货等;
2. 项目主要为客户提供金融数据实时接口,我负责对金融数据库提供数据库数 据支持;
3. 负责爬取各类金融网站,按照字段要求对网站进行爬取,利用公司提供的爬虫架构部署爬虫和维护爬虫,对数据进行实时更新,数据去重入库;
4. 不断更新网站爬虫,应对突发情况,保证数据实时稳定准确。

完成情况:

1. 完成了指定网站的爬虫开发维护工作;
2. 对数据的去重优化和稳定提供了自己的优化意见,并得到项目主管的采纳和 实施;
3. 解决了 ws 协议网站爬虫。

项目描述 B (创投新闻爬虫):

1. 为投资创业平台新闻快讯板块提供内容支撑,要求更新及时,内容专业有价值
2. 数据来自几十个财经投创新闻资讯网站或者平台,如界面网,要求按照标定的 需求板块进行爬虫,并按照篇幅,新闻板块,和优先度进行分类存储.入库前要进行 url 去重和内容去重
3. 先爬取历史数据,完成后按网站更新速度按天,小时进行更新
4. 要求在 linux 环境下开发.

完成情况:

1. 利用 scrapy 框架写爬虫.每个网站一个 spider
2. 中间件来分类开启爬虫,url 去重
3. .前期用 redis 的 set 来去重,后来因为数据量越来越多,改用了布隆去重.并配合 NLP 接口管道来进行内容识别去重
4. 完成了项目需求,并在不断更新维护中
5. 在网站多而复杂的情况下,比较合理的完成了爬虫代码的开发,完成了项目需 求

项目描述 C (新闻爬虫):

项目链接: https://github.com/lngbll/JOVI.git
1. 新闻媒体新闻资讯爬虫,为数据分析提供。为微信公众好,自媒体等客户提 供选题,内容参考,原创性参考;
2. 主要内容是维护一个新闻资讯的数据库,并生成热度趋势,舆论走向等日, 周,月报表。 本人是数据爬虫,在各大新闻门户网站,热门 app 上爬取新闻数据,字段包括 标题,正文,阅读量,作者,更新时间,评论等;
3. 利用 scrapy,xpath,负责新闻资讯的日常爬取,爬虫编写,爬虫进程维护,日志 处理等;
4. 解决了亿级数据内容去重算法。并对数据库进行了优化处理。

完成情况:

1. 解决了亿级数据内容去重算法。并对数据库进行了优化处理;
2. 优化爬虫,让爬虫程序稳定运行,管理异常日志,并及时处理。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服