ID:320253

hoosu

数据工程师

  • 公司信息:
  • 万翼科技有限公司
  • 工作经验:
  • 7年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 深圳
  • 南山

技术能力

7年工作经验。熟练使用scrapy、aiohttp、asyncio、flask、requests等库,掌握mysql、MongoDB、redis等数据库在爬虫中的运用,linux下爬虫开发部署。处理js逆向、图片验证码、文字样式加密,ip封禁,账号登录等反爬虫问题。熟练使用pyth on多进程+协程高并发。涉及dl,可手写分类问题源码。

项目经验

需要实时更新上述两个网站最新披露的数据,两个网站存在很多可用信息,爬取量大,时效性要求较高
2.技术手段以及实现思路
a.考虑数据量大,主要为结构化数据,使用mysql数据库,pymysql便于操作,代理池proxypool提供代理数据避免ip封禁b.针对两个网站的项目,建立两个scrapyproject,两个项目实现思路一样。考虑以后会新增其他数据需求,start_requests里面使用主域名。针对不同数据需求分析页面,在生成的新请求里面调用不同的parse函数
c.设置异常处理情况,遇到异常时,记录异常信息保存到本地便于后期分析,setting里面注释钓默认的中间件
d.以上架构综合考虑了反爬虫机制,易于修改代码后增加后期数据需求,容错机制等

案例展示

  • 银行验证码统一处理

    银行验证码统一处理

    1.项目背景 公司利用arp机器人完成自动报账,登录需要网盾+验证码的输入,我负责处理验证码问题 2.技术手段以及实现思路 a.银行验证码大多是数字和字母的组合,为提高准确率降低训练速度,采用切割之后再训练的方式 b.不同网站验证码字体特征不一样,分别抓下来500个验证码

  • 债券网、货币网所有债券发行数据

    债券网、货币网所有债券发行数据

    1.项目背景 需要实时更新上述两个网站最新披露的数据,两个网站存在很多可用信息,爬取量大,时效性要求较高 2.技术手段以及实现思路 a.考虑数据量大,主要为结构化数据,使用mysql数据库,pymysql便于操作,代理池proxypool提供代理数据避免ip封禁b.针对两个

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服