ID:151848

HWT

python开发工程师

  • 公司信息:
  • 杭州币尔大数据科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

熟悉cookie登陆原理,熟悉各种反爬虫机制,如账号封禁,IP封禁、验证码、Ajax动态数据加载等
熟悉python的数据结构和算法
熟悉网络请求库Requests,Urllib,Urllib2,了解grequests异步HTTP请求库
熟悉HTML、JavaScript、CSS、Ajax等前端知识
熟悉自动化测试框架 selenium 、Appium,熟悉jmeter、badboy,了解Splinter
熟悉Beautifulsoup、Xpath、Re正则,Android端APP元素定位工具appuiautomatorviewer等
熟悉Mongo、Redis、MySQL数据库,了解Hbase、Hadoop、Spark
熟悉Django、flask,经常编写API接口,供其他部门使用,了解Jinja2、Mako-python等,了解SQLAlchemy、Peewee等ORM库
熟悉HTTP协议、TCP\IP 等协议
熟悉scrapy框架,了解pyspider等其他爬虫框架
熟悉pycharm、sublime、vim,了解Androidstdio
熟悉网络编程,熟悉socket,了解pulsar、pyzmq、Twisted等库
熟悉NGINX、uWSGI、gunicorn等的配置与使用
熟悉python 版本和环境管理库virtualenv
熟悉python可执行文件打包库py2exe、PyInstaller等
熟悉Linux与Windows定时任务使用
了解Huey、mrq-Queue、rq-python、simpleq等用于处理事件和任务队列的库
了解GUI编程相关的Flexx、kivy、pyglet、PyQt等库
了解自然语言处理库NLTK、SnowNLP、spaCy等
了解newspaper、python-goose、textract等

项目经验

二、分布式微博爬虫:
爬取目标:微博平台
技术与工具:抓包工具fiddler、docker、requests、进程、协程、flask,redis做中间缓存和消息队列,mongo做最终数据存储,crontab定时启动。

项目目的:为了获取用户在网络和现实世界的唯一标识ID-手机号,以便去各大平台比对并获取用户更多信息,为后面做用户画像和精准营销做准备,产生更大的商业价值。

模块:初始代理获取与存储模块、代理的检测与转存模块、手机号码生成模块、核心洗号模块、扫出号码上传模块、定时重启模块。
遇到问题:扫号速度慢,扫号量波动大(0-50%);并发数上去后,代理请求频繁,被代理网站封禁。
解决过程:通过研究与尝试代理获取URL链接的配置参数,代理网站ip改为一次获取20000个ip,由各个docker中的爬虫实例根据相应算法按需获取,并把扫号爬虫并加大发量,充分利用计算机CPU、MEM等资源。最终,即解决了IP封禁问题,扫号量波动值大幅下降趋于平稳,一直维持在0 - 7‰,扫号速度也提升13.5倍。
最终结果:在公司现有条件下,以最小的代价,最快的速度,在微博平台上扫完了所有中国号段。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服