ID:211392

Ethereal

python开发工程师

  • 公司信息:
  • 酷派技术有限公司
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 700元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 深圳
  • 南山

技术能力

熟练掌握Python/Go语⾔言。能熟练进⾏行行项⽬目应⽤用开发,熟悉⾯面向对象思想;
2. 熟悉Django、Flask,了了解常⽤用前端开发框架,jQuery,Bootstrap等,能快速搭建web应⽤用 3. 熟悉设计模式:装饰器器,单例例模式等;
4. 掌握Linux操作系统进⾏行行开发和服务部署,能够shell编程;
5. 能进⾏行行Python⾼高级编程,熟悉多线程,多进程,协程,websocket编程;
6. 熟练掌握MySQL,Redis;
7. 熟练掌握 Restful API 封装 ;
8. 熟练掌握Scrapy/Scrapy-Redis分布式爬⾍虫框架 ,了了解HTTP/HTTPS,TCP/IP等⽹网络协议; 9. 熟悉sklearn对⽂文本处理理有⼀一定经验,⽂文本去重,分类等;
10. 掌握常⻅见的爬⾍虫、反爬⾍虫知识及应对措施;
11. 熟悉应⽤用 IP代理理池,熟悉 XPath、 css-selector、正则等⽹网⻚页信息抽取技术;
12. 能熟练使⽤用Nginx,gunicorn,celery,supervisor 搭建⾼高性能分布式异步处理理服务; 13. 熟悉docker容器器化技术以及Jenkins
14. 熟练Git版本控制,团队开发,能够部署CI/CD;
15. 熟悉Numpy, Pandas,matplotlib, pyechart等的数据分析⼯工具;
16. 熟练的英⽂文读写能⼒力力,能通过研究开源项⽬目完成任务。

项目经验

量量化交易易系统:技术描述:Redis+websockt+asyncio+request+Xpath+pandas+APSshedule 项⽬目职责:
1. 系统的稳定性,容错性处理理:主要采取单独进程运⾏行行,⼼心跳检测,重连机制
2. 低延时,并发处理理:采⽤用多线程,进程池,优化代码,减少不不必要的性能消耗
3. 多交易易市场扩展:统⼀一交易易路路由和API基类,让新接⼊入的交易易所各⾃自去实现⾃自⼰己的功能如⾏行行
情推送处理理,下单数据回调等
4. 针对交易易所等容错性处理理,⼤大量量交易易会导致对⽅方交易易时出现overload,限流,服务不不可⽤用的
情况,采取了了⾃自建流量量⻛风控模块,websocket⼼心跳检测和重连机制,降低对⽅方交易易所的依
赖,即使对⽅方出现问题,依然保证交易易所能正确的运⾏行行
5. 交易易所路路由功能的实现,针对继⽽而的10个交易易所,全量量⾏行行情和交易易数据接收和实时处理理,下
单会⾃自动采取最优的价格购买和最优价格卖出,实现利利润最⼤大化,让每笔交易易都产⽣生了了挖矿
的效果
6. 跨交易易所套利利优化,实时⾏行行情数据推送和实时分析,算法⾃自动化交易易



本项⽬目是为购物中⼼心集团做的⼀一套BI系统,每⼀一级别都有不不同的权限控制⻚页⾯面展示,结合顾客 消费数据,⼈人脸客流数据,会员注册等数据,做⼀一些数据分析以及展示。项⽬目经历了了从发起,规 划,技术设计,搭建,开发,迭代,重构,服务横纵分割的过程,基本是⾃自⼰己单独完成,通过该 项⽬目使⾃自⼰己对python和Mysql 以及服务部署掌握更更加熟练
项⽬目职责:
1. BI后台系统搭建:Django+Mysql+redis+celery+Nginx+gunicorn+uwsgi
2. 参与需求分析,后台设计,数据分析等⼯工作
3. 主要接⼝口功能:登陆注册,权限控制,数据统计/筛选,环⽐比同⽐比分析,排⾏行行分析等数据分
析,平台运维报警
4. 权限控制:RBAC
5. ⾃自动化平台搭建,⼀一套由git,Jenkins,搭建的⾃自动化构建发布流程,实现提交代码后⾃自动
构建(编译),测试,发布功能
6. 解决性能问题若⼲干,如db慢,sql调优,服务器器部署调优,不不规范接⼝口改造
7. 输出完善的后台接⼝口⽂文档,保证项⽬目健康成⻓长


本项⽬目是⼀一个很完善,功能强⼤大的新闻资讯类爬⾍虫系统,其功能包括,可扩展的⽹网站模版配置 (抽取每个⽹网站的xpath解析规则),⽂文章内容的处理理,去标签,table标签截图,⽂文章内容视频 提取,去⼴广告,⽂文章去重功能,鉴⻩黄功能,⾃自动分类功能,⽬目前700左右的⽹网站数量量,根据每天⽹网 站新闻更更新数爬取,及时性在⼀一个⼩小时之内,数据量量需要根据待爬⽹网站更更新量量确定,⽬目前基本稳 定在30k/天
项⽬目职责:
1. ⽂文章去重功能:去重是新闻资讯爬⾍虫很重要的⼀一个功能,原始⽅方案采取⼀一篇⽂文章进⼊入数据库 之前需要对数据库每⼀一篇⽂文章进⾏行行对⽐比⼀一遍,这样耗时⽐比较多,后经改进后的⽅方案为,把每 篇⽂文章都进⾏行行段落hash,这样每篇⽂文章对应的⼏几段⽂文字,便便以hash值的⽅方式存⼊入hash数据 库,新⽂文章进⼊入之前进⾏行行分词,段落hash再去hash库⽐比对是否有相似的hash值,如有,把 hash值对应的⽂文章取出来,进⾏行行词向量量矩阵构建,再⽤用cosine_similarity算出余弦距离对⽐比 相识性;
2. table截图功能:由于有些⽹网站⻚页⾯面是table格式的抓取到的数据很乱,所以采⽤用⻚页⾯面截图⽅方式 保存为图⽚片。采⽤用 selenium和pillow 先保存整个⻚页⾯面再,根据定位截出想要的内容。
3. ⽂文章⾃自动分类功能:由于需要做个性化推荐系统,所以需要对⽂文章进⾏行行分类和标tag,前期需 要⼈人⼯工或者数据库 爬进的原始分类进⾏行行标注类别,分类采⽤用k-最近邻法。
4. 部署:⽬目前700个start_url 存⼊入mysql,⾥里里⾯面包含了了每个url的爬取状态,⽬目前有三种程度的爬 取⽅方式,根据⼀一个 ⽹网站的遍历次数来分,由于及时性的要求,所以⽹网站⾸首⻚页及时性要求较 ⾼高,每隔不不到⼀一⼩小时都会去扫描数据库, 获取要爬的url,再通过匹配到的规则去解析该⻚页 ⾯面,⽬目前爬⾍虫有⼀一个集群,都是从该数据库取任务,分布式爬 取,效率⽐比较⾼高。

案例展示

  • www.yunpiaobox.com

    www.yunpiaobox.com

    系统的稳定性,容错性处理理:主要采取单独进程运⾏行行,⼼心跳检测,重连机制 2. 低延时,并发处理理:采⽤用多线程,进程池,优化代码,减少不不必要的性能消耗 3. 多交易易市场扩展:统⼀一交易易路路由和API基类,让新接⼊入的交易易所各⾃自去实现⾃自⼰己的功能如⾏行行 情推

  • 后台管理

    后台管理

    系统的稳定性,容错性处理理:主要采取单独进程运⾏行行,⼼心跳检测,重连机制 2. 低延时,并发处理理:采⽤用多线程,进程池,优化代码,减少不不必要的性能消耗 3. 多交易易市场扩展:统⼀一交易易路路由和API基类,让新接⼊入的交易易所各⾃自去实现⾃自⼰己的功能如⾏行行 情推

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服