熟练掌握Python/Go语⾔言。能熟练进⾏行行项⽬目应⽤用开发,熟悉⾯面向对象思想;
2. 熟悉Django、Flask,了了解常⽤用前端开发框架,jQuery,Bootstrap等,能快速搭建web应⽤用 3. 熟悉设计模式:装饰器器,单例例模式等;
4. 掌握Linux操作系统进⾏行行开发和服务部署,能够shell编程;
5. 能进⾏行行Python⾼高级编程,熟悉多线程,多进程,协程,websocket编程;
6. 熟练掌握MySQL,Redis;
7. 熟练掌握 Restful API 封装 ;
8. 熟练掌握Scrapy/Scrapy-Redis分布式爬⾍虫框架 ,了了解HTTP/HTTPS,TCP/IP等⽹网络协议; 9. 熟悉sklearn对⽂文本处理理有⼀一定经验,⽂文本去重,分类等;
10. 掌握常⻅见的爬⾍虫、反爬⾍虫知识及应对措施;
11. 熟悉应⽤用 IP代理理池,熟悉 XPath、 css-selector、正则等⽹网⻚页信息抽取技术;
12. 能熟练使⽤用Nginx,gunicorn,celery,supervisor 搭建⾼高性能分布式异步处理理服务; 13. 熟悉docker容器器化技术以及Jenkins
14. 熟练Git版本控制,团队开发,能够部署CI/CD;
15. 熟悉Numpy, Pandas,matplotlib, pyechart等的数据分析⼯工具;
16. 熟练的英⽂文读写能⼒力力,能通过研究开源项⽬目完成任务。
量量化交易易系统:技术描述:Redis+websockt+asyncio+request+Xpath+pandas+APSshedule 项⽬目职责:
1. 系统的稳定性,容错性处理理:主要采取单独进程运⾏行行,⼼心跳检测,重连机制
2. 低延时,并发处理理:采⽤用多线程,进程池,优化代码,减少不不必要的性能消耗
3. 多交易易市场扩展:统⼀一交易易路路由和API基类,让新接⼊入的交易易所各⾃自去实现⾃自⼰己的功能如⾏行行
情推送处理理,下单数据回调等
4. 针对交易易所等容错性处理理,⼤大量量交易易会导致对⽅方交易易时出现overload,限流,服务不不可⽤用的
情况,采取了了⾃自建流量量⻛风控模块,websocket⼼心跳检测和重连机制,降低对⽅方交易易所的依
赖,即使对⽅方出现问题,依然保证交易易所能正确的运⾏行行
5. 交易易所路路由功能的实现,针对继⽽而的10个交易易所,全量量⾏行行情和交易易数据接收和实时处理理,下
单会⾃自动采取最优的价格购买和最优价格卖出,实现利利润最⼤大化,让每笔交易易都产⽣生了了挖矿
的效果
6. 跨交易易所套利利优化,实时⾏行行情数据推送和实时分析,算法⾃自动化交易易
本项⽬目是为购物中⼼心集团做的⼀一套BI系统,每⼀一级别都有不不同的权限控制⻚页⾯面展示,结合顾客 消费数据,⼈人脸客流数据,会员注册等数据,做⼀一些数据分析以及展示。项⽬目经历了了从发起,规 划,技术设计,搭建,开发,迭代,重构,服务横纵分割的过程,基本是⾃自⼰己单独完成,通过该 项⽬目使⾃自⼰己对python和Mysql 以及服务部署掌握更更加熟练
项⽬目职责:
1. BI后台系统搭建:Django+Mysql+redis+celery+Nginx+gunicorn+uwsgi
2. 参与需求分析,后台设计,数据分析等⼯工作
3. 主要接⼝口功能:登陆注册,权限控制,数据统计/筛选,环⽐比同⽐比分析,排⾏行行分析等数据分
析,平台运维报警
4. 权限控制:RBAC
5. ⾃自动化平台搭建,⼀一套由git,Jenkins,搭建的⾃自动化构建发布流程,实现提交代码后⾃自动
构建(编译),测试,发布功能
6. 解决性能问题若⼲干,如db慢,sql调优,服务器器部署调优,不不规范接⼝口改造
7. 输出完善的后台接⼝口⽂文档,保证项⽬目健康成⻓长
本项⽬目是⼀一个很完善,功能强⼤大的新闻资讯类爬⾍虫系统,其功能包括,可扩展的⽹网站模版配置 (抽取每个⽹网站的xpath解析规则),⽂文章内容的处理理,去标签,table标签截图,⽂文章内容视频 提取,去⼴广告,⽂文章去重功能,鉴⻩黄功能,⾃自动分类功能,⽬目前700左右的⽹网站数量量,根据每天⽹网 站新闻更更新数爬取,及时性在⼀一个⼩小时之内,数据量量需要根据待爬⽹网站更更新量量确定,⽬目前基本稳 定在30k/天
项⽬目职责:
1. ⽂文章去重功能:去重是新闻资讯爬⾍虫很重要的⼀一个功能,原始⽅方案采取⼀一篇⽂文章进⼊入数据库 之前需要对数据库每⼀一篇⽂文章进⾏行行对⽐比⼀一遍,这样耗时⽐比较多,后经改进后的⽅方案为,把每 篇⽂文章都进⾏行行段落hash,这样每篇⽂文章对应的⼏几段⽂文字,便便以hash值的⽅方式存⼊入hash数据 库,新⽂文章进⼊入之前进⾏行行分词,段落hash再去hash库⽐比对是否有相似的hash值,如有,把 hash值对应的⽂文章取出来,进⾏行行词向量量矩阵构建,再⽤用cosine_similarity算出余弦距离对⽐比 相识性;
2. table截图功能:由于有些⽹网站⻚页⾯面是table格式的抓取到的数据很乱,所以采⽤用⻚页⾯面截图⽅方式 保存为图⽚片。采⽤用 selenium和pillow 先保存整个⻚页⾯面再,根据定位截出想要的内容。
3. ⽂文章⾃自动分类功能:由于需要做个性化推荐系统,所以需要对⽂文章进⾏行行分类和标tag,前期需 要⼈人⼯工或者数据库 爬进的原始分类进⾏行行标注类别,分类采⽤用k-最近邻法。
4. 部署:⽬目前700个start_url 存⼊入mysql,⾥里里⾯面包含了了每个url的爬取状态,⽬目前有三种程度的爬 取⽅方式,根据⼀一个 ⽹网站的遍历次数来分,由于及时性的要求,所以⽹网站⾸首⻚页及时性要求较 ⾼高,每隔不不到⼀一⼩小时都会去扫描数据库, 获取要爬的url,再通过匹配到的规则去解析该⻚页 ⾯面,⽬目前爬⾍虫有⼀一个集群,都是从该数据库取任务,分布式爬 取,效率⽐比较⾼高。
系统的稳定性,容错性处理理:主要采取单独进程运⾏行行,⼼心跳检测,重连机制 2. 低延时,并发处理理:采⽤用多线程,进程池,优化代码,减少不不必要的性能消耗 3. 多交易易市场扩展:统⼀一交易易路路由和API基类,让新接⼊入的交易易所各⾃自去实现⾃自⼰己的功能如⾏行行 情推
系统的稳定性,容错性处理理:主要采取单独进程运⾏行行,⼼心跳检测,重连机制 2. 低延时,并发处理理:采⽤用多线程,进程池,优化代码,减少不不必要的性能消耗 3. 多交易易市场扩展:统⼀一交易易路路由和API基类,让新接⼊入的交易易所各⾃自去实现⾃自⼰己的功能如⾏行行 情推