熟悉java,python和C#等编程语言。熟悉asp.net webform,mvc,winform,wpf等.net 网站和桌面平台框架及ssas商业智能。了解java平台的ssm框架和android,hadoop,spark,hive,kafka系列开发。
python webapi设计。有多年的爬虫经验。
熟悉常用机器学习算法,大数据开发,有自然语言处理、推荐算法经验、BI 设计及数据仓库构建。
熟悉oop原则模式及实践。
某大型银行的系统画像数据仓库
1、涉及到几千台服务器的性能数据(CPU、memory、磁盘使用率等)和相关的几十个系统的交易数据的数据仓库设计、开发,数据清洗和开发
2、使用spark作为ETL工具每天生成各个表数据,使用hive长期存储系统画像数据。elasticsearch存储近期数据。
3、python实现一般性算法如趋势预测,异常检测根因定位,用于系统画像的标签生成。Scala actor模型接受kafka数据实时检测告警。
4、核心算法使用C++实现保密, 加上cmake、swig实现多语言支持。
分布式爬取百度实况排名,按照不同策略自动给集团所有竞价关键词调价调排名。
技术架构:
5台slave服务器(几百个client负责爬去百度实况并格式化数据回传,验证cookie及生成cookie等功能)
1台Master服务器使用NetMQ(ZeroMQ C#版本)Request-Reply Broker模式,消息缓存发布订阅回传,及客户功能订阅等。
1台checker服务器(定时检测cookie状态和Spider状态,并触发生成cookie消息和启动cookie消息)
Web前端及API服务器(显示各个服务器运行状态,及设置运行参数如check间隔时间,爬虫数量,定价策略等,对外提供手动查询关键词API)
策略任务服务器出发关键词排名查找,及自动定价等。
SQLServer数据库及SSAS在线分析SSRS报表服务,按account、group、plan、keyword的层级结构及地域、时间等维度分析关键词投放效果(CPC、Cost、pv、uv、ip、ctr、cpm、impression、msgnum、telnum等度量值)。
三层架构:Web+Model+BLL+IDAL+DAL+DBUtility+Commons+WinApps+WebService
系统主要实现:流程引擎+文档引擎+信息引擎+数据库的纵表(指标)
目的是投资计划管理与工程建设管理一体化、投资建设流程化、项目投资评估科学化、系统提示智能化、统计分析深入化、外部接口集成化。 主要建设模块:首页提醒、计划管理、工程立项、工程项目、合同管理、工程物资、投资评估、统计分析、业务培训、流程维护、系统维护、共享共建管理、C网需求管理、资源中心、档案管理。
与CRM系统接口、与OA系统接口、与采购系统接口、与合同系统接口、与现场验收系统接口、与审计系统接口(结算、决算)、与物资管理系统接口(库存系统)、与工程财务系统接口、与网上报销系统接口、与资源管理系统接口、与集团接口。