编程语言: C , C++ , Java , Python
数据库: postgreSQL, Oracle, MySql, Redis, MongoDB
脚本: shell
熟悉编译原理、内存管理、文件管理。熟悉IPC通信、Socket编程、多线程编程,擅长算法的语言实现、新技术的学习。
算法:
分类: 决策树、随机森林、支持向量机、朴素贝叶斯、K-邻近
聚类: K-means, DBscan
1. 大数据空间图谱系统
项目描述: 海量数据存储、分析(异常聚集, 驻留,并轨,分组,实时监控)
工作内容:
a. 海量数据近实时入库(redis 做任务缓存队列(扫描目录获取任务文件),多线程读取任务的方式,将数
据近 实时的导入到 hbase),入库性能受网络 IO,磁盘 IO 影响,表现会有差异,一般的 3 机器集群、
千兆网络入库 速度可达 400M/s 左右
b. 全连通分组服务和自然分组服务。使用 C 语言版的 igraph 图分析库,并提供相应的 ICE 服务(ICE 是一
款面向对象的网络通信中间件平台,可实现不同语言、不 同操作系统间的网络通信)
c. 任意点集最小覆盖圆算法实现。
d. redis 集群环境搭建及维护
e. shell脚本开发(服务zhuang监测,自启动等)
2. 海量云盘系统
项目描述: 基于海量数据的、可基于各类文件内容进行检索的云盘系统
工作内容:
a. 全文框架设计(搜索引擎采用的 solr,文件存储采用的 FastDFS),字段及类型设计
b. solr集群环境搭建及维护
c. 全文开发, 支持高亮、分类统计、模糊检索、精确检索、迭代查询、拼音、简繁体、同义词、数字大小写
d. 文本内容提取(使用 tika), 支持 doc, excel, pdf, email 等
e. 自定义分词器
3. 杭州智慧档案项目
项目描述: 基于海量数据的档案关系构建
工作内容:
a. 阿里云大数据平台使用,基于 odps 做 MapReduce 分析, 使用 dataworks 部署周期性调度任务
b. CSB接口开发(调用其他公司接口,给其他公司开放服务接口等)
c. dbscan 聚类分析。 实现 kd-tree 优化的 dbscan 聚类算法。
4. 机器学习模块技术支撑
工作内容:
使用 madlib+gp 的方式实现各类机器学习算法 (纯 SQL 形式) 涉及算法主要有决策树、随机森林、
logistic 回归、条件随机场、多项回归、支持向量机、关联规则挖掘(Apriori 频繁项集算法)、k-means
聚类、LDA 主题模型等 编写使用手册和开发手册 支撑开发人员进行相关模块开发。