计算机技能
1,熟悉C 语言,Python,Java,Scala,Linux Shell等。
2,熟悉大数据方向框架,包括Hadoop,Spark,HBase,Kafka 等。
3,熟悉数据存储方面,包括Redis,MySql,Mongodb等。
4,熟悉网络方面,包括TCP/IP协议,Http/Https 协议,tcpdump,Tshark等。
5,熟悉常用数据结构,包括链表,哈希表,二叉树,红黑树,B树,跳表等。
6,熟悉高性能机制,多进程/多线程/协程,多路I/O复用原理(select,epoll)。
7,熟悉Python 爬虫/反爬虫技术,熟练使用Beautiful Soup,Splinter,正则表达式等。
1,开发,维护公司的DMP 系统
此项目主要是对运营商数据进行分析,处理。目的是依靠这些数据来对用户进行用户画像,从而达到精准广告投放的目的。
本项目的技术方面涉及到Tcp/Ip协议,大数据技术和机器学习。对于网络协议的使用,主要用于对用户流量数据的解析。大数据框架使用了Hadoop,HBase,Kafka 和Spark Streaming来对海量的用户上网信息进行处理。机器学习方面主要使用了逻辑回归算法。
用户画像主要两方面。一是对用户的兴趣爱好进行画像,比如用户喜欢上什么网站;二是对用户的人口属性进行画像,比如某用户的年龄,性别,收入等。
2,appsimilar 产品后端开发
网址:https://dev.appsimilar.com/
这是一个app 分析平台,我主要负责后端技术研发,主要工作涉及到数据采集和数据分析,用到的技术包括爬虫,网络,MySQL,Eleasticsearch 等。
本产品用户分析app 相关数据,包括下载量,评论数,收费数据,app 日活,app 发布时间,开发者日活,开发者上线时间等。
本作品是一个以leveldb 为引擎的分布式kv数据库。leveldb 是Google 开发一个一款键值数据库,其数据存储性能超强,但是没有网络功能,只能单机使用。ldb 在其基础上增加了网络功能,使其能够跨网络使用。