熟悉python,java,精通爬虫,mapreduce,spark,数据挖掘与分析。
掌握postgresql,mysql,redis等数据库。
1 网络爬虫技能:熟悉python爬虫,熟悉网页抓取原理及技术,熟悉各种网页解析的策略和算法,熟悉基于正则表达式、XPath等网页信息抽取技术,熟悉基于Cookie的网站登录原理。熟悉多进程应用。
2 大数据相关技能:熟悉hadoop,mapreduce处理数据原理及相关技术,熟悉机器学习算法。
3 数据库: 熟悉postgresql,mysql,redis等数据库的操作。
1 爬虫方面:汽车之家全网用户信息的爬取,负责采集汽车之家全网的用户信息,其中使用多进程提高爬虫的效率,使用postgresql数据库储存。另外还有豆瓣,乐视等影评的数据采集。
2 使用mapreduce处理电信的原始数据,分析用户搜索词的热词。