大数据技术与应用专业出生,主要的技术是spark,spark的数据抽取,清洗,分析,机器学习也会一些,例如协同过滤的推荐系统,还有一些特征工程,随机森林算法等等。然后linux里面的绝大多数组件全都会,比如,hadoop,mysql,hadoop,clikchouse,hive,mysql,hudi等等。其次python方面也很熟练,比如python的爬虫,padnas的数据预处理,以及flask+ecahrs的数据可视化。
完成过三个大数据技术专业的毕业设计,一个是应届生网站的招聘信息数据的分析和可视化,一个是安居客北京租房数据分析和可视化,还有一个是基于协同过滤算法的电影推荐系统。前两个都是拿python的senlenium+xpath爬取网站的数据,然后使用padnas对数据进行预处理,处理完之后存入mysql和hadoop的hdfs上面,然后使用spark对数据进行分析,将分析的结果存入MySQL,然后使用false+ecahrs从mysql抽取分析的结果做成可视化大屏。然后电影推荐系统就是从网上下载的数据,根据als协同过滤算法训练模型,从而对一个用户进行推荐其他没有看过的电影。
完成过三个大数据技术专业的毕业设计,一个是应届生网站的招聘信息数据的分析和可视化,一个是安居客北京租房数据分析和可视化,还有一个是基于协同过滤算法的电影推荐系统。前两个都是拿python的senlenium+xpath爬取网站的数据,然后使用padnas对数据进行预处理,处理完之
完成过三个大数据技术专业的毕业设计,一个是应届生网站的招聘信息数据的分析和可视化,一个是安居客北京租房数据分析和可视化,还有一个是基于协同过滤算法的电影推荐系统。前两个都是拿python的senlenium+xpath爬取网站的数据,然后使用padnas对数据进行预处理,处理完之
完成过三个大数据技术专业的毕业设计,一个是应届生网站的招聘信息数据的分析和可视化,一个是安居客北京租房数据分析和可视化,还有一个是基于协同过滤算法的电影推荐系统。前两个都是拿python的senlenium+xpath爬取网站的数据,然后使用padnas对数据进行预处理,处理完之