刚毕业,在做爬虫工程师
1.熟悉Python,有flask,Django的使用经历,熟悉Java,有Hadoop,spark,zookeeper,hbase的使用经历。
2.有Linux,docker,MySQL,nosql,SQL语句的使用经历,使用过bi工具superset和metabase。
3.爬虫专精。
4.有rpa的uibot使用经历,了解uipath。
5.数据清洗,数据可视化,R语言建模分析数据,人工智能,深度学习,大数据系统运维的经历
房价预测分析
项目介绍:本项目旨在利用Hadoop集群和Spark框架对房价数据进行分析并提供有价值的洞察。通过大规模数据处理和分布式计算,我们可以更加全面地理解房价的变化趋势、影响因素以及市场走向,从为自己买房提供支持。
解决的问题:房价的变化趋势、影响因素以及市场走向对买房的影响情况。
解决的方法:通过Hadoop集群和Spark框架,处理房价数据,进行准确的分析和预测,并为买房的决策提供有价值的参考。
我的责任:使用爬虫抓取多个房地产网站上的房价数据,将采集到的数据存储在Hadoop分布式文件系统(HDFS)中,利用Hadoop MapReduce或Spark的分布式计算能力进行数据清洗,对清洗后的数据进行标准化和特征工程,使用Spark提供的机器学习库MLlib进行特征选择、模型训练和评估。构建回归模型来预测房价,并对模型进行优化和调参,使用可视化工具matplotlib对分析结果进行可视化展示。