基本信息

案例ID:202227

技术顾问:FANK - 1年经验 - =

联系沟通

微信扫码,建群沟通

项目名称:python爬虫结合Hadoop

所属行业:文化娱乐 - 视频

->查看更多案例

案例介绍

项目名称: 基于爬虫和大数据的结合
开发周期: 3个月(2023-2-2023-3)
项目描述:
爬虫将数据导入到mysql数据库中,通过sqoop将MySQL中的数据导入到Hadoop的hdfs中,Hadoop集群运用hive进行sql数据库查询,使用hdfs将数据存储在节点,并实现提取出用户留存率,日创建用户和日活跃用户,用户地址,各个年龄段的用户。通过一系列的数据筛选,提取,转换来调查用户需求,来描绘用户画像。

项目架构: Mysql + Sqoop + Hadoop +python爬虫

技术实现:
1. 使用爬虫将爬到的数据传入mysql里面。
2. 使用Sqoop将MySql的业务数据导入HDFS,将原本就保存在本地的了日志文件导入到HDFS
3. 使用Sqoop将MySql的业务数据导入HDFS,将原本就保存在本地的了日志文件导入到HDFS
3.使用SparkCore/SparkSql对数据进行清洗,最后将数据存到Hdfs,映射的到hive表;
3. 创建ODS、MI、DWD、WT、DIM、TMP层;
5. 将数据进行图表展示,发送给运营、产品、测试、管理层。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服