Hadoop大数据技术与项目实战
Hadoop大数据技术与项目实战
1万+ 人选课
更新日期:2025/04/24
开课时间2025/01/21 - 2025/07/20
课程周期26 周
开课状态开课中
每周学时-
课程简介
本课程是高等职业院校大数据技术专业的一门专业核心课,课程内容基于大数据运维工程师、大数据分析工程师等职业岗位能力要求,对接大数据平台运维等“1+x”证书、大数据应用开发技能大赛等能力要求。课程以企业真实项目“电商平台用户行为数据分析”的实施流程为主线贯穿所有知识点,通过该项目实战,使学习者掌握Hadoop大数据核心技术,包括Hadoop大数据平台部署、数据采集、离线数据仓库的设计与开发,最后对分析结果进行可视化展示。 本课程学习内容主要包括:Vmware、Xshell、IDEA等软件的安装配置;Hadoop分布式集群环境搭建; Flume、Kafka、Hive、Sqoop、Zookeeper等组件的基本工作原理、搭建及配置方法;使用Flume-Kafka-Flume架构实现数据采集;Sqoop数据迁移;Hive离线数据仓库的设计与开发;pyecharts数据可视化。 本课程的前序课程有Linux操作系统,MySQL数据库等,后续课程有数据采集与ETL、Spark大数据技术与应用等。 本课程的第二章也适用于云计算技术应用专业的学生学习。
课程大纲

在线教程

章节简介教学计划
绪论
学习资料 登录后可预览视频
绪论
王小洁
学习资料
课程访谈
王小洁、丰泽
学习资料
项目需求篇
项目业务背景
学习资料
企业角度谈项目业务背景
石永鑫
学习资料
“两山”理论打造项目“生态文明”—项目业务背景
李俊华
学习资料
项目实施计划
石永鑫
学习资料
项目数据字典介绍
数据源数据结构字典
石永鑫
学习资料
Hive表数据字典
石永鑫
学习资料
大数据平台部署篇
大数据相关开发软件安装
Vmware、Xshell、Xftp、IDEA软件安装
李俊华
学习资料
Linux操作系统环境配置
学习资料
安装虚拟机
李俊华
学习资料
克隆虚拟机
李俊华
学习资料
加强安全防护 搭建信任桥梁 --SSH免密码登录配置基础知识
李俊华
虚拟机免密码登录配置
李俊华
学习资料
合理规划 创造良好开端——Linux项目路径规划
张婕
学习资料
Hadoop分布式集群环境搭建
JDK安装配置
李俊华
学习资料
Hadoop框架介绍及组成
李俊华
学习资料
HDFS集群配置
李俊华
学习资料
YARN集群配置
李俊华
学习资料
HDFS shell命令行操作
刘燕楠
学习资料
HDFS客户端开发环境配置及测试
刘燕楠
学习资料
HDFS API基本操作
刘燕楠
学习资料
MapReduce原理
刘燕楠
学习资料
MapReduce案例——词频统计(1)
刘燕楠
学习资料
MapReduce案例——词频统计(2)
刘燕楠
Hive数据仓库服务配置
MySQL环境配置
刘燕楠
学习资料
Hive环境配置
刘燕楠
学习资料
Hive与MySQL整合及Hive服务启动
刘燕楠
学习资料
HQL语句基本操作
刘燕楠
学习资料
HQL统计分析案例
刘燕楠
学习资料
Flume原理及安装部署
李红
学习资料
Sqoop原理及应用
学习资料
Sqoop原理及安装部署
李红
学习资料
Sqoop数据迁移案例
李红
学习资料
Zookeeper集群环境搭建
李红
学习资料
Kafka环境搭建及应用
学习资料
Kafka集群环境搭建
李红
学习资料
Kafka常用命令及使用
李红
学习资料
数据采集篇
项目数据源及产生方法
李红
学习资料
Flume脚本设计
学习资料
Flume概述
李红
学习资料
万丈高楼平地起,一砖一瓦皆根基——Flume数据采集脚本设计
李红
学习资料
拦截器创建流程
李红
学习资料
ETL拦截器业务逻辑分析
李红
学习资料
分流标记拦截器业务逻辑分析
李红
学习资料
Flume数据采集执行脚本及实现
李红
学习资料
Flume数据消费脚本设计(1)
李红
学习资料
Flume数据消费脚本设计(2)
李红
学习资料
Flume数据消费执行脚本及实现
李红
学习资料
离线数仓设计与开发篇
离线数据仓库概述
学习资料
离线数据仓库概述(1)
王小洁
分而治之 化繁为简——离线数据仓库概述(2)
王小洁
学习资料
ODS层设计与开发
学习资料
ODS层启动日志表、事件日志表设计及数据加载
王小洁
学习资料
DWD层设计与开发
项目JSON解析函数及应用
王小洁
学习资料
DWD层启动日志表设计及数据加载
王小洁
学习资料
DWS层设计与开发
学习资料
每日设备行为表设计及数据加载
王小洁
学习资料
DWT层设计与开发
HQL关联查询(1)
王小洁
学习资料
HQL关联查询(2)
王小洁
学习资料
HQL关联查询(3)
王小洁
学习资料
设备主题表设计及数据加载
王小洁
学习资料
ADS层设计与开发
学习资料
活跃用户数据表设计及数据加载
王小洁
学习资料
每日新增用户数据表设计及数据加载
王小洁
学习资料
沉默用户数据表设计及数据加载
王小洁
学习资料
本周回流用户数据表设计及数据加载
王小洁
学习资料
用户留存率数据表设计及数据加载
王小洁
学习资料
项目数据可视化展示篇
构建MySQL数据表
任夏荔
学习资料
Sqoop数据迁移
任夏荔
学习资料
数据可视化
学习资料
pyecharts可视化工具介绍
任夏荔
学习资料
坚定“四个自信”,做新时代有为青年——图说2020-2022经济年均增速
任夏荔
导入数据、绘制大屏标题
任夏荔
学习资料
绘制柱状图
任夏荔
学习资料
绘制象形柱状图、水球图
任夏荔
学习资料
绘制柱状图与折线图的叠加图
任夏荔
学习资料
阅读点亮人生——图说成年国民倾向的阅读形式
张宇鑫
绘制轮播图
任夏荔
学习资料
数据大屏展示
任夏荔
学习资料
  • 绪章绪论

    绪论主要介绍课程特点、课程学习目标、课程主要内容、重点与难点等,使大家对课程有一个整体认识。

  • 0.1绪论

    绪论主要介绍课程特点、课程学习目标、课程主要内容、重点与难点等,使大家对课程有一个整体认识。

  • 0.2课程访谈

    邀请企业工程师、在校生、毕业生代表,分别谈分别谈论本课程中所涉及的知识点在实际工作中有哪些应用、在校生该如何学好这门课,以及学好该课程能为学生就业提供哪些帮助

  • 第一章项目需求篇

    本篇从项目实际需求入手,进行系统分析,从而设计项目技术解决方案,包括有项目业务背景、项目实施计划,以及项目数据字典介绍部分。

  • 1.1项目业务背景

    在电商领域,用户在使用电商平台过程中会留下用户行为数据,本届讲解了对该数据分析的重要性,介绍了什么是数据仓库、数据仓库的优点等基本知识,以及本项目选择进行数据仓库设计与开发的原因。

  • 1.2项目实施计划

    本节基于项目业务背景进行分析,介绍项目实施流程规划、技术选型、技术版本、教学实施路径等内容。

  • 1.3项目数据字典介绍

    本节介绍项目数据字典。介绍了数据源数据结构字典和hive表数据字典,为后续数据处理过程中理解业务逻辑奠定基础。详细介绍了项目中涉及到的用户行为数据(启动日志、事件日志),以及数据仓库中10张表的数据结构,分析其包含的字段及字段含义。

  • 第二章大数据平台部署篇

    本篇讲解构建项目开发过程中所使用到的各种大数据技术框架环境,包括Linux系统环境、开发应用软件,以及大数据技术框架的安装部署。

  • 2.1大数据相关开发软件安装

    本节讲解在项目开发过程中所使用到的软件,以及每个软件的安装部署。所使用的软件主要有:Vmware、Xshell、Xftp、IDEA、nodepad++等。

  • 2.2Linux操作系统环境配置

    大数据的各种应用服务,都需要部署在Linux系统上才能运行,所以本节讲解,linux操作系统的安装部署,以及基本配置,包括克隆虚拟机及免密码登录配置。

  • 2.3Hadoop分布式集群环境搭建

    本节讲解Hadoop完全分布式集群搭建的详细流程,以及分布式文件系统HDFS、离线计算框架mapreduce的基本使用

  • 2.4Hive数据仓库服务配置

    本节讲解,数据仓库相关服务的安装配置,包含有MySQL环境配置、Hive环境配置。同时带领大家熟悉HQL语言的使用。

  • 2.5Flume原理及安装部署

    本节讲解数据采集工具Flume的基本原理,以及Flume的安装部署。在项目中,使用Flume来实现数据的采集。

  • 2.6Sqoop原理及应用

    本节讲解数据迁移工具Sqoop的基本原理,以及Sqoop的安装部署。在项目中,使用Sqoop来实现数据的迁移功能。

  • 2.7Zookeeper集群环境搭建

    本节讲解Zookeeper集群的安装部署。在项目中,使用Kafka对数据采集系统进行缓冲和消峰,而Kafka的运行需要Zookeeoer来进行分布式协调服务。

  • 2.8Kafka环境搭建及应用

    本节讲解Kafka环境搭建及应用。

  • 第三章数据采集篇

    本篇讲解如何构建项目数据采集系统,将用户行为日志数据的磁盘文件数据,采集到大数据平台HDFS上进行存储。项目中采用Flume--Kafka--Flume的架构实现采集功能,同时使用到了Flume自定义拦截器等功能。

  • 3.1项目数据源及产生方法

    本节介绍项目数据源及产生方法,为后续数据采集做准备。主要分析用户行为日志数据结构,讲解如何运行java程序模拟生成项目源数据

  • 3.2Flume脚本设计

    本节讲解数据采集系统实现过程中,Flume数据采集及Flume数据消费脚本的设计过程,其中包含通过编程的方式来实现Flume自定义拦截器功能。

  • 第四章离线数仓设计与开发篇

    本篇是课程的核心部分,也是难点部分。讲解了电商离线数据仓库的分层架构设计,以及每一层的设计与实现。在项目中,数据仓库共分为五层,分别是ODS层原始数据层、DWD层明细数据层、DWS层数据服务层、DWT层数据主题层、ADS数据应用层。

  • 4.1离线数据仓库概述

    本节对离线数据仓库进行概述。主要有数据仓库的概念、数据库与数据仓库的区别、数据仓库分层设计的原因及各层功能介绍、数据仓库的特点及发展等内容。

  • 4.2ODS层设计与开发

    本节讲解ODS层中启动日志表的设计以及两张表数据的加载操作。

  • 4.3DWD层设计与开发

    本节讲解DWD层明细数据层启动日志表的设计,以及表数据的加载操作,主要是对ODS层启动日志表及事件日志表json数据的解析操作,然后进行加载。

  • 4.4DWS层设计与开发

    本节讲解DWS层每日设备行为表的设计,以及表数据的加载操作,主要是对DWD层启动日志表,以设备id作为分组条件来进行去重操作,然后进行加载。

  • 4.5DWT层设计与开发

    本节讲解DWT层设备主题表的设计,以及表数据的加载操作,主要是对DWS层每日设备行为表进行统计,从而得出每个设备的首次登录时间、末次登录时间,以及累积登录天数,然后进行数据加载。

  • 4.6ADS层设计与开发

    本节讲解ADS层设计与开发。主要是活跃用户数据表、每日新增用户数据表、沉默用户数据表、本周回流用户数据表、用户留存率数据表等五张指标表的设计,以及表数据的加载操作,数据加载主要是对DWT层设备主题表和DWS层每日设备行为表的数据进行统计分析,然后进行数据加载。

  • 第五章项目数据可视化展示篇

    本篇讲解如何将项目中分析的数据进行可视化展示。首先构建MySQL数据表,然后通过Sqoop工具实现数据迁移,最后通过 pycharts工具将数据进行展示。

  • 5.1构建MySQL数据表

    本节讲解构建五张表的MySQL数据表结构。五张表为:活跃用户数据表、每日新增用户数据表、沉默用户数据表、本周回流用户数据表、用户留存率数据表。

  • 5.2Sqoop数据迁移

    本节讲解使用Sqoop工具,实现项目中的数据迁移。即将Hive中的五张表的表数据加载到上一节建好的MySQL表中。

  • 5.3数据可视化

    本节基于5张MySQL数据表,使用pyecharts工具,绘制柱状图、折线图、象形柱状图、饼图、时间线轮播图和水球图,最后,将所有图表汇聚在数据大屏中,进行综合展示。

  • 开始学习
  • 绪章  作业测试
    绪章绪论

    0.1 绪论

    0.2 课程访谈

    视频数2
  • 第一章  作业测试
    第一章 项目需求篇

    1.1 项目业务背景

    1.2 项目实施计划

    1.3 项目数据字典介绍

    视频数5
  • 第二章  作业测试
    第二章 大数据平台部署篇

    2.1 大数据相关开发软件安装

    2.2 Linux操作系统环境配置

    2.3 Hadoop分布式集群环境搭建

    2.4 Hive数据仓库服务配置

    2.5 Flume原理及安装部署

    2.6 Sqoop原理及应用

    2.7 Zookeeper集群环境搭建

    2.8 Kafka环境搭建及应用

    视频数27
  • 第三章  作业测试
    第三章 数据采集篇

    3.1 项目数据源及产生方法

    3.2 Flume脚本设计

    视频数10
  • 第四章  作业测试
    第四章 离线数仓设计与开发篇

    4.1 离线数据仓库概述

    4.2 ODS层设计与开发

    4.3 DWD层设计与开发

    4.4 DWS层设计与开发

    4.5 DWT层设计与开发

    4.6 ADS层设计与开发

    视频数15
  • 第五章  作业测试
    第五章 项目数据可视化展示篇

    5.1 构建MySQL数据表

    5.2 Sqoop数据迁移

    5.3 数据可视化

    视频数11
  • 期末考试