大数据基础与应用
大数据基础与应用
8万+ 人选课
更新日期:2025/05/08
开课时间2023/10/01 - 2024/01/10
课程周期15 周
开课状态已结课
每周学时-
课程简介

本课程的特色主要包括:

(1)本课程讲授大数据分析的基本原理、相关技术和典型应用案例,学习者能够了解大数据应用系统的构造方法和过程,培养大数据思维意识,掌握数据分析的基本技术和方法。

(2)本课程以大数据处理流程为线索,分别介绍数据采集、数据清洗加工、数据分析、开源大数据计算平台、数据可视化等内容。对常用的大数据编程语言Python进行入门级介绍。

(3)课程中介绍了大量的大数据应用案例,这些案例来自于不同的行业和领域,为大家提供不同学科专业多方面的参考。

(4)课程基于华为公有云设计了在线大数据实践体系,在学习理论知识的同时,按照实验手册,亲自动手实践,体验各种算法和工具。

(5)课程介绍了大数据人才需求及常见的工作岗位,为学习者进行自身的职业规划提供参考和帮助。


本课程是教育部-华为“智能基座”精品慕课之一,理论讲授部分在爱课程网学习,实践操作部分在双创云实践平台学习(

https://www.xiaoqiqiao.com/loginPage/login.html)。实践平台的部分截图如下所示:


实验启动界面:

系统概览界面:

实验操作界面:

课程大纲
初识大数据
1.1 大数据定义
1.2 大数据应用场景
1.3 大数据分析流程
1.4 如何参与大数据分析
1.5 大数据应用纵览
1.6 智能医疗大数据
1.7 旅游大数据案例
1.8 金融科技与大数据风控
1.9 政务最多跑一次
Python大数据基础(一)
2.1 内置数据类型
2.2 扩展数据类型
2.3 内置数据结构
2.4 Ndarray介绍
2.5 Series介绍
2.6 DataFrame介绍
2.7 在线实验平台介绍
2.8 旅游大数据在线实验
2.9 数据类型和结构在线实验
Python大数据基础(二)
3.1 文件读写
3.2 文件和文件夹处理
3.3 数据库存取
3.4 CSV和Excel数据交换
3.5 JSON和XML数据交换
3.6 Web数据交换
3.7 用pandas加工数据
3.8 用Matplotlib展示数据
3.9 数据加工和展示在线实验
数据分析方法(一)
4.1 数据分析方法概述
4.2 统计数据分析方法
4.3 数据的中心趋势度量
4.4 数据的离散程度度量
4.5 数据分布的度量
4.6 图形化分析方法
数据分析方法(二)
5.1 机器学习简介
5.2 机器学习的典型任务
5.3 决策树算法
5.4 K-近邻分类算法(KNN算法)
5.5 K-均值聚类算法(K-means算法)
5.6 Apriori关联规则算法
5.7 在线实验
开源平台和工具(一)
6.1 数据采集与清洗概述
6.2 日志数据采集Flume简介
6.3 数据分发中间件Kafka简介
6.4 HDFS介绍及使用方法
6.5 HBase介绍及使用方法
6.6 Hive介绍及使用方法
6.7 NoSQL数据库技术
6.8 openLooKeng及使用简介
开源平台和工具(二)
7.1 批处理:MapReduce
7.2 批处理:Spark
7.3 PageRank举例
7.4 流处理:Storm
7.5 流处理:Spark Streaming
7.6 资源管理与调度概述
7.7 Zookeeper介绍及使用方法
7.8 在线实验
数据可视化和综合实践
8.1 数据可视化简介
8.2 高维数据可视化
8.3 网络和层次化数据可视化
8.4 时空数据可视化
8.5 文本数据可视化
8.6 可视化在线实验
8.7 课程结业考核