大数据分析与处理(14期)
大数据分析与处理(14期)
5000+ 人选课
更新日期:2026/03/11
开课时间2025/09/04 - 2026/01/31
课程周期22 周
开课状态已结课
每周学时-
课程简介

这门课会讲什么?

本课程主要内容不仅包括基本的数据挖掘方法及常用实训工具SPSS操作介绍,而且包含了数据可视化和大数据分析平台的基本编程方法介绍。为了更形象地展示完整数据分析过程,课程中还配有两个完整的数据分析案例介绍。具体内容如下

第一讲:云计算时代的大数据智能处理;

第二讲:大数据分析处理概述,包括大数据分析处理计算框架,基本流程以及评测方法;

第三讲:大数据分析平台基础,包括Hadoop平台及HDFS分布式文件系统,Mapreduce并行算法介绍,HbaseHive的基础及使用;

第四讲:数据统计分析方法,包括认识数据,数据基本统计分析方法及数据预处理技术;

第五讲:IBM SPSS Statistics,包括SPSS Statistics 简介和分析基本步骤,变量属性定义、T检验和单向方差分析和二阶聚类分析;

第六讲:大数据可视化,包括可视化简介,高维数据可视化及网络数据可视化;

第七讲:流式大数据预处理技术,包括流式大数据预处理框架apache stormapache spark stream,以及案例分析;

第八讲:数据关联分析方法,包括基本概念,经典apriori关联规则算法原理以及算法案例分析;

第九讲:线性模型分析方法,包括基础知识,原理以及应用;

第十讲:有标签的数据分析方法,包括基本概念,经典的决策树算法及算法案例分析;

第十一讲:无标签的数据分析方法,包括基本概念,经典的k-means算法及算法案例分析;

第十二讲:人工神经网络学习算法,包括基本概念,经典的BP算法以及算法案例分析;

第十三讲:深度学习简介,包括基本概念,经典的深度卷积神经网络以及tensorflow上的案例分析;

第十四讲:IBM SPSS Modeler,包括CRISP-DM和挖掘基本步骤,基于CHAID的决策树模型以及标志目标的自动建模;

第十五讲:典型数据挖掘算法并行化案例,包括MR-Kmeans算法Spark Mllib聚类算法以及Spark平台下的DBSCAN算法

第十六讲:大数据分析应用案例,包括搜索引擎日志数据分析,出租车轨迹数据分析以及新闻组数据分析;

第十七讲:结语大数据分析与处理展望。

你将收获什么?

通过本门课程的学习,你能够系统地获得数据挖掘的基本概念和理论技术,包括线性回归、关联规则分析、分类和聚类的智能分析方法。掌握分析和解决复杂工程问题的基础知识和手段,例如课程中讲授的实训工具SPSS及实验分析平台WekaHadoopTensorflow的应用。拓展学生在数据分析领域的前沿视野,比如神经网络和深度学习、数据可视化及算法并行化处理基础。从而培养学生良好的计算机科学素养,探索新技术的好奇心,以及自主学习能力。

适合什么人学习?

课程内容通过浓缩和提炼,做到了精致化和微知识化。因此不仅适合于普及大数据分析知识的通识性学分认定课,而且可以作为数据分析类课程SPOC翻转的在线课程。既可以面向本科生,也可以面向高职高专学生以及社会学习者。

课程大纲

课程章节

  • 第一讲智能时代的大数据智能分析与处理
  • 第二讲大数据分析处理概述
  • 第三讲大数据分析平台基础
  • 第四讲数据统计分析方法
  • 第五讲SPSS Statistics
  • 使用Python进行数据可视化
  • 第七讲流式大数据预处理基础
  • 第八讲数据关联分析算法
  • 第九讲logistic 回归
  • 第十讲有标签的数据分析算法
  • 第十一讲无标签的数据分析算法
  • 第十二讲人工神经网络学习算法
  • 第十三讲深度学习简介
  • 第十四讲SPSS Modeler
  • 第十五讲 大数据分析应用案例
  • 第十六讲 基于出租车GPS数据的城市交通时空特征提取及可视化
  • 第十七讲大数据分析与处理展望

第一讲智能时代的大数据智能分析与处理

1.1 云计算是人机交互的互联计算

1.2 大数据催生三元空间世界

1.3 “互联网+”的未来智能互联

1.4 大数据智能处理的探索与实践

1.5 本章测试

第二讲大数据分析处理概述

2.1 大数据分析处理计算框架

2.2 大数据分析处理基本流程

2.3 大数据分析处理评测方法

2.4 本章测试

第三讲大数据分析平台基础

3.1 Hadoop平台及HDFS基础

3.2 MapReduce并行算法基础

3.3 HBas/Hive基础及其使用

3.4 本章测试

第四讲数据统计分析方法

4.1 认识数据

4.2 数据统计汇总方法

4.3 数据预处理方法

4.4 python下的数据预处理

4.5 本章测试

第五讲SPSS Statistics

5.1 SPSS Statistics简介和分析基本步骤

5.2 SPSS Statistics变量属性定义、T检验和单向方差分析

5.3 SPSS Statistics 二阶聚类分析

5.4 本章测试

使用Python进行数据可视化

6.1 数据可视化及其五个层级

6.2 数据可视化工具Bokeh简介

6.3 数据可视化案例赏析

6.4 本章测试

第七讲流式大数据预处理基础

7.1 流式大数据处理框架- apache storm

7.2 流式大数据处理框架-apache spark streaming

7.3 流式大数据处理案例

7.4 本章测试

第八讲数据关联分析算法

8.1 基本概念和方法

8.2 经典的Apriori关联规则算法

8.3 关联规则算法案例

8.4 python下的apriori算法实现

8.5 本章测试

第九讲logistic 回归

9.1 logistic回归简介

9.2 logistic回归的原理

9.3 logistic回归带来的思考

9.4 本章测试

第十讲有标签的数据分析算法

10.1 问题的引入

10.2 决策树算法

10.3 决策树算法讨论

10.4 python下的决策树ID3算法实现

10.5 本章测试

第十一讲无标签的数据分析算法

11.1 聚类分析概述

11.2 k-means聚类算法

11.3 聚类算法讨论

11.4 python下的kmeans算法实现

11.5 密度聚类DBSCAN简介与应用

11.6 密度聚类DBSCAN原理与步骤

11.7 密度聚类DBSCAN实现与总结

11.8 本章测试

第十二讲人工神经网络学习算法

12.1 人工神经网络基础知识

12.2 误差反向传播神经网络算法

12.3 Python下的BP神经网络算法实现

12.4 本章测试

第十三讲深度学习简介

13.1 深度学习基础知识

13.2 深度学习简要框架讲解

13.3 基于深度卷积自编码器的图像去噪案例解析

13.4 本章测试

第十四讲SPSS Modeler

14.1 SPSS Modeler的数据整理

14.2 基于CHAID的决策树模型

14.3 SPSS Modeler模型评估、模型部署与体系架构

14.4 本章测试

第十五讲 大数据分析应用案例

15.1 新闻组数据分析

15.2 搜索引擎日志数据分析

15.3 出租车轨迹数据分析

第十六讲 基于出租车GPS数据的城市交通时空特征提取及可视化

16.1 环境和数据准备

16.2 数据清洗和分析(一)

16.3 数据清洗和分析(二)

16.4 数据清洗与分析(三)

16.5 数据分析可视化(一)

16.6 数据分析可视化(二)

16.7 数据分析可视化(三)

16.8 操作运行演示

第十七讲大数据分析与处理展望

17.1 大数据时代发展过程的回顾与探讨

17.2 从小数据到大数据的数据智能分析处理

17.3 大数据的未来发展趋势