大数据分析与处理(13期)
大数据分析与处理(13期)
5000+ 人选课
更新日期:2025/06/03
开课时间2025/02/24 - 2025/07/27
课程周期22 周
开课状态开课中
每周学时-
课程简介

本课程主要内容不仅包括基本的数据挖掘方法及常用实训工具SPSS操作介绍,而且包含了数据可视化和大数据分析平台的基本编程方法介绍。为了更形象地展示完整数据分析过程,课程中还配有两个完整的数据分析案例介绍。具体内容如下

第一讲:云计算时代的大数据智能处理;

第二讲:大数据分析处理概述,包括大数据分析处理计算框架,基本流程以及评测方法;

第三讲:大数据分析平台基础,包括Hadoop平台及HDFS分布式文件系统,Mapreduce并行算法介绍,HbaseHive的基础及使用;

第四讲:数据统计分析方法,包括认识数据,数据基本统计分析方法及数据预处理技术;

第五讲:IBM SPSS Statistics,包括SPSS Statistics 简介和分析基本步骤,变量属性定义、T检验和单向方差分析和二阶聚类分析;

第六讲:大数据可视化,包括可视化简介,高维数据可视化及网络数据可视化;

第七讲:流式大数据预处理技术,包括流式大数据预处理框架apache stormapache spark stream,以及案例分析;

第八讲:数据关联分析方法,包括基本概念,经典apriori关联规则算法原理以及算法案例分析;

第九讲:线性模型分析方法,包括基础知识,原理以及应用;

第十讲:有标签的数据分析方法,包括基本概念,经典的决策树算法及算法案例分析;

第十一讲:无标签的数据分析方法,包括基本概念,经典的k-means算法及算法案例分析;

第十二讲:人工神经网络学习算法,包括基本概念,经典的BP算法以及算法案例分析;

第十三讲:深度学习简介,包括基本概念,经典的深度卷积神经网络以及tensorflow上的案例分析;

第十四讲:IBM SPSS Modeler,包括CRISP-DM和挖掘基本步骤,基于CHAID的决策树模型以及标志目标的自动建模;

第十五讲:典型数据挖掘算法并行化案例,包括MR-Kmeans算法Spark Mllib聚类算法以及Spark平台下的DBSCAN算法

第十六讲:大数据分析应用案例,包括搜索引擎日志数据分析,出租车轨迹数据分析以及新闻组数据分析;

第十七讲:结语大数据分析与处理展望。

课程大纲

第一讲智能时代的大数据智能分析与处理

  • 1.1 云计算是人机交互的互联计算
  • 1.2 大数据催生三元空间世界
  • 1.3 “互联网+”的未来智能互联
  • 1.4 大数据智能处理的探索与实践
  • 1.5 本章测试

第二讲大数据分析处理概述

  • 2.1 大数据分析处理计算框架
  • 2.2 大数据分析处理基本流程
  • 2.3 大数据分析处理评测方法
  • 2.4 本章测试

第三讲大数据分析平台基础

  • 3.1 Hadoop平台及HDFS基础
  • 3.2 MapReduce并行算法基础
  • 3.3 HBas/Hive基础及其使用
  • 3.4 本章测试

第四讲数据统计分析方法

  • 4.1 认识数据
  • 4.2 数据统计汇总方法
  • 4.3 数据预处理方法
  • 4.4 python下的数据预处理
  • 4.5 本章测试

第五讲SPSS Statistics

  • 5.1 SPSS Statistics简介和分析基本步骤
  • 5.2 SPSS Statistics变量属性定义、T检验和单向方差分析
  • 5.3 SPSS Statistics 二阶聚类分析
  • 5.4 本章测试

使用Python进行数据可视化

  • 6.1 数据可视化及其五个层级
  • 6.2 数据可视化工具Bokeh简介
  • 6.3 数据可视化案例赏析
  • 6.4 本章测试

第七讲流式大数据预处理基础

  • 7.1 流式大数据处理框架- apache storm
  • 7.2 流式大数据处理框架-apache spark streaming
  • 7.3 流式大数据处理案例
  • 7.4 本章测试

第八讲数据关联分析算法

  • 8.1 基本概念和方法
  • 8.2 经典的Apriori关联规则算法
  • 8.3 关联规则算法案例
  • 8.4 python下的apriori算法实现
  • 8.5 本章测试

第九讲logistic 回归

  • 9.1 logistic回归简介
  • 9.2 logistic回归的原理
  • 9.3 logistic回归带来的思考
  • 9.4 本章测试

第十讲有标签的数据分析算法

  • 10.1 问题的引入
  • 10.2 决策树算法
  • 10.3 决策树算法讨论
  • 10.4 python下的决策树ID3算法实现
  • 10.5 本章测试

第十一讲无标签的数据分析算法

  • 11.1 聚类分析概述
  • 11.2 k-means聚类算法
  • 11.3 聚类算法讨论
  • 11.4 python下的kmeans算法实现
  • 11.5 密度聚类DBSCAN简介与应用
  • 11.6 密度聚类DBSCAN原理与步骤
  • 11.7 密度聚类DBSCAN实现与总结
  • 11.8 本章测试

第十二讲人工神经网络学习算法

  • 12.1 人工神经网络基础知识
  • 12.2 误差反向传播神经网络算法
  • 12.3 Python下的BP神经网络算法实现
  • 12.4 本章测试

第十三讲深度学习简介

  • 13.1 深度学习基础知识
  • 13.2 深度学习简要框架讲解
  • 13.3 基于深度卷积自编码器的图像去噪案例解析
  • 13.4 本章测试

第十四讲SPSS Modeler

  • 14.1 SPSS Modeler的数据整理
  • 14.2 基于CHAID的决策树模型
  • 14.3 SPSS Modeler模型评估、模型部署与体系架构
  • 14.4 本章测试

第十五讲 大数据分析应用案例

  • 15.1 新闻组数据分析
  • 15.2 搜索引擎日志数据分析
  • 15.3 出租车轨迹数据分析

第十六讲 基于出租车GPS数据的城市交通时空特征提取及可视化

  • 16.1 环境和数据准备
  • 16.2 数据清洗和分析(一)
  • 16.3 数据清洗和分析(二)
  • 16.4 数据清洗与分析(三)
  • 16.5 数据分析可视化(一)
  • 16.6 数据分析可视化(二)
  • 16.7 数据分析可视化(三)
  • 16.8 操作运行演示

第十七讲大数据分析与处理展望

  • 17.1 大数据时代发展过程的回顾与探讨
  • 17.2 从小数据到大数据的数据智能分析处理
  • 17.3 大数据的未来发展趋势