本课程主要内容不仅包括基本的数据挖掘方法及常用实训工具SPSS操作介绍,而且包含了数据可视化和大数据分析平台的基本编程方法介绍。为了更形象地展示完整数据分析过程,课程中还配有两个完整的数据分析案例介绍。具体内容如下
第一讲:云计算时代的大数据智能处理;
第二讲:大数据分析处理概述,包括大数据分析处理计算框架,基本流程以及评测方法;
第三讲:大数据分析平台基础,包括Hadoop平台及HDFS分布式文件系统,Mapreduce并行算法介绍,Hbase及Hive的基础及使用;
第四讲:数据统计分析方法,包括认识数据,数据基本统计分析方法及数据预处理技术;
第五讲:IBM SPSS Statistics,包括SPSS Statistics 简介和分析基本步骤,变量属性定义、T检验和单向方差分析和二阶聚类分析;
第六讲:大数据可视化,包括可视化简介,高维数据可视化及网络数据可视化;
第七讲:流式大数据预处理技术,包括流式大数据预处理框架apache storm,apache spark stream,以及案例分析;
第八讲:数据关联分析方法,包括基本概念,经典apriori关联规则算法原理以及算法案例分析;
第九讲:线性模型分析方法,包括基础知识,原理以及应用;
第十讲:有标签的数据分析方法,包括基本概念,经典的决策树算法及算法案例分析;
第十一讲:无标签的数据分析方法,包括基本概念,经典的k-means算法及算法案例分析;
第十二讲:人工神经网络学习算法,包括基本概念,经典的BP算法以及算法案例分析;
第十三讲:深度学习简介,包括基本概念,经典的深度卷积神经网络以及tensorflow上的案例分析;
第十四讲:IBM SPSS Modeler,包括CRISP-DM和挖掘基本步骤,基于CHAID的决策树模型以及标志目标的自动建模;
第十五讲:典型数据挖掘算法并行化案例,包括MR-Kmeans算法,Spark Mllib聚类算法以及Spark平台下的DBSCAN算法;
第十六讲:大数据分析应用案例,包括搜索引擎日志数据分析,出租车轨迹数据分析以及新闻组数据分析;
第十七讲:结语大数据分析与处理展望。