本课程主要内容不仅包括基本的数据挖掘方法及常用实训工具SPSS操作介绍,而且包含了数据可视化和大数据分析平台的基本编程方法介绍。为了更形象地展示完整数据分析过程,课程中还配有两个完整的数据分析案例介绍。具体内容如下
第一讲:云计算时代的大数据智能处理;
第二讲:大数据分析处理概述,包括大数据分析处理计算框架,基本流程以及评测方法;
第三讲:大数据分析平台基础,包括Hadoop平台及HDFS分布式文件系统,Mapreduce并行算法介绍,Hbase及Hive的基础及使用;
第四讲:数据统计分析方法,包括认识数据,数据基本统计分析方法及数据预处理技术;
第五讲:IBM SPSS Statistics,包括SPSS Statistics 简介和分析基本步骤,变量属性定义、T检验和单向方差分析和二阶聚类分析;
第六讲:大数据可视化,包括可视化简介,高维数据可视化及网络数据可视化;
第七讲:流式大数据预处理技术,包括流式大数据预处理框架apache storm,apache spark stream,以及案例分析;
第八讲:数据关联分析方法,包括基本概念,经典apriori关联规则算法原理以及算法案例分析;
第九讲:线性模型分析方法,包括基础知识,原理以及应用;
第十讲:有标签的数据分析方法,包括基本概念,经典的决策树算法及算法案例分析;
第十一讲:无标签的数据分析方法,包括基本概念,经典的k-means算法及算法案例分析;
第十二讲:人工神经网络学习算法,包括基本概念,经典的BP算法以及算法案例分析;
第十三讲:深度学习简介,包括基本概念,经典的深度卷积神经网络以及tensorflow上的案例分析;
第十四讲:IBM SPSS Modeler,包括CRISP-DM和挖掘基本步骤,基于CHAID的决策树模型以及标志目标的自动建模;
第十五讲:典型数据挖掘算法并行化案例,包括MR-Kmeans算法,Spark Mllib聚类算法以及Spark平台下的DBSCAN算法;
第十六讲:大数据分析应用案例,包括搜索引擎日志数据分析,出租车轨迹数据分析以及新闻组数据分析;
第十七讲:结语大数据分析与处理展望。
通过本门课程的学习,你能够系统地获得数据挖掘的基本概念和理论技术,包括线性回归、关联规则分析、分类和聚类的智能分析方法。掌握分析和解决复杂工程问题的基础知识和手段,例如课程中讲授的实训工具SPSS及实验分析平台Weka、Hadoop及Tensorflow的应用。拓展学生在数据分析领域的前沿视野,比如神经网络和深度学习、数据可视化及算法并行化处理基础。从而培养学生良好的计算机科学素养,探索新技术的好奇心,以及自主学习能力。
课程内容通过浓缩和提炼,做到了精致化和微知识化。因此不仅适合于普及大数据分析知识的通识性学分认定课,而且可以作为数据分析类课程SPOC翻转的在线课程。既可以面向本科生,也可以面向高职高专学生以及社会学习者。