大数据解析与应用导论
大数据解析与应用导论
开课平台爱课程(中国大学MOOC)
开课高校浙江大学
开课教师赵春晖
学科专业大数据管理与应用
课程简介
“大数据”这个概念几乎应用到了所有人类智力与发展的领域中。《大数据时代》这本书中有一句话:人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。本课程从大数据解析的基本概念讲起,进而介绍大数据解析中常用的基础算法,包括数据预处理相关算法、判别分析、回归分析、聚类分析、决策树、典型相关分析、神经网络、自编码器和集成学习等,同时结合具体应用,帮助同学们深入学习数据挖掘的模型与方法,掌握大数据解析的钥匙,为各行业特别是工业大数据赋能。希望大家在学习的过程中,能够了解和认识到:本课程是一门实战性很强的基础课程,纸上得来终觉浅,绝知此事要躬行;抓准具体对象本身的特点、特性和问题,以问题驱动,而非以方法为导向,不要哪个方法热,追逐哪个,切忌脱离问题空谈花哨的方法;活用数据,不要迷信数据以及被数据绑架。 本课程的特色主要包括: (1)本课程讲授大数据分析的基本原理、相关方法和实例分析,让学生能够形成大数据思维意识,加深对课程知识的理解。 (2)课程中介绍了大量的大数据应用案例,这些案例包括但不限于工业领域,为大家提供不同学科方向的思考和启发。 (3)课程之余鼓励学生主动发现和思考生活中的大数据场景,将课程内容与实际紧密结合。
课程大纲
第1周 绪论 1.1 课程综述1 1.2 课程综述2 1.3 基本内容 1.4 多元统计基础 第一周测验 第一周作业 第2周 数据预处理及特征提取 2.1 数据清洗 2.2 数据预处理与特征提取 2.3 主成分分析1 2.4 主成分分析2 2.5 应用实例 第二周作业 第二周测验 第3周 判别分析 3.1 基本原理 3.2 距离判别 3.3 fisher判别 3.4 贝叶斯判别 3.5 SVM(1) 3.6 SVM(2) 第三周测验 第三周作业 第4周 回归分析 4.1 基本概念 4.2 最小二乘回归 4.3 岭回归 4.4 主元回归 4.5 偏最小二乘 第四周测验 第四周作业 第5周 聚类分析 5.1 基本思想 5.2 相似性度量 5.3 K-means聚类算法 5.4 高斯混合模型 第五周测验 第五周作业 第6周 决策树 6.1 基本内容 6.2 决策树算法 6.3 随机森林 6.4 实例应用 第六周作业 第六周测验 第7周 典型相关分析 7.1 基本概念 7.2 CCA算法介绍 7.3 CCA算法拓展 7.4 案例分析 第七周测验 第七周作业 第8周 神经网络 8.1 基本概念与结构发展 8.2 卷积神经网络(CNN) 8.3 循环神经网络(RNN) 8.4 应用实例 第八周测验 第八周作业 第9周 自编码器 9.4 变分自编码器 9.1 自编码器简介 9.2 去噪自编器 9.3 稀疏自编码器 第九周测验 第九周作业 第10周 案例分析 10.1 二手车交易价格预测 10.2 糖尿病的血糖预测 10.3 工业蒸汽量预测 10.4 双盲降噪自编码器实现降噪 10.5 心电数据分析 第十章测验 第十章作业