数据挖掘是综合了机器学习、统计和数据库的一门现代计算机技术,旨在发现海量数据中的模型与模式,具有巨大的应用前景。在很多重要的领域,数据挖掘都发挥着积极的作用。因此这门课程是计算机专业及相关专业的重要课程之-。
通过本课程的学习,可以使学生们了解数据挖掘技术的整体概貌;掌握数据挖掘的基本概念;了解数据挖掘技术的主要应用及当前的研究热点问题和发展方向;熟悉数据挖掘的定义和功能以及实现数据挖掘的主要步骤和具体实现方法;掌握数据挖掘常用算法的原理和技术方法。
本课程由青岛大学数据科学与软件工程学院经验丰富的青年教师团队主讲,所有主讲教师均在大数据领域工作多年,积累了丰硕的教学与科研成果。通过该课程的学习,学生能够实现简单的数据挖掘算法编程,了解实现数据挖掘的具体操作,也为继续深造大数据科学与技术打下坚实的基础。
第一周:第一章 大数据与数据挖掘
第一讲:大数据的产生及定义
第二讲:大数据的特征及应用场景
第三讲:大数据相关技术,大数据与数据挖掘的关系
第一单元测试
第二周:第二章 数据预处理
第一讲:数据预处理的目的,数据清理,数据集成和数据转换
第二讲:数据归约
第三讲:数据的离散化和概念分层,特征选择和提取
第二单元测试
第三周:第三章 聚类分析
第一讲:聚类基本概念,K-means算法及其改进
第二讲:K-中心点算法,层次聚类算法
第三讲:BIRCH算法,密度聚类算法
第三单元测试
第四周:第四章 分类分析
第一讲:分类基本概念,KNN算法,决策树分类算法
第二讲:ID3算法及其改进算法C4.5
第三讲:朴素贝叶斯分类器,规则归纳算法及实例
第四单元测试
第五周:第五章 关联规则挖掘
第一讲:关联规则基本概念,Apriori算法,强关联规则的生成及综合实例
第二讲:Apriori算法的改进
第三讲:FP-Growth算法
第五单元测试
第六周:第六章 序列模式挖掘
第一讲:序列模式基本概念,AprioriAll算法,AprioriSome算法
第二讲:GSP算法, PrefixSpan算法
第六单元测试
第七周:第七章 数据挖掘应用及展望
第一讲:数据挖掘应用及展望