课程背景
1.数据库作为数据的高效管理技术,任何需要使用数据的场景都需要学习如何去管理数据; 2.数据挖掘作为目前非常火热的人工智能的基本技术,如何从数据中发掘有价值的信息是非常重要的; 3.有效结合数据库与数据挖掘应用于特定场景下的大数据分析任务是目前非常重要的任务。
课程目标
1.了解数据库在数据管理任务中的重要地位; 2.了解如何根据实际问题构建有效的数据挖掘任务; 3.了解如何在未来的工作中将数据库与数据挖掘有效结合还是分开使用; 4.构建机器学习的思维模式,用于解决现实生活中的实际问题。
课程设计原则
1.源于理论,重在实践; 2.实践导向,贴近问题; 3.深入浅出,即学即用。
第一章 数据库概论
1.1数据库的前世今生
1.2数据库的四个基本概念
1.3数据模型
1.4关系型数据库
1.5非关系型数据库
1.6Hadoop与Hive
第二章 HiveQL
2.1数据类型与文件格式
2.2Hive中的数据库
2.3HiveQL创建、修改、删除表
2.4HiveQL分区表
2.5加载和导出数据
2.6HiveQL查询语句
2.7HiveQL视图
第三章 数据库设计与优化
3.1数据库模式设计
3.2数据库调优技巧
3.3数据压缩
3.4安全管理
3.5Zookeeper锁
第四章 Spark与数据挖掘
4.1Spark概述
4.2Spark编程模型
4.3数据挖掘系统设计
4.4Spark MLlib
第五章 数据挖掘算法
5.1数据预处理
5.2分类模型
5.3聚类模型
5.4回归模型
5.5推荐模型
5.6文本处理