数据挖掘-2022春季课程
数据挖掘-2022春季课程
少于1000 人选课
更新日期:2025/07/24
开课时间2022/03/01 - 2022/06/30
课程周期18 周
开课状态已结课
每周学时-
课程简介

本课程全面、系统地地介绍了数据挖掘的主要算法。主要内容包括数据挖掘一般流程以及python数据挖掘工具的介绍,数据探索以及预处理、经典的分类与预测算法、分类模型评价与参数调优,关联规则挖掘、聚类分析、以及Python数据挖掘案例分析等内容。

课程大纲

数据挖掘概述

  • 1.1 数据挖掘的概念以及主要任务
  • 1.2 数据挖掘常用工具

数据预处理

  • 2.1 数据预处理概述
  • 2.2 缺失值处理
  • 2.3 离群值检测
  • 2.4 数据标准化与正则化
  • 2.5 特征编码
  • 2.6 特征离散化

朴素贝叶斯分类

  • 3.1 分类模型概述
  • 3.2 朴素贝叶斯分类算法
  • 3.3 贝叶斯估计
  • 3.4 案例:sklearn朴素贝叶斯算法的实现
  • 3.5 拓展学习 朴素贝叶斯算法在文本分类中的应用

决策树

  • 4.1 决策树算法概述
  • 4.2 ID3算法
  • 4.3 C4.5和CART算法
  • 4.4 决策树剪枝
  • 4.5 分类模型评价指标
  • 4.6 案例:决策树算法python实现

集成学习

  • 5.1 集成学习概述
  • 5.2 bagging与随机森林
  • 5.3 Boosting和AdaBoost
  • 5.4 案例:集成学习的python实现

k-近邻

  • 6.1 k-近邻算法
  • 6.2 案例:sklearn中k近邻分类算法的实现
  • 6.3 kd树算法

支持向量机

  • 7.1 拉格朗日乘数法和KKT条件
  • 7.2 线性可分支持向量机
  • 7.3 线性不可分支持向量机
  • 7.4 非线性可分支持向量机与核函数
  • 7.5 案例:支持向量机分类算法的python实现

人工神经网络

  • 8.1 单层感知机
  • 8.2 BP算法
  • 8.3 案例:利用keras对mnist数据集分类

聚类分析

  • 9.1 聚类分析概述
  • 9.2 kmeans聚类_
  • 9.3 层次聚类
  • 9.4 DBSCAN聚类
  • 9.5 案例:聚类分析上机实现

关联分析

  • 10.1 关联分析基本概念以及Apriori算法
  • 10.2 FP增长算法
  • 10.3 案例:关联分析python 实现

综合上机案例

  • 11.1 泰坦尼克数据预处理以及分类模型构建
  • 11.2 利用keras搭建神经网络实现多分类
  • 11.3 购物篮数据关联分析
  • 11.4 心脏病预测分析