Python数据科学导引
Python数据科学导引
5000+ 人选课
更新日期:2025/05/24
开课时间2025/01/21 - 2025/07/20
课程周期26 周
开课状态开课中
每周学时-
课程简介
(1)本课程主要介绍大数据基础、Python编程语言、Pandas数据处理和分析、Matplotlib数据可视化以及机器学习和深度学习的算法原理和案例实践。 (2)学习本课程可使学生了解大数据的定义、发展、应用和挑战,掌握数据存储、数据预处理、并行计算等大数据技术体系;掌握编程语言Python的基础使用方法;掌握基于Pandas的数据读写、运算、统计、分组、变形等数据处理和分析方法;掌握基于Matplotlib的折线图、柱形图、饼图、散点图、雷达图等常用图表的绘制;掌握回归、聚类、分类等常用机器学习算法的原理和用法;掌握深度学习模型及应用方法。 (3)学生可从零基础开始学习本课程,按照阶梯式逐层递进,从基础知识到应用实践一步步构建大数据和Python机器学习的知识体系。 (4)本课程既可作为高等院校计算机相关专业本科、研究生的大数据导论、Python编程技术、数据处理及可视化、Python数据科学导引和机器学习等专业课程,也可作为IT开发人员、非计算机专业师生和科研工作者的自学课程。
课程大纲

在线教程

章节简介教学计划
数据与大数据导论
学习资料 登录后可预览视频
大数据概述
大数据来源
高静
大数据定义数据分类
高静
数据分析流程
高静
大数据的采集和预处理
大数据采集设备
高静
数据采集方法
高静
大数据预处理技术
高静
数据的存储
数据存储设备及传统大数据存储
高静
数据中心与云存储
高静
大数据存储
高静
数据仓库
高静
云计算与大数据并行计算
云计算与云计算平台
高静
MapReduce计算模型、Hadoop和Spark平台
高静
大数据分析
大数据分析概念及方法
高静
机器学习与特征选择
高静
机器学习算法
高静
深度学习算法
高静
大数据可视化
数据可视化概念和技术
高静
数据可视化工具和案例
高静
大数据应用及挑战
大数据应用
高静
大数据发展和挑战
高静
Python基础
学习资料
Python编程环境
白洁
变量和内置数据类型
白洁
列表
白洁
元组
白洁
字典
白洁
选择结构
白洁
循环结构
白洁
函数
白洁
文件操作
白洁
Pandas数据处理和分析
学习资料
Pandas基础
Series
申志军
DataFrame
申志军
文件读写操作
申志军
数据清洗
申志军
数据操作
申志军
索引操作
申志军
合并
申志军
分组
申志军
变形
申志军
Matplotlib数据可视化
学习资料
绘制折线图
申志军
绘制柱形图
申志军
绘制饼图
申志军
绘制散点图
申志军
绘制雷达图
申志军
绘制箱线图
申志军
多子图布局
申志军
样式选择
申志军
回归模型原理与应用
学习资料
线性回归模型
回归分析的含义与线性回归模型的形式
刘敏
线性回归方程参数求解_损失函数定义
刘敏
线性回归方程参数求解_正规方程法
刘敏
线性回归方程参数求解_梯度下降法
刘敏
线性回归方程选择_拟合优度R方
刘敏
线性回归方程选择_防止过拟合
刘敏
线性回归方程选择_回归方程总体和系数显著性检验
刘敏
线性回归方程选择_回归诊断
刘敏
线性回归方程预测
刘敏
非线性回归模型
刘敏
线性回归模型实践案例
刘敏
聚类分析
学习资料
聚类分析概述及相似性度量
谢聪娇
划分聚类算法
谢聪娇
层次聚类算法
谢聪娇
基于密度的聚类算法
谢聪娇
分类模型
学习资料
逻辑回归
姜新华
决策树
姜新华
朴素贝叶斯
姜新华
支持向量机
姜新华
集成学习
学习资料
集成学习
左东石
深度学习
学习资料
神经网络与多层感知机
陈俊杰
卷积神经网络
陈俊杰
循环神经网络
陈俊杰
深度学习模型的优化
陈俊杰
应用案例
Pytorch的基本用法
陈俊杰
Pytorch中的神经网络层
陈俊杰
Pytorch 神经网络的训练过程
陈俊杰
深度学习模型实例
陈俊杰
  • 第一章数据与大数据导论

    本章首先简介大数据的定义、结构类型、数据分类以及完整的数据分析流程,在此基础上重点介绍大数据存储、并行计算、大数据分析、数据可视化以及大数据的发展和挑战等内容。读者通过本章的学习可从宏观上了解大数据的基本概念、发展历程、应用状况和面临的挑战,同时能够从专业的角度深入理解大数据的技术体系。

  • 1.1大数据概述

    重点介绍大数据的来源、发展和定义,在此基础上介绍大数据的分类和基本的分析流程。

  • 1.2大数据的采集和预处理

    ]重点介绍大数据的数据采集设备、方法和常用的预处理技术。

  • 1.3数据的存储

    ]重点介绍数据中心、云存储、数据仓库等数据存储方式和技术。

  • 1.4云计算与大数据并行计算

    重点介绍云计算与云计算平台,MapReduce计算模型,Hadoop平台和Spark平台等内容。

  • 1.5大数据分析

    重点介绍大数据分析的概念和方法、机器学习和深度学习算法等。

  • 1.6大数据可视化

    重点介绍数据可视化的基本概念、技术、工具及案例。

  • 1.7大数据应用及挑战

    简介大数据的应用、发展和面临的挑战。

  • 第二章Python基础

    介绍Python编程的基本内容,包括环境的搭建,变量的命名及使用,常用的基本数据类型,列表、元组、字典的常用方法,选择和循环结构,函数和文件操作等内容。

  • 2.1Python编程环境

    介绍Anaconda的基本安装过程,第三方包的安装和使用,Jupyter Notebook的使用。

  • 2.2变量和内置数据类型

    介绍Python中变量的类型及命名规则,了解Python的内存管理方式,变量的赋值及使用,熟悉python常用的数据类型,及Python代码的注释方式。

  • 2.3列表

    介绍Python中列表的定义,掌握创建列表及对列表的修改和删除方法,熟悉列表的切片操作,学会使用列表推导式生成列表,掌握列表的基本运算。

  • 2.4元组

    介绍Python中元组的定义,掌握创捷元组的两种方式,熟悉对元组的访问、切片等操作,学会使用元组常用的内置函数。

  • 2.5字典

    介绍Python中字典的定义,掌握创建字典的不同方式,熟练使用字典读取元素的方式及字典的修改方式,学会使用字典的常用方法。

  • 2.6选择结构

    介绍Python的选择结构,熟练使用if语句,if-else语句,if-elif-else语句的基本语法结构,掌握if的嵌套语句。

  • 2.7循环结构

    介绍Python的循环结构,熟练使用for循环和while循环,掌握其基本语法格式及执行过程,学会使用break和continue语句,掌握for与while循环的混合嵌套使用。

  • 2.8函数

    介绍Python中函数的基本概念,掌握如何定义函数,如何调用函数,理解函数实参与形参,掌握不同类型参数的使用方法,理解函数中变量的作用域及使用规则,学会使用匿名函数。

  • 2.9文件操作

    介绍Python中文件的基本操作。掌握文件的打开,读取,删除等基本操作。

  • 第三章Pandas数据处理和分析

    介绍Pandas的安装和导入方法,在此基础上讲解Pandas主要的数据结构Series和DataFrame的创建、属性和基本操作,文件读写、数据清洗、数据操作、索引操作、合并、分组和变形等内容。通过学习本章使学生能够对业务、科研数据进行预处理、读写、合并、分组等操作,为后续的数据挖掘、机器学期等提供高质量的基础数据。

  • 3.1Pandas基础

    Pandas的安装和导入方法,在此基础上讲解Series和DataFrame相关的基本操作方法和案例。

  • 3.2文件读写操作

    介绍Pandas对csv文件和Excel文件的读写方法和案例。

  • 3.3数据清洗

    介绍Pandas对缺失值、重复值和异常值的处理方法和案例。

  • 3.4数据操作

    介绍Pandas对数据的算术运算、关系运算、逻辑运算操作以及常用的统计和排序操作方法和案例。

  • 3.5索引操作

    介绍Pandas对索引的重命名、索引设置、重新索引和索引排序的操作方法和案例。

  • 3.6合并

    介绍Pandas对Series以及DataFrame数据进行合并的三种方法和案例。

  • 3.7分组

    介绍Pandas对数据进行SAC(Split-Apply-Combine)操作的系列方法和案例。

  • 3.8变形

    介绍透视、哑变量、因子化等数组的变形操作方法和案例。

  • 第四章Matplotlib数据可视化

    介绍Matplotlib包的安装和导入方法,在此基础上讲解折线图、柱形图、饼图、散点图、雷达图、箱线图等常用图表的绘制和修饰方法,最后介绍多子图布局和样式选择方法。

  • 4.1绘制折线图

    介绍利用plot()绘制折线图的方法和案例。

  • 4.2绘制柱形图

    介绍利用bar()和barh()绘制柱形图的方法和案例。

  • 4.3绘制饼图

    介绍利用pie()绘制饼图的方法和案例。

  • 4.4绘制散点图

    介绍利用scatter()绘制散点图和气泡图的方法和案例。

  • 4.5绘制雷达图

    介绍利用直角坐标系以及polar()绘制雷达图的方法和案例。

  • 4.6绘制箱线图

    介绍利用boxplot()绘制箱线图的方法和案例。

  • 4.7多子图布局

    介绍利用subplot()对多子图进行布局的方法和案例。

  • 4.8样式选择

    介绍利用Matplotlib内置的样式进行图表绘制的方法和案例。

  • 第五章回归模型原理与应用

    回归分析的任务是利用回归方程根据输入变量预测输出变量,回归方程分为线性和非线性,本章主要介绍线性回归模型的形式、线性回归方程参数求解方法、最优线性回归方程选择方法、如何根据最优线性回归方程进行预测及程序实现方式,另外,简要介绍了非线性回归模型的基本概念。

  • 5.1线性回归模型

    如果输出变量对输入变量的依赖关系是线性的,这种关系就叫做线性关系,将这种线性关系表达成线性回归模型,本小节将介绍线性回归模型的形式、线性回归方程的参数求解、选择与预测。

  • 5.2非线性回归模型

    如果输出变量对输入变量的依赖关系是非线性的,这种关系就叫做非线性关系,将这种非线性关系表达成非线性回归模型,本小节将介绍常见的可转化为线性的非线性回归模型和不能线性化的非线性回归模型的形式和概念。

  • 5.3线性回归模型实践案例

    本小节将介绍多元线性回归模型综合案例和正则化处理过拟合案例。通过两个实际案例了解使用线性回归建模的过程、方法和程序实现。

  • 第六章聚类分析

    聚类分析是一种无监督的学习算法。我们已经知道,监督学习是利用已知标签的数据训练模型执行分类或者是回归任务,而无监督学习不需要对数据进行标记,旨在发现数据本身的分布特点。本章主要讲解聚类分析的相似性度量方法和经典的聚类分析算法,包括K-means等划分聚类算法、层次聚类算法和DBSCAN等基于密度的聚类算法。

  • 6.1聚类分析概述及相似性度量

    聚类分析的目的是将数据按照相似性程度划分为不同的“簇”,使得簇内相似性高、簇间相似性低。在相似性度量时会用到距离度量方法。本节主要介绍5种经典的聚类度量算法。

  • 6.2划分聚类算法

    划分聚类算法是一种最简单的聚类算法,按预先指定的K值,将给定的数据集做K个划分。本节主要介绍经典的K-means算法和K中心点聚类算法,并讲解如何通过肘法和轮廓系数确定K值。

  • 6.3层次聚类算法

    层次聚类算法是将数据的相似度由高到低进行排序,并进行层次的分解,最终形成一颗层次树,本节主要介绍典型的凝聚聚类算法。

  • 6.4基于密度的聚类算法

    划分聚类算法和层次聚类算法对于任意分布的样本并不能实现很好的聚类分析。基于密度的聚类算法可以实现在噪声数据中发现任意形状的簇,本节主要介绍典型的DBSCAN算法和均值漂移聚类算法。

  • 第七章分类模型

    分类是生产、生活中最常遇到的一类问题,比如识别某一类物体,医生诊断病人身体是否健康,垃圾邮件分类等等,这些问题都属于分类的范畴。通常解决分类问题就是用某个算法在训练数据上学习,得出分类器模型或规则。机器学习算法中有许多经典的分类算法模型。本章内容包括逻辑回归、决策树、朴素贝叶斯、支持向量机四种经典分类模型的原理、算法、求解过程、以及性能评价方法等,并且采用应用案例讲解各算法的编程实现。

  • 7.1逻辑回归

    主要内容包括Logistic回归原理、Logistic回归模型损失函数、Logistic回归模型常用的损失函数求解方法,以及逻辑回归分类应用python程序实现及运行结果分析。

  • 7.2决策树

    主要内容包括决策树分类及特征选择,决策树构建、剪枝,以及决策树分类应用python程序实现及运行结果分析。

  • 7.3朴素贝叶斯

    主要内容包括朴素贝叶斯分类算法原理,朴素贝叶斯算法参数估计,及朴素贝叶斯分类应用python程序实现及运行结果分析。

  • 7.4支持向量机

    主要内容包括支持向量机分类算法原理,分类算法损失函数,支持向量机算法经验风险与结构风险,支持向量机模型标准求解算法及随机梯度下降算法求解,以及支持向量机分类应用python程序实现及运行结果分析。

  • 第八章集成学习

    集成学习(Ensemble Learning)不是一个单独的机器学习算法,而是通过构建并结合多个学习器来完成学习任务,以达到更好的预测效果,有时也被称作是多分类器系统。

  • 8.1集成学习

    集成学习是将多个弱学习器(基学习器)以一定的结合策略进行组合以期得到一个泛化能力更强的强学习器。Boosting是一种序列集成方法,可以用来减小监督学习方法中的偏差。 Bagging集成方法是对样本集进行随机采样,通过反复的采样分别训练几个不同的模型,然后让所有模型表决测试样例的输出,以提高模型预测的准确率。集成学习就是结合多个学习器来完成学习任务的,那么怎么结合生成的多个个体学习器呢?这就是集成学习中的结合策略。本节还介绍集成学习典型案例实践操作。

  • 第九章深度学习

    深度学习是机器学习的一个分支,深度学习通过低层特征经过多个线性或非线性的组件形成更加抽象的高层特征,目前已经广泛的应用到图像处理、自然语言处理、语音处理等多个应用领域。

  • 9.1神经网络与多层感知机

    深度学习中需要信息进行加工,通常无法确定每个组件的贡献是多少,而一种比较好的解决贡献度分配问题的模型是人工神经网络即神经网络,它是深度学习的基础内容。

  • 9.2卷积神经网络

    卷积神经网络是图像处理中使用最为广泛的深度学习框架,它采用局部连接、共享权重的方式来模拟生物学中的局部感受域和局部不变的特性。它主要包含卷积层、池化层和全连接层。

  • 9.3循环神经网络

    循环神经网络是一种反馈型神经网络,常用于处理序列数据,被广泛的应用在自然语言处理中。

  • 9.4深度学习模型的优化

    神经网络网络的损失函数是一个非凸函数,通常非凸函数存在很对局部最优解,只有一个全局最优解,因此通过相关方法实现在训练时能尽量找到全局最优解成为训练的目标,与此相关的方法就是网络优化方法。

  • 9.5应用案例

    Pytorch是一个基于Python的深度学习框架,利用Pytorch可以实现深度学习的相关模型、进行网络优化和参数调整。

  • 开始学习
  • 第一章  作业测试
    第一章 数据与大数据导论

    1.1 大数据概述

    1.2 大数据的采集和预处理

    1.3 数据的存储

    1.4 云计算与大数据并行计算

    1.5 大数据分析

    1.6 大数据可视化

    1.7 大数据应用及挑战

    视频数20
  • 第二章  作业测试
    第二章 Python基础

    2.1 Python编程环境

    2.2 变量和内置数据类型

    2.3 列表

    2.4 元组

    2.5 字典

    2.6 选择结构

    2.7 循环结构

    2.8 函数

    2.9 文件操作

    视频数9
  • 第三章  作业测试
    第三章 Pandas数据处理和分析

    3.1 Pandas基础

    3.2 文件读写操作

    3.3 数据清洗

    3.4 数据操作

    3.5 索引操作

    3.6 合并

    3.7 分组

    3.8 变形

    视频数9
  • 第四章  作业测试
    第四章 Matplotlib数据可视化

    4.1 绘制折线图

    4.2 绘制柱形图

    4.3 绘制饼图

    4.4 绘制散点图

    4.5 绘制雷达图

    4.6 绘制箱线图

    4.7 多子图布局

    4.8 样式选择

    视频数8
  • 第五章  作业测试
    第五章 回归模型原理与应用

    5.1 线性回归模型

    5.2 非线性回归模型

    5.3 线性回归模型实践案例

    视频数11
  • 第六章  作业测试
    第六章 聚类分析

    6.1 聚类分析概述及相似性度量

    6.2 划分聚类算法

    6.3 层次聚类算法

    6.4 基于密度的聚类算法

    视频数4
  • 第七章  作业测试
    第七章 分类模型

    7.1 逻辑回归

    7.2 决策树

    7.3 朴素贝叶斯

    7.4 支持向量机

    视频数4
  • 第八章  作业测试
    第八章 集成学习

    8.1 集成学习

    视频数1
  • 第九章  作业测试
    第九章 深度学习

    9.1 神经网络与多层感知机

    9.2 卷积神经网络

    9.3 循环神经网络

    9.4 深度学习模型的优化

    9.5 应用案例

    视频数8
  • 期末考试