-
第一章数据与大数据导论
本章首先简介大数据的定义、结构类型、数据分类以及完整的数据分析流程,在此基础上重点介绍大数据存储、并行计算、大数据分析、数据可视化以及大数据的发展和挑战等内容。读者通过本章的学习可从宏观上了解大数据的基本概念、发展历程、应用状况和面临的挑战,同时能够从专业的角度深入理解大数据的技术体系。
-
●1.1大数据概述
重点介绍大数据的来源、发展和定义,在此基础上介绍大数据的分类和基本的分析流程。
-
●1.2大数据的采集和预处理
]重点介绍大数据的数据采集设备、方法和常用的预处理技术。
-
●1.3数据的存储
]重点介绍数据中心、云存储、数据仓库等数据存储方式和技术。
-
●1.4云计算与大数据并行计算
重点介绍云计算与云计算平台,MapReduce计算模型,Hadoop平台和Spark平台等内容。
-
●1.5大数据分析
重点介绍大数据分析的概念和方法、机器学习和深度学习算法等。
-
●1.6大数据可视化
重点介绍数据可视化的基本概念、技术、工具及案例。
-
●1.7大数据应用及挑战
简介大数据的应用、发展和面临的挑战。
-
第二章Python基础
介绍Python编程的基本内容,包括环境的搭建,变量的命名及使用,常用的基本数据类型,列表、元组、字典的常用方法,选择和循环结构,函数和文件操作等内容。
-
●2.1Python编程环境
介绍Anaconda的基本安装过程,第三方包的安装和使用,Jupyter Notebook的使用。
-
●2.2变量和内置数据类型
介绍Python中变量的类型及命名规则,了解Python的内存管理方式,变量的赋值及使用,熟悉python常用的数据类型,及Python代码的注释方式。
-
●2.3列表
介绍Python中列表的定义,掌握创建列表及对列表的修改和删除方法,熟悉列表的切片操作,学会使用列表推导式生成列表,掌握列表的基本运算。
-
●2.4元组
介绍Python中元组的定义,掌握创捷元组的两种方式,熟悉对元组的访问、切片等操作,学会使用元组常用的内置函数。
-
●2.5字典
介绍Python中字典的定义,掌握创建字典的不同方式,熟练使用字典读取元素的方式及字典的修改方式,学会使用字典的常用方法。
-
●2.6选择结构
介绍Python的选择结构,熟练使用if语句,if-else语句,if-elif-else语句的基本语法结构,掌握if的嵌套语句。
-
●2.7循环结构
介绍Python的循环结构,熟练使用for循环和while循环,掌握其基本语法格式及执行过程,学会使用break和continue语句,掌握for与while循环的混合嵌套使用。
-
●2.8函数
介绍Python中函数的基本概念,掌握如何定义函数,如何调用函数,理解函数实参与形参,掌握不同类型参数的使用方法,理解函数中变量的作用域及使用规则,学会使用匿名函数。
-
●2.9文件操作
介绍Python中文件的基本操作。掌握文件的打开,读取,删除等基本操作。
-
第三章Pandas数据处理和分析
介绍Pandas的安装和导入方法,在此基础上讲解Pandas主要的数据结构Series和DataFrame的创建、属性和基本操作,文件读写、数据清洗、数据操作、索引操作、合并、分组和变形等内容。通过学习本章使学生能够对业务、科研数据进行预处理、读写、合并、分组等操作,为后续的数据挖掘、机器学期等提供高质量的基础数据。
-
●3.1Pandas基础
Pandas的安装和导入方法,在此基础上讲解Series和DataFrame相关的基本操作方法和案例。
-
●3.2文件读写操作
介绍Pandas对csv文件和Excel文件的读写方法和案例。
-
●3.3数据清洗
介绍Pandas对缺失值、重复值和异常值的处理方法和案例。
-
●3.4数据操作
介绍Pandas对数据的算术运算、关系运算、逻辑运算操作以及常用的统计和排序操作方法和案例。
-
●3.5索引操作
介绍Pandas对索引的重命名、索引设置、重新索引和索引排序的操作方法和案例。
-
●3.6合并
介绍Pandas对Series以及DataFrame数据进行合并的三种方法和案例。
-
●3.7分组
介绍Pandas对数据进行SAC(Split-Apply-Combine)操作的系列方法和案例。
-
●3.8变形
介绍透视、哑变量、因子化等数组的变形操作方法和案例。
-
第四章Matplotlib数据可视化
介绍Matplotlib包的安装和导入方法,在此基础上讲解折线图、柱形图、饼图、散点图、雷达图、箱线图等常用图表的绘制和修饰方法,最后介绍多子图布局和样式选择方法。
-
●4.1绘制折线图
介绍利用plot()绘制折线图的方法和案例。
-
●4.2绘制柱形图
介绍利用bar()和barh()绘制柱形图的方法和案例。
-
●4.3绘制饼图
介绍利用pie()绘制饼图的方法和案例。
-
●4.4绘制散点图
介绍利用scatter()绘制散点图和气泡图的方法和案例。
-
●4.5绘制雷达图
介绍利用直角坐标系以及polar()绘制雷达图的方法和案例。
-
●4.6绘制箱线图
介绍利用boxplot()绘制箱线图的方法和案例。
-
●4.7多子图布局
介绍利用subplot()对多子图进行布局的方法和案例。
-
●4.8样式选择
介绍利用Matplotlib内置的样式进行图表绘制的方法和案例。
-
第五章回归模型原理与应用
回归分析的任务是利用回归方程根据输入变量预测输出变量,回归方程分为线性和非线性,本章主要介绍线性回归模型的形式、线性回归方程参数求解方法、最优线性回归方程选择方法、如何根据最优线性回归方程进行预测及程序实现方式,另外,简要介绍了非线性回归模型的基本概念。
-
●5.1线性回归模型
如果输出变量对输入变量的依赖关系是线性的,这种关系就叫做线性关系,将这种线性关系表达成线性回归模型,本小节将介绍线性回归模型的形式、线性回归方程的参数求解、选择与预测。
-
●5.2非线性回归模型
如果输出变量对输入变量的依赖关系是非线性的,这种关系就叫做非线性关系,将这种非线性关系表达成非线性回归模型,本小节将介绍常见的可转化为线性的非线性回归模型和不能线性化的非线性回归模型的形式和概念。
-
●5.3线性回归模型实践案例
本小节将介绍多元线性回归模型综合案例和正则化处理过拟合案例。通过两个实际案例了解使用线性回归建模的过程、方法和程序实现。
-
第六章聚类分析
聚类分析是一种无监督的学习算法。我们已经知道,监督学习是利用已知标签的数据训练模型执行分类或者是回归任务,而无监督学习不需要对数据进行标记,旨在发现数据本身的分布特点。本章主要讲解聚类分析的相似性度量方法和经典的聚类分析算法,包括K-means等划分聚类算法、层次聚类算法和DBSCAN等基于密度的聚类算法。
-
●6.1聚类分析概述及相似性度量
聚类分析的目的是将数据按照相似性程度划分为不同的“簇”,使得簇内相似性高、簇间相似性低。在相似性度量时会用到距离度量方法。本节主要介绍5种经典的聚类度量算法。
-
●6.2划分聚类算法
划分聚类算法是一种最简单的聚类算法,按预先指定的K值,将给定的数据集做K个划分。本节主要介绍经典的K-means算法和K中心点聚类算法,并讲解如何通过肘法和轮廓系数确定K值。
-
●6.3层次聚类算法
层次聚类算法是将数据的相似度由高到低进行排序,并进行层次的分解,最终形成一颗层次树,本节主要介绍典型的凝聚聚类算法。
-
●6.4基于密度的聚类算法
划分聚类算法和层次聚类算法对于任意分布的样本并不能实现很好的聚类分析。基于密度的聚类算法可以实现在噪声数据中发现任意形状的簇,本节主要介绍典型的DBSCAN算法和均值漂移聚类算法。
-
第七章分类模型
分类是生产、生活中最常遇到的一类问题,比如识别某一类物体,医生诊断病人身体是否健康,垃圾邮件分类等等,这些问题都属于分类的范畴。通常解决分类问题就是用某个算法在训练数据上学习,得出分类器模型或规则。机器学习算法中有许多经典的分类算法模型。本章内容包括逻辑回归、决策树、朴素贝叶斯、支持向量机四种经典分类模型的原理、算法、求解过程、以及性能评价方法等,并且采用应用案例讲解各算法的编程实现。
-
●7.1逻辑回归
主要内容包括Logistic回归原理、Logistic回归模型损失函数、Logistic回归模型常用的损失函数求解方法,以及逻辑回归分类应用python程序实现及运行结果分析。
-
●7.2决策树
主要内容包括决策树分类及特征选择,决策树构建、剪枝,以及决策树分类应用python程序实现及运行结果分析。
-
●7.3朴素贝叶斯
主要内容包括朴素贝叶斯分类算法原理,朴素贝叶斯算法参数估计,及朴素贝叶斯分类应用python程序实现及运行结果分析。
-
●7.4支持向量机
主要内容包括支持向量机分类算法原理,分类算法损失函数,支持向量机算法经验风险与结构风险,支持向量机模型标准求解算法及随机梯度下降算法求解,以及支持向量机分类应用python程序实现及运行结果分析。
-
第八章集成学习
集成学习(Ensemble Learning)不是一个单独的机器学习算法,而是通过构建并结合多个学习器来完成学习任务,以达到更好的预测效果,有时也被称作是多分类器系统。
-
●8.1集成学习
集成学习是将多个弱学习器(基学习器)以一定的结合策略进行组合以期得到一个泛化能力更强的强学习器。Boosting是一种序列集成方法,可以用来减小监督学习方法中的偏差。 Bagging集成方法是对样本集进行随机采样,通过反复的采样分别训练几个不同的模型,然后让所有模型表决测试样例的输出,以提高模型预测的准确率。集成学习就是结合多个学习器来完成学习任务的,那么怎么结合生成的多个个体学习器呢?这就是集成学习中的结合策略。本节还介绍集成学习典型案例实践操作。
-
第九章深度学习
深度学习是机器学习的一个分支,深度学习通过低层特征经过多个线性或非线性的组件形成更加抽象的高层特征,目前已经广泛的应用到图像处理、自然语言处理、语音处理等多个应用领域。
-
●9.1神经网络与多层感知机
深度学习中需要信息进行加工,通常无法确定每个组件的贡献是多少,而一种比较好的解决贡献度分配问题的模型是人工神经网络即神经网络,它是深度学习的基础内容。
-
●9.2卷积神经网络
卷积神经网络是图像处理中使用最为广泛的深度学习框架,它采用局部连接、共享权重的方式来模拟生物学中的局部感受域和局部不变的特性。它主要包含卷积层、池化层和全连接层。
-
●9.3循环神经网络
循环神经网络是一种反馈型神经网络,常用于处理序列数据,被广泛的应用在自然语言处理中。
-
●9.4深度学习模型的优化
神经网络网络的损失函数是一个非凸函数,通常非凸函数存在很对局部最优解,只有一个全局最优解,因此通过相关方法实现在训练时能尽量找到全局最优解成为训练的目标,与此相关的方法就是网络优化方法。
-
●9.5应用案例
Pytorch是一个基于Python的深度学习框架,利用Pytorch可以实现深度学习的相关模型、进行网络优化和参数调整。