-
第一章大数据分析概述
社会的节奏越来越快,要求快速反应和精细管理,急需借助对数据的分析和科学的决策,这样,我们便需要对形形色色的海量数据进行开发。也就是说,大数据的时代来了。本章内容主要包括大数据的定义、特点和简史,大数据分析的过程、技术和难点,以及大数据分析模型的建立方法。
-
●1.1大数据分析的定义及特点
本节从大数据的定义和特点出发对大数据进行介绍,并对大数据的发展简史进行梳理、总结。
-
●1.2大数据分析的过程
本节对大数据分析的定义、过程及相关技术、难点进行讲解。
-
●1.3大数据分析模型建立过程
本节主要讲授大数据分析模型的建立方法及其实际应用。
-
第二章大数据数据仓库模型和可视化
本章对数据仓库进行介绍,主要从数据仓库的概念和技术演进、数据仓库的组成和体系结构、数据仓库的数据模型和建立方法及数据可视化方法等方面展开介绍。
-
●2.1数据仓库的基本概念和组成
本节主要介绍数据仓库的基本概念、组成及数据仓库体系结构概念。
-
●2.2数据仓库的体系结构
本节主要介绍数据仓库的体系结构和模型。
-
●2.3数据仓库的建立方法
本节主要介绍数据仓库的建立方法,即建立数据仓库的步骤,最后对大数据可视化的技术和方法进行简要介绍。
-
第三章大数据分析的数据预处理
在对大数据的基本概念、数据仓库相关概念及大数据可视化相关知识进行介绍后,本章主要围绕数据预处理进行讲解,包括数据预处理步骤、数据的标准化与归一化、数据清洗等内容。
-
●3.1数据抽样和过滤
本节主要讲解内容包括数据预处理的三个步骤、数据抽样的方法和数据过滤的定义,并对不同方法的原理及适应场景进行介绍。
-
●3.2数据的标准化与归一化
本节对数据预处理的第二个步骤—数据标准化与归一化进行介绍。
-
●3.3数据清洗
本节主要对数据清洗的相关概念进行介绍,通过本节课的学习可掌握数据清洗的不同技术手段、熟悉数据预处理的流程。
-
第四章数据回归分析模型
回归分析是最灵活、常用的统计分析方法之一,用于分析变量之间的数量变化规律,即一个因变量与一个或多个变量之间的关系,适用于定量描述和解释变量之间的相互关系或评估、预测因变量的值。本章主要介绍一元线性回归模型、多元线性回归模型、逻辑回归模型、梯度下降算法、多因子选股模型。
-
●4.1一元线性回归模型
本节内容主要包括一元线性回归模型、最小二乘法以及统计检验。
-
●4.2多元线性回归模型
本节重点讲解多元线性回归分析,包括模型介绍、求解步骤及统计检验三个部分。
-
●4.3逻辑回归模型
本节主要介绍回归模型中的逻辑回归模型及其求解方法。
-
●4.4梯度下降算法
本节主要讲解梯度下降法的基本概念以及最常见的三种梯度下降法。
-
●4.5多因子选股模型
本节主要讲解多因子选股模型,包括多因子选股模型的主题思想、求解过程等,并以股票数据为基础进行案例分析。
-
第五章关联分析模型与算法
关联规则挖掘的目标是发现数据项集之间的关联关系和相关联系,是数据挖掘中一个重要的课题。本章节将用5个小节的内容来介绍关联分析模型与算法。
-
●5.1关联规则分析模型
在进行关联规则挖掘时,Apriori算法和FP-Growth算法是两种最常用的算法,Apriori算法的适应性依然最好,所以在实践中进行关联规则分析时,首选该算法,当然也可以根据实际情况,对该算法进行改进,以更好地适应新的数据和场景。FP-Growth算法具有很好的直观性,对于认识、分析、研究事物之间的关联关系是非常有帮助的,所以在实践中该方法可以作为与Apriori算法配合使用的方法,也可以单独使用。
-
●5.2Apriori算法
为了对顾客的购物篮进行分析,1993年,Agrawal 等首先提出关联规则的概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,又提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖据问题进行了大量的研究。
-
●5.3FP-Growth算法
FP-Growth(频繁模式增长)算法是韩家玮在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。
-
●5.4关联规则生成
关联规则是形如X→Y的蕴合式, X称为规则的前提,Y称为规则的结果。关联规则反映X中的项目出现时,Y中的项目也跟着出现的规律。
-
●5.5关联规则应用实例
行业关联选股法是一种基于关联规则挖掘的选股方法。对于该方法,寻找关联行业是关键。通过该实例加深对关联规则的理解。
-
第六章分类分析模型与算法
分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型,该模型能把未知类别的样本映射到给定的类别中。本章将介绍分类的基本概念、常用分类方法的理论及应用实例。
-
●6.1分类分析概述与模型构建
分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型,该模型能把未知类别的样本映射到给定的类别中。本章将介绍分类的基本概念、常用分类方法的理论及应用实例。
-
●6.2决策树1
决策树又称分类树,决策树是最为广泛的归纳推理算法之一。处理类别型或连续型变量的分类预测问题,可以用图形和if-then的规则表示模型。
-
●6.3决策树2
决策树又称分类树,决策树是最为广泛的归纳推理算法之一。处理类别型或连续型变量的分类预测问题,可以用图形和if-then的规则表示模型。
-
●6.4支持向量机
Vapnik 等人于1995年提出支持向量机(Support Vector Machine, SVM),具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。
-
●6.5KNN算法
KNN算法全称K最近邻(KNN,k-Nearest Neighbor)分类算法是一种基于实例的分类方法,最初由Cover和Hart于1968年提出,是一种非参数的分类技术。
-
●6.6朴素贝叶斯
贝叶斯分类是一类利用概率统计知识进行分类的算法,其分类原理是贝叶斯定理,是18世纪概率论和决策论的早期研究者Thomas Bayes发明的。而朴素贝叶斯算法是贝叶斯算法中最简单的一个算法。
-
●6.7随机森林
随机森林(Random forest)是以多棵决策树为基本分类器,进行集成学习后得到的一个组合分类器。该分类器最早由Leo Breiman和Adele Cutler提出。
-
●6.8神经网络模型
神经网络是分类技术中重要方法之一。是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。模型中大量节点之间相互联接构成网络,即神经网络,以达到处理信息的目的。
-
●6.9深度学习
深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。
-
●6.10分类性能评估
通过测试数据集的构造、分类性能的度量指标与不同分类模型的比较三个方面来进行分类性能评估。
-
●6.11分类模型应用实例
分类在量化投资中是一种非常实用的技术,通过分类选股的例子来了解分类算法是如何解决实际问题的。
-
第七章聚类分析与模型
聚类是一个人们日常生活中的常见行为,所谓物以类聚,人以群分,其核心思想也是聚类。人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间有趣的相互关系。
-
●7.1聚类分析概述
将物理或抽象对象的集合分成由类似的对象组成的多个类或簇的过程被称为聚类。分析事物聚类的过程称为聚类分析,是研究(样品或指标)分类问题的一种统计分析方法。
-
●7.2聚类分析度量
研究聚类,就有必要了解不同类的度量方法。本节介绍基于距离的对象间度量方式、基于相似系数的对象间度量方式、异种属性相似度的综合度量、类间距离的度量。
-
●7.3K-Means算法
K-Means算法是很典型的基于距离的聚类算法,属于无监督学习算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。
-
●7.4EM算法
最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。
-
●7.5DBSCAN算法
DBSCAN算法是一个有代表性的基于密度的聚类算法,与层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有噪声的数据中发现任意形状的聚类。
-
●7.6聚类分析评价
对聚类分析的结果进行评价是关键,对聚类效果进行评价的研究称为聚类有效性分析。
-
●7.7聚类分析模型实例
聚类在量化投资中的主要作用是对投资的对象进行聚类,然后根据聚类的结果评估每个类别的盈利能力,然后选择盈利能力强的类别的对象进行投资。以股票为例,可以通过聚类方法,对股票进行分池,对于买入的股票,只从盈利能力最强的池子中选择。
-
第八章预测分析与模型
预测是适应社会经济的发展和管理的需要而产生、发展起来的。预测作为一种社会实践活动,已有几千年的历史。预测真正成为一门自成体系的独立的学科仅仅是近几十年的事情。特别是第二次世界大战以后,由于科学技术和世界经济取得了前所未有的快速发展,社会经济现象的不确定因素显著增加,诸如政治危机、经济危机、能源危机、恐怖活动等。所有这些不确定因素增加了人们从心理上了解和掌握未来的必要性和迫切性。人们日益意识到科学预测的重要性,这也就成为预测学科进一步发展的推动力。
-
●8.1预测分析概述
预测方法要求根据社会经济现象的历史和现实,综合多方面的信息,运用定性和定量相结合的分析方法,来揭示客观事物的发展变化规律,并指出事物之间的联系、未来发展的途径和结果等。预测的准确度就是指预测模型拟合的好坏程度,即由预测模型所产生的模拟值与历史实际值拟合程度的优劣。
-
●8.2预测分析概述2
预测方法要求根据社会经济现象的历史和现实,综合多方面的信息,运用定性和定量相结合的分析方法,来揭示客观事物的发展变化规律,并指出事物之间的联系、未来发展的途径和结果等。预测的准确度就是指预测模型拟合的好坏程度,即由预测模型所产生的模拟值与历史实际值拟合程度的优劣。
-
●8.3灰色预测
灰色系统理论认为:系统的行为现象尽管是朦胧的,数据是复杂的,但它毕竟是有序的,是有整体功能的。
-
●8.4马尔科夫预测
马尔科夫过程,因安德烈·马尔科夫而得名。马尔科夫过程是具有马尔科夫性质的离散随机过程。我们都知道,事物总是随着时间而发展的,因此事物与时间之间有一定的变换关系。在一般情况下,人们要了解事物未来的发展状态,不但要看到事物现在的状态,还要看到事物过去的状态。安德烈·马尔科夫认为,还存在另外一种情况,人们要了解事物未来的发展状态,只需知道事物现在的状态,而与事物以前的状态毫无关系。
-
●8.5预测分析评价
预测的基本要素包括:预测者、预测对象、信息、预测方法和技术以及预测结果。这些基本要素之间的相互关系构成了预测科学的基本结构。此基本结构是如何运动、变化和发展的,应遵循什么样的程序才能得到科学的预测结果,这就是预测的基本程序。
-
●8.6预测分析模型实例
本节通过一个实例帮助学生理解预测分析的内容。
-
第九章离群点分析与模型
离群点就是和其他的点不一样的点。一般我们将数据画出散点图来,会很明显的看到有些点是没有和其他的数据聚集在一起的,明显是脱离大部队的,这些点就是离群点。本章主要介绍离群点和离群点分析的概念、四种离群点分析方法的原理和过程、离群点分析的应用。
-
●9.1离群点分析概述
本节主要对离群点的概念、意义及分类进行介绍。
-
●9.2基于统计的离群点分析
基于统计的离群点分析方法的基本思想是:在正态分布中,越是远离均值的数据,出现的概率就越小。
-
●9.3基于距离的离群点分析
基于距离的离群点分析方法的基本思想是:如果一个数据点离其他数据点都很远,那么它就是离群点。那么这个衡量数据点之间的远近,我们要使用点之间的距离来衡量,这就是基于距离的分析方法。
-
●9.4基于密度的离群点分析
基于密度的离群点分析的基本思想是:某一个点是否离群,不仅取决于它与周围的点的距离,还取决于它周围的点的密度。
-
●9.5基于聚类的离群点分析
基于聚类的离群点分析方法,首先需要将所有数据点通过聚类算法,划分成若干个簇,然后再根据聚类的结果来判断哪些点是离群点。
-
●9.6离群点分析实例
我本节主要介绍一个离群点分析的应用实例,离群点诊断股票买卖择时。
-
第十章文本分析模型
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
-
●10.1文本分析概述
文本分析就是一种简单的规则,这种规则是提取文本的主语和动词,这种规则可以帮助我们判断句子是否合乎文法。然而,并不是所有的规则都这么简单,实际的文法规则十分复杂,覆盖哪怕是20%的真实语句的文法也至少是几万条。
-
●10.2文本分析模型
本节组合与介绍主题模型的原理,包括LSA、PLSA、LDA模型。
-
第十一章推荐模型与系统
推荐系统是利用 电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在问题中的消费者不断流失。为了解决这些问题,应运而生。本章主要对推荐算法的目的及应用、构建方法、两种协同过滤推荐算法进行介绍。
-
●11.1推荐系统概述
所谓推荐,很多时候它是辅助决策的一种手段,因为我们面对很多的选择,经常需要做决定,这个时候,一个好的推荐方案能够迅速得到我们的注意并且直接影响我们的决策。
-
●11.2推荐系统的构建
推荐系统首先要有一个收集用户喜好的模块,比如去收集用户的浏览记录、购买记录,对商品的评分、评价等等。然后要对这些用户喜好进行分析,主要是通过这些信息找到喜好相同的用户,或者目标受众相似,常常被一同购买的一些商品。最后,要通过各种推荐算法预测出用户对目标商品的喜好度,然后将用户最可能喜欢的商品推荐给用户。
-
●11.3基于用户的协同过滤
在推荐的过程中,我们需要解决三个问题。一是确定两个用户是否相似,如何量化用户之间的相似度的问题。二是知道了用户之间的相似程度之后,如何确定使用哪些用户来对目标用户的喜好进行预测。最后是要回答如何预测的问题。
-
●11.4基于产品的协同过滤
基于用户的协同过滤算法有一个比较重要的缺点是,用户的喜好是动态的,用户随时都可能增加新的打分,这就需要重新计算用户之间的相似度。随着用户数量的增加,计算的时间代价也显著增长。这个计算量是很大的,而且需要实时动态更新,无法离线计算。基于这个原因,人们开始研究基于物品的协同过滤方法。