-
第一章导论
统计学是处理数据和分析数据的方法和技术,几乎应用到所有的学科领域。本章介绍统计学的一些基本问题,包括统计学的基本含义和应用领域、统计数据及其分类、统计学中常用的一些基本概念等。
-
●1.1认识统计学
本节主要介绍统计学的起源、学科属性、学科定位、主要教学内容及可选的教材,并介绍了打造《统计学》精品课程的团队成员的基本情况。
-
●1.2统计及其应用领域
统计学是关于数据的科学,它所提供的是一套关于数据收集、整理、分析、解释并得出结论的科学,采用的分析方法分为描述统计和推断统计。统计学已应用到涵盖自然科学和社会科学几乎所有的研究领域。
-
●1.3统计数据的类型
数据是统计学分析的前提和基础。数据按照所采用的计量尺度不同,可分为分类数据、顺序数据和数值型数据;按照数据的收集方法不同,可分为观测数据和实验数据;按照数据描述的时间不同,可分为截面数据和时间序列数据。
-
●1.4统计学中的几个基本概念
本节介绍统计学中经常用到的几组概念,分别是:总体和样本、参数和统计量,以及变量。
-
第二章数据的搜集
应用统计方法分析问题离不开数据。当研究的问题确定之后,需要思考如下问题:从哪里获得数据?如果通过调查获得数据,应当向谁进行调查,如何实施调查?如果通过实验获得数据,应怎样使用实验方法呢?不管采用调查方法,还是实验方法,获得的数据可靠吗?是否存在误差?误差又是如何产生的?本节将对上述问题加以讨论。
-
●2.1数据的来源
从使用者的角度看,统计数据主要来自两个渠道:一个是间接来源,即数据是别人通过调查或实验的方式搜集,使用者只是找到这些数据并加以利用;另一个是直接来源,即使用者通过自己的调查或实验直接获得一手数据。本节将分别介绍获取数据的这两个渠道。
-
●2.2调查方法
使用抽样获取数据的方式可以分为两类:一类是概率抽样,遵循随机原则进行,常采用的方式有:简单随机抽样、分层抽样、整群抽样、系统抽样和多阶段抽样;另一类是非概率抽样,不是依据随机原则,而是根据研究目的和要求,采用某种方式进行抽样,主要包括:方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。样本确定以后,搜集数据的方法主要有:自填式、面访式、电话式、观察式等。本节主要介绍抽样调查的两种方式,及搜集数据的基本方法。
-
●2.3实验方法
搜集数据的另一类方法是实验,即在实验中控制一个或多个变量,操纵少数感兴趣的变量,然后观察实验结果。本节通过具体案例,分析实验中如何根据实验组和对照组的数据分析结果,及实验过程中可能遇到的若干问题。
-
●2.4数据的误差
调查中必然会产生误差,误差可分为抽样误差和非抽样误差。抽样误差是由抽样的随机性引起的,只存在于概率抽样中;而非抽样误差是除抽样误差外其他一切误差的统称,在全面调查和非全面调查中都会产生,包括:抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。
-
第三章数据的图表展示
在搜集到统计数据之后,怎样才能使这些数据系统化、条理化,从而适合于我们分析的需要呢?如何合理地使用图表描述数据统计结果呢?本章所要回答的正是这些问题,首先介绍数据的预处理方法,然后介绍各种类型数据的整理和展示方法。
-
●3.1数据的预处理
数据的预处理是在对数据分类和分组整理前对数据的审核、筛选以及排序等处理工作。
-
●3.2品质数据的整理与展示
数据经过预处理后,可根据需要进一步做分类或分组。在对数据进行整理时,首先要弄清所面对的是什么类型的数据,因为不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。通过分类或分组,使零星的、分散的统计数据系统化,从而凸显统计数据中隐藏的规律和特征。
-
●3.3数值型数据的整理与展示
对数值型数据进行整理主要是做分组整理。数据分组是一种最基本的统计分析方法,它是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组的主要目的是观察数据的分布特征。数据分组后再计算出各组中数据的频数,就可以形成频数分布表。
-
●3.4合理使用图表
统计图和统计表是用来展示数据的两种主要方式。统计表把杂乱的数据经过汇总整理后有条理地组织在一张简明的表格内,统计图把数据形象地显示出来,在对某些实际问题进行研究时,通过使用统计表和统计图从而使大量数据资料系统化、条理化,方便读者阅读和理解,给人以明确清晰的概念,并便于发现规律,也便于计算、分析和审核。正确地使用统计表和统计图是做好统计分析的最基本技能。
-
第四章数据的概括性度量
本章介绍如何对变量分布的三个方面的特征进行测度和描述,一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势,三是分布的形状,反映数据分布的偏态和峰态。这三个方面分别反映了数据分布特征的不同侧面,本章将重点讨论各种分布特征值的计算方法、特点及应用场合。
-
●4.1集中趋势的度量
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。对集中趋势的描述,就是要寻找数据分布的中心值或代表值。一般来说,一组数据总是接近中心值的数据居多,而远离中心值的数据较少,使数据分布呈现向中心值靠拢的态势,这种态势就是数据分布的集中趋势。
-
●4.2离散程度的度量
这一讲我们学习不同类型数据的离散程度的度量。通过上一节的学习,我们对数据集中趋势进行度量,通过众数、中位数、四分位数以及平均数等测度值反映出一组数据中心点的位置所在。而数据的离散程度反映的是各变量值远离其中心值的程度。数据离散程度是数据分布的另一个重要特征。同时,数据的离散程度能够从另一个侧面说明集中趋势测度值的代表程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,反过来,离散程度越小,其代表性就越好。
-
●4.3偏态与峰态的度量
在学习了数据的集中趋势和离散程度的测度之后,要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。
-
第五章概率与概率分布
前面我们介绍了数据的搜集、整理和描述的基本方法。这些属于描述统计的基本范畴,仅停留在“就事论事”的层面,这与我们寻找数据背后的规律性这一目标仍有很大距离。有效的利用统计数据得到客观深入的分析结论需要在描述分析的基础上,使用推断统计分析方法。推断统计简单而言就是利用样本信息对总体的特征做出推算。具体而言,推断统计是在一定的条件和假定下,根据随机的观测样本数据,对与之对应的未知总体做出概率意义下的推断。
-
●5.1随机事件及其概率
本节我们学习随机事件的基本概念和事件的概率相关知识,并配有概率计算例题解答。
-
●5.2离散型随机变量及其分布
本节我们学习离散型随机变量的概率分布,离散型随机变量的期望值和方差和二项分布和泊松分布相关知识。
-
●5.3连续型随机变量的概率分布
本节我们学习分布的定义及图形特点,标准正态分布,正态分布表和正态分布的应用相关知识
-
第六章统计量及其抽样分布
本章我们讲述的主要内容是统计量及其分布,这更是帮助我们正确认识世界的直接工具。由于会受到视野、时间、精力、费用等方方面面的制约,我们自身在认识世界时总是狭隘的,很容易会被一叶障目。我们很想历尽千帆、踏遍万水之后再来得到我们心中的结论,可这往往是不现实的。我们只能看到我们身边的一小片世界,只能看到一片森林的有限树木,只能看到一件大事的凤毛麟角。如果我们从这些信息出发直接直观的来做判断,犯错误就会是必然的。我们需要的是在这些小的信息、一枝一叶的内容基础上做推断,借助科学的方法来保障我们做出合理正确的推断,这就是统计推断的主要工作。
-
●6.1统计量
本节我们学习统计量及其抽样分布导入,统计量的概念,常用的统计量。次序统计量和充分统计量相关知识。
-
●6.2由正态分布导出的几个重要分布
本节我们学习抽样分布,X2分布,t分布和F分布的相关知识。
-
●6.3样本均值的分布与中心极限定理
本节我们学习样本均值的抽样分布和中心极限定理的相关知识。
-
第七章参数估计
参数估计是统计推断的重要内容之一。它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数。参数估计分为参数点估计和区间估计。点估计是用样本统计量的某个取值直接作为总体参数的估计值,它包括矩估计、极大似然估计、最小二乘估计和贝叶斯估计;区间估计是在点估计的基础上,以一定的概率把握程度给出总体参数所在的区间范围。本章将介绍参数估计的基本方法,内容包括估计量的评价标准,一个总体参数的区间估计和两个总体参数的区间估计,最后介绍参数估计中样本量的确定问题。
-
●7.1参数估计的基本原理
本节介绍参数估计中估计量和估计值的概念、点估计和区间估计的概念以及区间估计的原理,给出了评价估计量的一些标准,主要有无偏性、有效性和一致性。
-
●7.2一个总体参数的区间估计
研究一个总体时,所关心的参数主要有总体均值、总体比例和总体方差等。本节将通过具体例子介绍如何利用样本统计量来构造一个总体参数的置信区间。
-
●7.3两个总体参数的区间估计1
对于两个总体,所关心的参数主要有两个总体的均值之差、两个总体的比例之差和两个总体的方差之比等。本节将介绍如何利用样本统计量对此进行区间估计。
-
●7.4两个总体参数的区间估计2
如何确定一个合适的样本量,是抽样估计首先需要考虑的问题。本节利用置信度和置信区间的宽度之间的关系给出了估计总体均值和总体比例时样本量的确定公式。
-
第八章假设检验
假设检验是统计推断的重要核心内容。本章将介绍假设检验的思想原理、假设检验的基本流程和假设检验中的两类错误,针对总体均值、总体比例和总体方差等参数,介绍了一个总体参数的检验和两个总体参数的检验问题。
-
●8.1假设检验的基本问题
假设检验是对总体参数作出某种假设,然后利用样本信息对所作假设进行检验的过程。本节介绍了假设检验问题的提出、检验流程、两类错误和检验的P值以及双侧检验和单侧检验的具体形式。
-
●8.2一个总体参数的检验
对于一个总体的参数,本节介绍了总体均值、总体比例和总体方差情形下检验统计量的确定方法和决策流程。
-
●8.3两个总体参数的检验
对于两个总体,本节介绍了两个总体的均值之差、两个总体的比例之差和两个总体的方差之比的假设检验问题,最后通过一个例子说明了两总体均值之差检验中匹配样本的重要性。
-
●8.4检验问题的进一步说明
本节对假设检验的决策结果作了进一步解释和说明。通过举例,对单侧检验中不同方向的假设导致的看似矛盾的结论,进行了解释说明,并给出了建立假设的一般原则和方法。
-
第九章分类数据分析
主要掌握卡方统计量的构造,能够解释列联表,并根据列联表计算期望频数,计算卡方统计量的值;熟练掌握拟合优度检验和列联分析方法;掌握列联分析中三类相关测量方法并了解卡方分布期望值准则。
-
●9.1分类数据与χ2统计量
分类数据是对事物进行分类的结果,其特征是调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。卡方可以用于测定两个分类变量之间的相关程度。
-
●9.2拟合优度检验
拟合优度检验就是用卡方统计量进行统计显著性检验的重要内容之一。依据总体分布状况,计算出分类变量中各个类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
-
●9.3列联分析:独立性检验
拟合优度检验是对一个分类变量的检验,那么如何对两个及以上分类变量进行检验呢?有时候会遇见两个分类变量的问题,我们关心这两者是否有关联,对于两个分类变量的分析,称为独立性检验,由于分析过程通过列联表的方式呈现,又被称为列联分析。
-
●9.4列联表中的相关测量
通过独立性检验如果检验出两个分类变量之间相互独立,说明他们之间没有联系;反之,则认为变量之间有联系,如果两个变量之间有联系,这种联系的程度有多大呢?卡方统计量能够让我们判别两个变量之间是否有关系,但是没有告诉我们这种联系的密切程度有多大,我们可以使用相关系数测量两个变量之间的相关程度。
-
●9.5列联分析中应注意的问题
前面谈到用卡方分布进行独立性检验,要求样本量必须足够大,特别是每个单元中的期望频数不能过小,否则应用卡方检验可能得出错误的结论。
-
第十章方差分析
了解方差分析的含义与内容体系;掌握单因素方差分析和多因素方差分析的原理、方法及应用条件。
-
●10.1方差分析引论
本节我们主要学习方差分析的含义,类型及基本思想。
-
●10.2单因素方差分析
本节我们主要学习单因素方差分析的统计模型,偏差平方和分解式和显著性统计检验。
-
●10.3双因素方差分析
本节我们主要学习双因素方差分析的含义,无交互作用的双因素方差分析与有交互作用的双因素方差分析相关知识。
-
第十一章一元线性回归
本章主要介绍数值型自变量和数值型因变量之间关系的分析方法,这就是相关与回归分析。相关与回归是处理变量之间关系的一种统计方法。从所处理的变量多少来看,如果研究的是两个变是之间的关系,称为简单相关与简单回归分析;如果研究的是两个以上变量之间的关系,称为多元相关与多元回归分析。从变量之间的关系形态上看,有线性相关与线性回归分析及非线性相关与非线性回归分析。本章主要讨论简单线性相关和简单线性回归的基本原理与方法。
-
●11.1变量间关系的度量
相关分析的目的在于测度变量间的关系强度。本节主要介绍变量间的关系、相关关系的描述与测度以及相关关系的显著性检验。
-
●11.2一元线性回归
回归分析侧重于考察变量间的数量关系,并通过一定的数学表达式表示出来。本节给出了模型确定的方法及判定模型优劣的检验过程。
-
第十二章多元线性回归
本章将讨论涉及两个及两个以上自变量的回归问题,即多元回归,而且主要介绍多元线性回归。多元线性回归的分析过程与一元线性回归相似,由于自变量多于1个,因此还需要探讨多个自变量的多重共线性问题,此外,讨论的重点主要放在多元回归的计算机输出结果及其应用上。
-
●12.1多元线性回归模型
影响因变量的因素往往有多个,这种一个因变量同多个自量的回归问题就是多元回归,当因变量与各自变量之间为线性关系时,称为多元线回归。多元线性回归分析的原理同一元线性回归基本相同,但计算上要复杂得多,借助计算机来完成。
-
●12.2回归方程的拟合优度
与一元回归类似,对多元线性回归方程,需要用多重判定系数来评价其拟合程度。
-
●12.3显著性检验
在多元回归中,线性关系检验与回归系数检验不等价。线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,在k个自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中了。
-
●12.4多重共线性
当回归模型中使用两个或两个以上的自变量时,这些自变量往往会提供多余的信息,即这些自变量之间彼此相关。这些变量所提供的预测信息就是重复的,或许只用其中的一个自变量就可以了。其他几个变量之间也有类似的相关情况。本节将介绍多重共线性及其所产生的问题以及多重共线性的判别。
-
●12.5利用回归方程进行预测
在一元线性回归中,曾介绍利用自变量来估计因变量的方法对于多元线性回归,同样可以利用给定的k个自变量,求出因变量,的平均值的置信区间和个别值的预测区间。
-
●12.6变量选择与逐步回归
根据多个自变量建立回归模型时,若试图将所有的自变量都引进回归模型,会带来许多问题。如果在建立模型之前能对所收集到的自变量进行一定的筛选,去掉不必要的自变量,不仅可以使建立模型变得容易,而且模型更具有可操作性,也更容易解释。本节将介绍变量选择过程、向前选择、向后剔除以及逐步回归。
-
第十三章时间序列分析和预测
本章主要介绍时间序列分析和预测的相关知识。
-
●13.1时间序列及其分解
时间序列(times series)是同一现象在不同时间上的相继观察值排列而成的序列。经济数据大多数以时间序列的形式给出。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。
-
●13.2时间序列的描述性分析
本节我们学习时间序列的描述性分析的相关知识。
-
●13.3时间序列预测的程序
时间序列分析的一个主要目的就是根据已有的历史数据对未来进行预测。由13.1节可知,时间序列含有不同的成分,如趋势、季节性、周期性和随机性等。对于一个具体的时间序列,它可能只含有一种成分,也可能同时含有几种成分。含有不同成分的时间序列所用的预测方法是不同的。
-
●13.4平稳序列的预测
平稳时间序列通常只含有随机成分,其预测方法主要有简单平均法,移动平均法和指数平滑法等,这些方法主要是通过对时间序列进行平滑以消除其随机波动,因而也称为平滑法。平滑法既可用于对平稳时间序列进行短期预测,也可用于对时间序列进行平滑以描述序列的趋势(包括线性趋势和非线性趋势)。
-
●13.5趋势型序列的预测
本节将介绍含有趋势成分的时间序列的预测方法。 时间序列的趋势可以分为线性趋势和非线性趋势两大类,如果这种趋势能够延续到未来,就可以利用趋势进行外推预测。有趋势序列的预测方法主要有线性趋势预测、非线性趋势预测和自回归模型预测等。本节主要介绍线性趋势和非线性趋势的预测方法。
-
●13.6复合型序列的分解预测
复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后进行预测。由于周期成分的分析需要有多年的数据,实际中很难得到多年的数据,因此采用的分解模型为: 这一模型表示该时间序列中含有趋势成分,季节成分和随机成分。对这类序列的预测方法主要有季节性多元回归模型、季节自回归模型和时间序列分解法预测等。季节性多元回归模型已在前面作了介绍,本节主要介绍时间序列分解法预测。
-
第十四章指数
在日常工作生活中,我们经常遇到或者需要使用各种指数,例如,居民消费价指数(CPI)、股票价格指数、房地产价格指数等,这些指数同我们的社会经济生活系非常密切。了解指数是如何编制的,有助于我们更好地认识指数的功能与作用。本章将介绍指数的基本问题、总指数的编制方法、指数体系以及几种典型的指数
-
●14.1基本问题
本节将介绍指数的基本概念,具体包括指数概念、指数分类、指数编制中的问题。
-
●14.2总指数编制方法
总指数是对个体指数的综合,将个体指数综合有两个途径:一是对个体指数的简单汇总,不考虑权数,我们把这类指数称为简单指数;二是编制总指数时考想权数的作用,我们把这类指数称为加权指数。在加权指数中,根据计算方式不同,又可以分为加权综合指数和加权平均指数。
-
●14.3指数体系
在实际应用中,不仅可以利用指数反映社会经济现象数量的变动程度,而且还能借助由几个指数组成的指数体系,对社会经济现象之间的相互联系作更深人的分析。分析方法的基点是进行因素分解,因素分解的对象可以是总量指数,也可以是平均数指数。
-
●14.4几种典型的指数
作为一种重要的测评和分析方法,指数在实践中获得了广泛的应用。指数最初是反映物价变化,随后应用的领域不断扩展,从经济领域拓展到社会领域,用指数描述社会发展状况,用指数测定人们的感受。
-
●14.5综合评价指数
本节将介绍综合评价指数,构建综合评价指数的一般步骤以及综合评价指数的构建方法。
-
第十五章大数据初步
大数据时代,统计学依然是数据分析的灵魂,大数据技术是统计学的传承和发扬。大数据以其海量性、高速性、多样性、价值性的特点为我们提供了更多的信息。本章介绍大数据的初步知识,包括大数据的含义、特征、基本分析方法及应用。
-
●15.1大数据初步
大数据在社会经济生活中比比皆是,它主要来源于互联网、文本图片视频资料、社交数据、商业交易、公共交通等。
-
●15.2什么是大数据
大数据分为结构化数据和非结构化数据,具有海量性、高速性、多样性、价值性的特征。
-
●15.3大数据应用
大数据具备三个技术特征:软件是大数据分析的引擎;网络是大数据分析的支撑;统计方法是大数据分析的核心。大数据在带给我们海量信息的同时,也存在存储安全、信息泄露等安全威胁。