课程 - 国家高等教育智慧教育平台

开课平台	智慧树
开课高校	哈尔滨商业大学
开课教师	任宗伟、张茹、李鹏
学科专业	工学计算机类

开课时间	2024/07/21 - 2025/01/20
课程周期	27 周
开课状态	开课中
每周学时	-

第一章概述

人工智能发展所取得的大部分成就都和大数据密切相关。通过数据采集、处理、分析，从各行各业的海量数据中，获得有价值的洞察，为更高级的算法提供素材。而人工智能为大数据的应用提供了方法论支撑。通过人工智能和大数据的相辅相成，充分发挥他们的价值，使得他们的应用领域不断扩展。
●1.1大数据概述

大数据是信息技术和计算方法迅速发展的必然产物。商业数据、科学数据和网页数据等促使数据的种类日益增多、规模呈爆炸式增长,大数据时代已经到来。大数据已成为继物力和人力资源之后的又一重要资源,将在社会发展过程中发挥不可替代的作用。
●1.2人工智能

人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，计算机视觉等等，总的说来，人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。
●1.3大数据与人工智能关系

AI本身就是一种大数据的应用，特别是在对于AI系统进行训练的时候，使用的数据越多，AI系统就越先进。在计算力指数级增长及高价值数据的驱动下，以AI为核心的智能化正不断延伸其技术应用广度、拓展技术突破深度。

第二章数据工程

大数据时代，随着数据量的增加，传统的数据的管理、展现以及其中信息提炼的方式已经不能满足新形势的需求。而数据工程，则是针对这一逐渐凸显的矛盾，将数据的处理流程、数据预处理以及数据的可视化等方面，对相关的理论知识以及工具使用进行快速的入门介绍。
●2.1数据工程概念及特征

在大数据时代，数据格式变得越来越多样，涵盖了文本，音频，图片，视频，模拟信号等不同的类型，数据来源也越来越多样，不仅产生于组织，内部运作的各个环节，也来自于组织外部。
●2.2数据处理流程

数据处理是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
●2.3数据获取

如何从大数据中获取有价值的信息往往是行业领域对大数据技术最常见的诉求之一,而要想从大数据中获得有价值的信息，最基本的操作是数据获取。
●2.4数据存储及数据仓库

数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性，同时也决定了其对外部数据表现形式要采用什么产品和技术来建立数据仓库核心，则需要从数据仓库的技术特点着手分析。
●2.5数据预处理

在工程实践中，得到的数据会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而不同。
●2.6模型构建与评估

针对不同的数据分析任务，构建不同的数据处理模型，如回归、聚类等模型。对模型的评估是指对模型泛化能力的评估,主要通过具体的性能度量指标来完成。
●2.7数据可视化

数据可视化是关于数据视觉表现形式的科学技术研究。旨在借助于图形化手段，清晰有效地传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。

第三章人工智能

科幻作品中我们经常能够看到与人类一样聪明的机器人，但机器是如何在这背后存储知识的？是如何推理知识并运用知识的？最后又是如何实现与人的交互的？这些全部依赖于人工智能的实现技术。
●3.1人工智能的分类

随着高质量的大数据、高性能计算力、深度学习算法的快速发展，人工智能发展跨越感知智能，进入认知智能，也将与传统产业结合越深入，结合的面越广，必定产生更多的新产业、新模式、新应用，前景向好。
●3.2机器学习

善学而睿智。通过模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，这就是机器学习。它是人工智能的核心，是使计算机具有智能的根本途径。
●3.3遗传算法

遗传算法是一种基于“适者生存”的高度并行、随机和自适应的优化算法,通过复制、交叉、变异将问题解编码表示的“染色体”群一代代不断进化,最终收敛到最适应的群体,从而求得问题的最优解或满意解。
●3.4蚁群算法

蚁群算法是一种用来寻找优化路径的概率型算法。这种算法具有分布计算、信息正反馈和启发式搜索的特征，本质上是进化算法中的一种启发式全局优化算法。

第四章大数据处理

与数据统计和分析过程不同的是，大数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。
●4.1关联规则

关联规则是反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。
●4.2聚类

聚类要确定一个物体的类别，这里没有事先定义好的类别。聚类算法没有训练过程，算法要根据自己定义的规则，将相似的样本划分在一起，不相似的样本分成不同的类。
●4.3支持向量机

帝厘下土,方设居方,别生分类，SVM是一类按监督学习方式对数据进行二元分类的广义线性分类器，可以通过核方法进行非线性分类。
●4.4降维及特征提取

特征提取是从杂乱无章的世界中，用一个更加普世的观点和理论去解释原先的理论，这是特征提取要做的事情。只是想对现有的数据“取其精华，去其糟粕”，这是所谓的特征选择。
●4.5集成算法

集成算法是构建多个学习器，然后通过一定策略结合把它们来完成学习任务的，常常可以获得比单一学习显著优越的学习器。
●4.6分类

分类算法属于一种有监督的学习。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。
●4.7回归

在大数据分析中，回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。

第五章深度学习

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。
●5.1人工智能、机器学习与深度学习的关系

机器学习是一种实现人工智能的方法，深度学习是一种实现机器学习的技术。深度学习使得机器学习能够实现众多的应用，并拓展了人工智能的领域范围。深度学习摧枯拉朽般地实现了各种任务，使得似乎所有的机器辅助功能都变为可能。
●5.2深度学习的发展历程

作为机器学习最重要的一个分支，深度学习近年来发展迅猛，在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的，而是经历了一段漫长的发展史。
●5.3卷积神经网络的相关基础和基本原理

卷积神经网络（Convolutional Neural Network）是一种常见的用于图像分类的深度学习框架，它可以看作是一种对输入信号逐层加工，最后将联系并不密切的输入和输出信息连接起来的分类网络。
●5.4深度学习的应用

深度学习已经在图像、语音、自然语言处理等各个不同的领域展现出了优异的性能。本文将带着大家看看深度学习在机器视觉领域的应用现状及其他方面的应用。

第六章Hadoop架构

Hadoop架构是一个开源的、基于Java的编程框架，设计用于跨电脑集群来处理大数据。Hadoop架构管理多个节点之间的数据传输，确保即使有一个节点坏掉了，系统仍然保有适当的功能。Hadoop架构有两个主要的组件：分布式文件系统和MapReduce引擎。主要的分布式文件系统是Hadoop分布式文件系统（HDFS），这里存储着程序。MapReduce引擎是用于执行程序的一个框架。
●6.1Hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
●6.2Hadoop大数据处理框架

Hadoop 是一个基础框架，允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器，每个服务器都能提供本地计算和存储功能，框架本身提供的是计算机集群高可用的服务，不依靠硬件来提供高可用性。
●6.3Hadoop安装与部署

本节主要介绍了Hadoop安装与部署配置教程，通过详细的讲解，为大家学习使用Hadoop提供帮助和支持。
●6.4MapReduce编程

MapReduce应用广泛的原因之一就是其易用性，提供了一个高度抽象化而变得非常简单的编程模型，它是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架，在其编程模型中，任务可以被分解成相互独立的子问题。