【数据结构】第一章绪论

发表于 2021-03-28 更新于 2021-03-31 分类于计算机科学，数据结构

本文字数： 2.8k 阅读时长 ≈ 3 分钟

数据结构在学什么？

如何用程序代码把现实世界的问题信息化？

如何用计算机高效地处理这些信息从而创造价值？

需要具备的知识： C/C++语言（408只能用C/C++答题）

什么是分支、循环？（if/else、for. while）

什么是数组？

什么是函数？

什么是指针、什么是地址？

什么是struct结构体？

数据结构的基本概念

数据：数据是信息的载体，是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。

数据元素：数据元素是数据的基本单位，通常作为一个整体进行考虑和处理。

数据项：一个数据元素可由若干数据项组成，数据项是构成数据元素的不可分割的最小单位。

数据对象是具有相同性质的数据元素的集合，是数据的一个子集。

数据结构是相互之间存在一种或多种特定关系的数据元素的集.合。

同样的数据元素，可组成不同的数据结构
不同的数据元素，可组成相同的数据结构

数据类型是一个值的集合和定义在此集合上的一组操作的总称

原子类型：其值不可再分的数据类型 e.g. bool、int
结构类型：其值可以再分解为若干成分（分量）且各成分具有一定逻辑关系的数据类型 e.g. 结构体struct

抽象数据类型（Abstract Data Type，ADT）是抽象数据组织及与之相关的操作。

定义一个ADT，就是在“定义”一种数据结构
确定了ADT的存储结构，才能“实现”这种数据结构

数据结构的三要素（三者缺一不可）：

逻辑结构
物理结构
数据的运算

逻辑结构

逻辑结构是用于定义一种数据结构的基本内容。

【408不考】集合：各个元素同属一个集合，别无其他关系
线性结构：数据元素之间是一对一的关系
- 除了第一个元素，所有元素都有唯一前驱
- 除了最后一个元素，所有元素都有唯一后继
树形结构：数据元素之间是一对多的关系
图结构：数据元素之间是多对多的关系

物理结构（存储结构）

物理结构是则对逻辑结构的具体实现。

顺序存储：把逻辑上相邻的元素存储在物理位置上也相邻的存储单元中，元素之间的关系由存储单元的邻接关系来体现。
链式存储：逻辑上相邻的元素在物理位置上可以不相邻，借助指示元素存储地址的指针来表示元素之间的逻辑关系。
索引存储：在存储元素信息的同时，还建立附加的索引表。索引表中的每项称为索引项，索引项的一般形式是（关键字，地址）。

关键字是指用于区分各个元素信息的数据项。同一数据结构内的各个数据元素的关键字应该互不相同。
散列存储/哈希（Hash）存储：根据元素的关键字直接计算出该元素的存储地址

后3种称为非顺序存储。

【注意】

若采用顺序存储，则各个数据元素在物理上必须是连续的；若采用非顺序存储，则各个数据元素在物理上可以是离散的。
数据的存储结构会影响存储空间分配的方便程度
数据的存储结构会影响对数据运算的速度 e.g.：在b和d之间插入新元素c

数据的运算

数据的运算是针对于某种逻辑结构，结合实际需求，定义的基本运算。

例如：对于线性结构：

查找第i个数据元素
在第i个位置插入新的数据元素
删除第i个位置的数据元素
……

【注意】

运算的定义是针对逻辑结构的，指出运算的功能；
运算的实现是针对存储结构的，指出运算的具体操作步骤。

知识回顾

算法的基本概念

算法（Algorithm）是对特定问题求解步骤的一种描述，它是指令的有限序列，其中的每条指令表示一个或多个操作。

程序＝数据结构＋算法

算法必须具备的特性

有穷性

一个算法必须总在执行有穷步之后结束，且每一步都可在有穷时间内完成。

注：算法必须是有穷的，而程序可以是无穷的（如微信是程序，不是算法）。
确定性

算法中每条指令必须有确切的含义，对于相同的输入只能得出相同的输出。
可行性

算法中描述的操作都可以通过已经实现的基本运算执行有限次来实现。
输入

一个算法有零个或多个输入，这些输入取自于某个特定的对象的集合。
输出

一个算法有一个或多个输出，这些输出是与输入有着某种特定关系的量。

“好”算法的特质

设计算法时要尽量追求的目标

正确性

算法应能够正确地解决求解问题。
可读性

算法应具有良好的可读性，以帮助人们理解。
健壮性

输入非法数据时，算法能适当地做出反应或进行处理，而不会产生莫名其妙的输出结果。
高效率（花的时间少，时间复杂度低）与低存储量需求（不费内存，空间复杂度低）

知识回顾

算法效率的度量

时间复杂度

时间复杂度是指时间开销与问题规模n之间的关系。

事后统计运行时间存在的问题：

和机器性能有关

如：超级计算机v.s.单片机

和编程语言有关

越高级的语言执行效率越低

和编译程序产生的机器指令质量有关

有些算法是不能事后再统计的

如：导弹控制算法

为了排除与算法本身无关的外界因素，我们需要进行事前预估算法时间开销T(n)与问题规模n的关系（T表示“time”）。

默认每一行基本语句执行耗费的时间相同。

渐进时间复杂度只保留最高阶项，并忽略其系数。

算法的性能问题只有在n很大时才会暴露出来。

加法规则：多项相加，只保留最高阶的项，且系数变为1
乘法规则：多项相乘，都保留

阶数比较规则：“常对幂指阶”

\(O(1) < O(\log_2{n}) < O(n) < O(n\log_2{n}) < O(n^2) < O(n^3) < O(2^n) < O(n!) < O(n^n)\)

其他规则：

顺序执行的代码可以忽略
对于循环执行的代码，只需挑循环中的一个基本操作分析它的执行次数与n的关系即可
对于嵌套循环代码，只需关注最深层循环循环了几次
对于带有条件执行分支的代码，时间复杂度会根据代码是否被执行分为最好时间复杂度、最坏时间复杂度、平均时间复杂度，常用的是后两者
- 最坏时间复杂度：考虑输入数据使得时间复杂度最大的情况
- 平均时间复杂度：考虑所有输入数据都等概率出现的情况
- 最好时间复杂度：考虑输入数据使得时间复杂度最小的情况

基本计算步骤：

找到最深层循环的一个基本操作来分析其执行次数
利用上面的规则进行对执行次数估计/化简
得到的结果就是该算法的时间复杂度

空间复杂度

空间复杂度是指空间开销（内存开销）与问题规模n之间的关系。

算法的空间开销主要包括：

程序代码指令占用空间（始终与问题规模无关）
局部变量占用空间

因此，只需关注存储空间大小与问题规模相关的变量，变量的具体类型也可以忽略。

递归函数调用自身时，局部变量并不是共享的，因此调用了几次就会申请多少次的空间。

渐进空间复杂度同样只保留最高阶项，并忽略其系数。

加法规则、乘法规则、阶数比较规则也和时间复杂度相同。

非递归型程序的基本计算步骤：

找到所占空间大小与问题规模相关的变量
分析所占空间与问题规模的关系
所占空间的最高阶（忽略系数）就是算法空间复杂度

递归型程序的基本计算步骤：

找到递归调用的深度与问题规模的关系

用到非递归型程序的基本计算步骤
所占空间的最高阶（忽略系数）就是算法空间复杂度