1.数据结构与算法之美（入门篇）

一、为什么要学习数据结构和算法
1.建立时间复杂度、空间复杂度意识、写出高质量的代码，能够设计基础架构、提升编程能力、训练逻辑思维
2为什么学习数据结构和算法？我认为有3点比较重要
a直接好处是能够有写出性能更优的代码。
b算法，是一种解决问题的思路和方法，有机会应用到生活和事业的其他方面。
c长期来看，大脑思考能力是个人最重要的核心竞争力，而算法是为数不多的能够有效训练大脑思考能力的途径之一
二、
图片说明
10 个数据结构：数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie 树；10 个算法：递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符字符串匹配算法。
三、为什么需要复杂度分析？
事后统计法：通过把代码跑一遍，通过统计、监控得到的算法执行的时间和占用的内存大小。
**但是事后统计法

1.测试结果非常依赖测试环境
测试环境中的硬件不同会对测试结果有很大的影响。如不同的处理器；不同的机器
2.测试结果受数据规模的影响很大
对于同一个排序算法，待排序数据的有序度不一样，排序的执行时间就会有很大的差别。
如：数据已经有序，那么排序算法不需要做任何操作，执行时间就会非常短；如果数据规模非常小，测试结果可能无法真实的反应算法的性能。（对于小规模的数据排序，插入排序可能反倒会比快速排序要快）
3.大O复杂度表示法
例1：
int cal(int n) {
int sum = 0; //执行1遍
int i = 1; //执行1遍
for (; i <= n; ++i) { //执行n遍
sum = sum + i; //执行n遍
}
return sum;
}
如果每个执行代码需要时间 unit_time，执行次数为 (2n+2)
那么执行时间为 (2n+2)unit_time
例2：
int cal(int n){
int sum=0; //执行1遍
int i=1; //执行1遍
int j=1; //执行1遍
for(;i<=n;++i){ //执行n遍
j=1; //执行n遍
for(;j<=n;++j){ //执行n^2遍
sum=sum+ij; //执行n^2遍
}
}
}
如果每个执行代码需要的时间为unit_time,执行次数为(3+2n+2n^2)
那么执行的时间为（3+2n+2n^2)*unit_time
----虽然我们不知道unit_time的具体的值，但是我们可以得到一个重要的规建:
所有的代码执行时间T(n)与每行代码的执行次数n成正比
总结公式为：
T（n)=O(f(n))
//n表示数据规模的大小;f(n)表示每行代码执行的次数总和;
公式中的O,表示代码执行时间T(n)与f(n)表达式成正比
所以例1中T(n)=O(2n+2)
例2中T(n)=O(3+2n+2n^2)
这就是大O时间复杂度表示法.(大O时间表示法实际上并不是具体代表代码真正的执行时间,而是表示代码执行时间随数据规模的增长变化趋势,所以也叫渐进时间复杂度)
4.时间复杂度分析
如何具体分析一段代码的时间复杂度
a.只关注循环执行次数最多的一段代码
b.加法法则:总复杂度等于量级最大的那段代码的复杂度
例:
int cal(int n) {
int sum_1 = 0;
int p = 1;
for (; p < 100; ++p) {
sum_1 = sum_1 + p; //执行了100遍
}

int sum_2 = 0;
int q = 1;
for (; q < n; ++q) {
sum_2 = sum_2 + q; //执行了n遍
}

int sum_3 = 0;
int i = 1;
int j = 1;
for (; i <= n; ++i) {
j = 1;
for (; j <= n; ++j) {
sum_3 = sum_3 + i * j;
} //执行了n^2遍
}

return sum_1 + sum_2 + sum_3;
}

强调:即使有一段代码循环了10000次、100000次，只要是一和已知的数，跟n无关，照样也是常量级的执行时间。当n无限大的时候，就可以忽略。尽管对代码的执行时间会有很大影响，但是回到时间复杂度的概念来说，他表示的是一个算法执行效率与数据规模增长的变化趋势，所以不管常量执行时间多大，我们都可以忽略掉。因为他本身与增长的趋势并没有影响。
第二段代码时间复杂度：T(n)=O(n)
第三段代码时间复杂度: T(n)=O(n^2)
综合这三段代码的时间复杂度，我们取其中最大的量级。所以整段代码的时间复杂度就为O(n^2)
也就是说总的时间复杂度就等于量级最大的那段代码的时间复杂度。
T2(n)=O(f(n))
T3(n)=O(g(n))
那么T(n)=T2(n)+T3(n)=max(O(f(n)),O(g(n)))=O(max(f(n),g(n)))
c乘法法则：嵌套代码的复杂度等于嵌套内外代码复杂度的乘积
例：
int cal(int n) {
int ret = 0;
int i = 1;
for (; i < n; ++i) {
ret = ret + f(i);
}
}

int f(int n) {
int sum = 0;
int i = 1;
for (; i < n; ++i) {
sum = sum + i;
}
return sum;
}
整个 cal() 函数的时间复杂度就是，T(n) = T1(n) * T2(n) = O(n*n) = O(n2)
5.几种常见时间复杂度实例分析
粗略分为两类：多项式量级和非多项式量级
其中，非多项式量级只有两个：O(2^n)和O(n!).
我们把时间复杂度为非多项式量级的算法问题叫做NP（非确定多项式）问题。
（当数据规模n越来越大的时候，非多项式时间复杂度的算法式非常低效的算法）

多项式时间复杂度：
a.
O(1)
O(1) 只是常量级时间复杂度的一种表示方法,并不是指只执行了一行代码。比如这段代码，即便有 3 行，它的时间复杂度也是 O(1），而不是 O(3)。
[只要代码的执行时间不随n的增大而增大，这样代码的时间复杂度我们都记作O(1).
一般情况下，只要算法中不存在循环语句、递归语句，即使有成千上万行的代码，其时间复杂度也是Ο(1)。]
b.
O(logn）、O(nlogn)
对数阶时间复杂度非常常见，同时也是最难分析的一种时间复杂度。
例：
i=1;
while (i <= n) {
i = i * 2;
}
第三行是循环执行次数最多的，所以，我们只要能计算出这行代码被执行了多少次，就能知道整段代码的时间复杂度。
实际上，变量i的取值就是一个等比数列。如下：

图片说明
因此，我们只要知道X值是多少，就知道这行代码的执行次数了。即2^x=n,所以x=log2^n
所以这段代码的时间复杂度就是O(log2^n)
为什么我们把所有的对数阶的时间复杂度都记为O(logn)
**因为对数是可以互相转换的,log3^n就等于log3^2log2^n,所以所以 O(log3n) = O(C * log2n)，其中C=log32 是一个常量.基于我们前面的理论:在采用大O变价复杂度时候,可以忽略系数.即即 O(Cf(n)) = O(f(n))。因此在对数阶时间复杂度的表示方法中,我们忽略对数的'底',统一表示为O(logn).

如果你理解了我前面讲的 O(logn)，那 O(nlogn)就很容易理解了。还记得我们刚讲的乘法法则吗？如果一段代码的时间复杂度是 O(logn)，我们循环执行 n 遍，时间复杂度就是 O(nlogn) 了。而且，O(nlogn) 也是一种非常常见的算法时间复杂度。比如，归并排序、快速排序的时间复杂度都是 O(nlogn)。
c.
O(m+n)和O(m*n)
码的复杂度由两个数据的规模来决定
例：
int cal(int m, int n) {
int sum_1 = 0;
int i = 1;
for (; i < m; ++i) {
sum_1 = sum_1 + i;
}

int sum_2 = 0;
int j = 1;
for (; j < n; ++j) {
sum_2 = sum_2 + j;
}

return sum_1 + sum_2;
}
由代码可以看出，m和n是表示两个数据规模。我们在无法实现估计m和n谁的量级大，所以在表示复杂度的时候，就不能简单的利用加法法则去省略其中的一个。所以，上面的代码时间复杂度就是O(m+n).
针对这种情况，原来的加法法则就不正确了，我们需要把加法规则改为：T1(m)+T2(n)=O(f(m)+g(n)).
但是乘法法则依旧有效T1(m)*T2(n) = O(f(m) * f(n))。
四、空间复杂度分析
空间复杂度全称就是渐进空间复杂度，表示算法的存储空间与数据规模之间的增长关系
void print(int n) {
int i = 0;
int[] a = new int[n];
for (i; i <n; ++i) {
a[i] = i * i;
}

for (i = n-1; i >= 0; --i) {
print out a[i]
}
}
跟时间复杂度分析一样，我们可以看到，第 2 行代码中，我们申请了一个空间存储变量 i，但是它是常量阶的，跟数据规模 n 没有关系，所以我们可以忽略。第 3 行申请了一个大小为 n的 int 类型数组，除此之外，剩下的代码都没有占用更多的空间，所以整段代码的空间复杂度就是 O(n)。我们常见的空间复杂度就是 O(n)。

---内容小结
复杂度也叫渐进复杂度，包括空间复杂度和时间复杂度，用来分析算法执行效率与数据规模之间的增长关系。（越是高阶复杂度的算法，执行效率越低）
常用的数据结构和算法的复杂度从低阶到高阶：
O(1)、O(logn)、O(n)、O(nlogn)、O(n^2)

图片说明
四、四个复杂度分析
最好情况时间复杂度：在最理想的情况下，执行这段代码的时间复杂度
最坏情况时间复杂度：在最糟糕的情况下，执行这段代码的时间复杂度
平均情况时间复杂度（加权平均时间复杂度/期望时间复杂度）：为了更好表示平均情况下的复杂度
均摊时间复杂度