HTTP是如何使用TCP连接的

TCP基础简介

  1. TCP(传输控制协议)(英语:Transmission Control Protocol,缩写:TCP)是一种面向连接的、可靠的、基于字节流传输层通信协议

  2. TCP连接为HTTP提供了一条可靠的比特传输管道,从TCP连接一端填入的字节会从另一端以原有的顺序正确的传送出来。

  3. TCP流是分段的、由ip分组传输。

  4. TCP的数据是通过名为IP分组(或IP数据报)的小数据块来发送的。

  5. HTTPS只是比HTTP在应用层和传输层之间多了一层安全层


    HTTP和HTTPS网络协议栈
  6. ip分组及tcp段在书中由详细图介绍,值得注意的是TCP的首部中有一些用于数据排序和完整性检查的标记。

  7. 一个tcp连接需要源ip、源端口、目的IP地址、目的端口。当这四个值相同时,该tcp连接是唯一的。

概述

HTTP要出传送一条报文时,会以流的形式将报文数据的内容通过一条打开的TCP连接按序传输。TCP收到数据流之后,会将数据流砍成被称作段的小数据块,封装在IP分组中通过因特网进行传输。

详细

  1. 服务端创建好套接字(socket)
  2. 将套接字绑定到端口上去(bind)
  3. 允许套接字进行连接(listen)
  4. 等待连接(accept)
  5. 客户端获取ip地址及端口号(get)
  6. 创建新的套接字(socket)
  7. 连接到服务器到socket(connect),此时服务器通知应用程序由连接到来并开始读取请求。
  8. 发送http请求并等待http响应,服务器应用程序处理http请求报文并回送http响应。最后关闭连接。
  9. 客户端也关闭连接。


    TCP客户端是如何通过TCP套接字接口进行通信的

什么是套接字

TCP用主机的ip和端口号作为连接的断点,这个端点就叫做套接字。用ip:port表示。

一次http事务中影响到连接时间可能是哪些原因?

  1. DNS解析
  2. tcp连接建立时间
  3. 建立tcp连接后请求报文的传输时间、服务器读取并处理请求报文的时间
  4. 服务器返回给客户端的响应报文传输时间

总的来说取决于硬件速度、网络及服务器的负载、请求及响应报文的尺寸、客户端到服务器的距离、TCP协议技术的复杂性。

TCP连接的时延、瓶颈以及存在的障碍

TCP连接中由哪些原因会导致时延?

  1. TCP连接建立握手
  2. 延迟确认

详细解释下TCP三次握手?

在建立连接之前,TCP需要传送两个IP分组(a、b)来建立连接
  1. 第一次握手:客户端发送一个IP分组,分组中含有SYN(Synchronize Sequence Numbers同步序列编号)标记。该标记的作用是说明这是一个连接请求。
  2. 第一次握手:服务端收到该分组,并获取其连接参数。返回SYN标记和ACK(Acknowledgement 确认)标记。ACK标记的作用是说明该连接已被接受。
  3. 第三次握手:最后,客户端再向服务器发送一条确认信息,表示此次连接已经建立。(现代的TCP协议都允许在此IP分组中发送数据)

TCP为什么是三次握手,而不是两次或四次?

什么是延迟确认

每个TCP段都有一个序列号和完整性校验和。接收者收到后需要向发送者返回一个确认分组,以标识该分组已被收到。如果接收者没有收到该确认分组,则任务该分段已破损或者丢失,则会重发该分组。这就是确认。

关于延迟确认:由于该确认报文很小,因此允许在其他发往相同方向的tcp段上捎带。延迟确认算法会在一个特定的窗口时期(100ms-200ms),将确认分组放到缓冲区,以寻找可以捎带它的分组,如果没等到,那就成为一个独立分组发往发送者。

什么是缓冲区

缓冲区(Buffer)又称为缓存(Cache),是内存空间的一部分。
也就是说,在内存中预留了一定的存储空间,用来暂时保存输入或输出的数据,这部分预留的空间就叫做缓冲区。

为什么要引入缓冲区

什么是TCP慢启动

为了防止网络的突然过载和拥塞,TCP对新的连接有速度限制。刚开始连接时,需要先发送一个分组等待确认,确认成功就可以发送之前两倍大小的报文。可以理解为有一个窗口大小,默认是最小的,多发一次,窗口就变大一倍,直到慢启动门限变量值(就是一个常量,限制慢启动的最大值)。这个速度其实是很快的,每次都是两倍速度往上翻。

什么是拥塞避免

等到限制变为慢启动门限变量值时,为了避免增长速度过快,变成以加法的形式线性增长。

什么是超时重传

上面的两个机制都是在没有拥塞的情况下增长的,要是拥塞了如何调整窗口值呢?
首先看tcp如何判定网络进入拥塞状态:TCP的主要依据是发送端重发TCP段。TCP对每个报文段都有一个定时器叫做重传定时器,当这个定时器超时还没有得到数据确认,那么TCP就会将该分组进行重传。当发生超时时,重传的可能性很大,这个时候,TCP就会有以下强烈反应:

  1. 将慢启动门限变量值降低一倍
  2. 将窗口值重新设为1
  3. 重新进入慢启动
    这样就保证了各个流之间的公平性。

什么是快速重传以及三次ACK的由来?

Nagle算法解决的问题?

每个TCP段至少装载了40个字节的标记和首部,如果该分组中数据量很少,那么网络性能就会很低。也会影响其他的因特网流量。这个算法就是来解决这个问题的。它在一定条件下才允许发送非全尺寸的分组。不过也会带来性能问题,比如它可能一直会等待数据来填满一个分组,虽然有延迟界限,比如100ms-200ms,但总归速度降低。一般情况下,会设置TCP_NODELAY参数来提高性能,同时确保分组数据块但大小。

HTTP的优化,包括并行连接、keep-alive(持久连接)和管道化连接

  • 并行连接
    如果带宽有限,并行连接不一定能减少加载时间,并且并行连接导致内存占用过高导致自身性能问题。服务器性能也会降低。所以浏览器会限制连接总数。服务器也可以关闭来自特定客户端的超量连接。
  • connection首部:keep-alive
    因为一个页面上可能加载同一服务器的资源,TCP建立连接和关闭连接耗时较多,存在TCP慢启动但特性,同时可打开但并行数量有限。这个首部1996年就被提出了,被HTTP1.0实现,HTTP1.1中做了很多问题修正,最新版本是persistent连接。connection:keep-alive是这样的,客户端请求带上这个首部,服务器同样需要返回,如果服务器不返回,那么客户端任务该服务器不支持keep-alive,则关闭连接。必须保证返回的content-length是正确的,否则没法保证前一次连接的结束和新连接的开始。
  • keep-alive
    只有开启了connection:keep-alive才有效。并且此首部可选
    响应首部中的timeout参数代表服务器估计的保持连接活跃时间,注意这不是承诺值。
    响应首部中的max参数估计了服务器还希望多少个事务保持此连接的活跃状态,注意不是个承诺值。
connection: Keep-Alive
Keep-Alive: max=5, timeout=120

表示最多再为其他5个事务保持连接打开状态。

管理连接时应该以及不应该做的事情