互联网

正式名称是 Internet,“上网” 实际上是访问互联网的子集 万维网,它基于 HTTP 协议,传输 HTML 等超文本资源

还有许多万维网之外的资源,例如 电子邮件,BT,FTP,SSH等,需要各自专有协议访问

浏览器

Web Browser,检索查看互联网网页资源的应用程序。在 HTTP 协议中,被称为 User Agent,意思是作为访问者的代理发起 HTTP 请求

Web服务器

  • 硬件:物理形式 或 “云”形式的机器

  • 软件:提供 web服务的应用程序,利用强大的硬件能力响应海量客户端 HTTP 请求,或者把请求转发给后面的业务应用,例如 Apache,Nginx等

CDN

Content Delivery Network(内容分发网络),可以缓存源站的数据,让浏览器的请求不用千里迢迢到达源站服务器,直接在半路就可以获取响应。除了网络加速外,还提供 负载均衡,安全防护,边缘计算等功能

爬虫

像一只不知疲倦的蚂蚁,不停在网站间奔走,搜集抓取各种信息。

大部分爬虫由搜索引擎放出,抓取网页存入数据库,建立关键字索引,方便我们搜索互联网页面

WAF

网络应用防火墙,是应用层面的防火墙,专门检测 HTTP 流量,防护 web应用的安全技术。

位于 Web 服务器之前,阻止 SQL注入,跨站脚本等攻击

TCP/IP

网络通信协议栈,由四层组成,最上层是 应用层,最下层是 链接层,TCP和IP位于中间,TCP属于 传输层,IP 属于 网际层

HTTP 是一个传输协议,不关心寻址,路由,数据完整性等传输细节,这些工作都有下层来处理。而 TCP/IP 协议刚好满足 HTTP 的要求,所以 HTTP 协议就运行在了 TCP/IP 上,也叫作 HTTP over TCP/IP

DNS

TCP/IP 协议使用 IP 地址来表示计算机,数字形式的地址对于计算机来说方便了,对于人类来说却难以记忆,于是 域名系统(Domain Name System),用有意义的名字代替 IP 地址

域名又称为 主机名,为了更好标记不同国家或阻止的主机,被设计成了一个有层次的结构,域名用 . 分割,级别从左到右逐级升高,最右边被称为 顶级域名。例如,代表公司的 .com,代表教育机构的 .edu,代表国家的 .cn

URI/URL

DNS 和 IP 地址只是标记了互联网上的主机,但是主机上有那么多文本,图片,页面,到底要找哪一个呢?

所以出现了 URI 统一资源标识符,能够唯一地标记互联网上的资源,URI 另一个更常用的表现形式是 URL,统一资源定位符,它是 URI 的一个子集。

URL有三部分构成:

  1. 协议名:https / http
  2. 主机名:可以是 域名 或 IP地址
  3. 路径:资源和主机上的位置

HTTPS

HTTP over SSL/TLS,也就是运行在 SSL/TLS 协议上的 HTTP

SSL/TLS

Secure Socket Layer,由网景公司发明,是一个负责加密通信的安全协议,建立在 TCP/IP 之上,可以被用作 HTTP 的下层。当发展到 3.0 时被标准化,改名为 TLS,由于历史原因很多人称之为 SSL/TLS

综合对称加密,非对称加密,摘要算法,数字签名,数字证书等技术,能够在不安全的环境中为通信双方创建一个秘密的,安全的传输通道

代理

proxy,是 HTTP 协议中请求方和应答方中间的一个环节,既可以转发客户端的请求,也可以转发服务器的响应。代理有很多种类,常见的有:

  • 匿名代理:完全隐匿被代理的机器,外界只能看到代理服务器
  • 透明代理:传输过程中 透明开放,外界即知道代理,也知道客户端
  • 正向代理:代表客户端向服务器发送请求
  • 反向代理:代表服务器响应客户端的请求

CDN:代替源站服务器响应客户端的请求,通常扮演透明代理和反向代理