Linux 用 select/poll/epoll 函数实现 IO 复用模型,这些函数也会使进程阻塞,但是和阻塞IO所不同的是 这些函数可以同时阻塞多个IO操作。而且可以同时对多个读操作、写操作的IO函数进行检测。直到有数 据可读或可写时,才真正调用IO操作函数。

select/poll:本质上是通过设置或者检查存放fd标志位的数据结构来进行下一步处理。

  • select最大的缺陷就是单个进程所打开的FD是有一定限制的,它由FD_SETSIZE设置,默认值是1024。

  • 对socket进行扫描时是线性扫描,即采用轮询的方法,效率较低。

  • 需要维护一个用来存放大量fd的数据结构,这样会使得用户空间和内核空间在传递该结构时复制开销大。

epoll

由于epoll的实现机制与select/poll机制完全不同,上面所说的 select的缺点在epoll上不复存在。epoll给出了一个新的模式,直接申请一个epollfd的文件,对这些进行统一的管理,初步具有了面向对象的思维模式。可理解为event poll,epoll会把哪个流发生哪种I/O事件通知我们。所以epoll是事件驱动(每个事件关联fd)的,此时我们对这些流的操作都是有意义的。复杂度也降低到了O(1)。

epoll通过在Linux内核中申请一个简易的文件系统(文件系统一般用什么数据结构实现?B+树)。把原先的select/poll调用分成了3个部分:调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)调用epoll_ctl向epoll对象中添加这些连接的套接字调用epoll_wait收集发生的事件的连接如此一来只需要在进程启动时建立一个epoll对象,然后在需要的时候向这个epoll对象中添加或者删除连接。同时,epoll_wait的效率也非常高,因为调用epoll_wait时,并没有一股脑的向操作系统复制这些连接的句柄数据,内核也不需要去遍历全部的连接。当某一进程调用epoll_create方法时,Linux内核会创建一个eventpoll结构体,这个结构体中有两个成员与epoll的使用方式密切相关。eventpoll结构体如下所示:

struct eventpoll{
....
/*红黑树的根节点,这颗树中存储着所有添加到epoll中的需要监控的事件*/
struct rb_root  rbr;
/*双链表中则存放着将要通过epoll_wait返回给用户的满足条件的事件*/
struct list_head rdlist;
....
};

每一个epoll对象都有一个独立的eventpoll结构体,用于存放通过epoll_ctl方法向epoll对象中添加进来的事件。这些事件都会挂载在红黑树中,如此,重复添加的事件就可以通过红黑树而高效的识别出来(红黑树的插入时间效率是lgn,其中n为树的元素数量)。而所有添加到epoll中的事件都会与设备(网卡)驱动程序建立回调关系,也就是说,当相应的事件发生时会调用这个回调方法。这个回调方法在内核中叫ep_poll_callback,它会将发生的事件添加到rdlist双链表中。在epoll中,对于每一个事件,都会建立一个epitem结构体,如下所示:

struct epitem{
struct rb_node  rbn;//红黑树节点
struct list_head    rdllink;//双向链表节点
struct epoll_filefd  ffd;  //事件句柄信息
struct eventpoll *ep;    //指向其所属的eventpoll对象
struct epoll_event event; //期待发生的事件类型
}

当调用epoll_wait检查是否有事件发生时,只需要检查eventpoll对象中的rdlist双链表中是否有epitem元素即可。如果rdlist不为空,则把发生的事件复制到用户态,同时将事件数量返回给用户。

epoll通过内核和用户空间共享一块内存来实现消息传递,epoll_create 会创建一个 epoll 实例,同时返回一个引用该实例的fd(文件描述符)。所以在使用完 epoll 后,必须调用 close() 关闭对应的文件描述符。epoll_ctl 绑定fd指向epoll实例,就是要监听的fd和event,将文件描述符 fd 添加到 epoll 实例的监听列表(红黑树),同时为 fd 设置一个回调函数,并监听事件 event。当 fd 上发生相应事件时,会调用回调函数,将 fd 添加到 epoll 实例的就绪队列(rdlist双链表)上。epoll_wait就相当于select,epoll_ctl 中为每个文件描述符指定了回调函数,并在就绪时将其加入到就绪队列(rdlist双链表),因此 epoll 不需要像 select 那样遍历检测每个文件描述符,只需要判断就绪列表(rdlist双链表)是否为空即可。这样,在没有描述符就绪时,epoll 能更早地让出系统资源。