万级并发的秘密：一文彻底搞懂 Linux Epoll

在高并发网络编程中，如何高效地处理大量连接是一个核心问题。Linux 提供的 `epoll` 机制，正是解决这一问题的利器。本文将深入剖析 epoll 的设计原理、核心 API 以及触发模式的区别，帮助你理解为什么 epoll 能够支撑起万级并发，也就是著名的 C10K 问题。

## 一、为什么需要 epoll？—— select/poll 的性能瓶颈

在 `epoll` 出现之前，Linux 主要使用 `select` 和 `poll` 来实现 I/O 多路复用。然而，当需要处理大量（$N$ 个）连接时，它们存在两个致命的性能瓶颈：

### $O(N)$ 的遍历开销

每次调用 `select` 或 `poll` 时，内核都必须**遍历检查所有 $N$ 个文件描述符（FD）**，以找出哪些是就绪的（可读/可写）。即使只有 1 个连接有数据到达，内核也要检查全部 $N$ 个 FD，这是极大的性能浪费。

### $O(N)$ 的拷贝开销

每次调用都需要将**完整的 $N$ 个 FD 列表从用户空间拷贝到内核空间**。当连接数达到数万时，这种频繁的内存拷贝会成为严重的性能负担。

## 二、epoll 的解决方案：持久化管理与高效数据结构

`epoll` 的设计理念很简单但很高明：**既然 FD 列表变化不频繁，为什么每次都要重新传递呢？**

于是，`epoll` 针对这两个问题分别设计了解决方案：

### 解决拷贝开销：持久化注册

**核心思想**：程序只需在内核中**注册一次**感兴趣的 FD 列表，之后调用 `epoll_wait` 时**不需要再传递整个列表**。

epoll 通过 `epoll_create` 在内核中创建一个持久化的实例，所有被监听的 FD 都存储在这个实例中。应用程序通过 `epoll_ctl` 增删改 FD，而不是每次调用时都传递完整列表。

这种"注册一次，长期有效"的设计，彻底消除了 $O(N)$ 的拷贝开销。

### 解决遍历开销：红黑树 + 就绪列表

遍历开销体现在两个地方，epoll 分别用两种数据结构来解决：

#### 红黑树：高效管理 FD

当调用 `epoll_ctl` 增删改 FD 时，需要快速定位目标 FD。epoll 使用**红黑树**来存储所有被监听的 FD，使得每次操作的时间复杂度稳定在 $O(\log N)$，可能你会好奇为什么不用哈希表。

固然，从纯粹的算法时间复杂度来看，哈希表的查找/插入/删除平均复杂度是 $O(1)$，确实要比红黑树的 $O(\log N)$ 要快。但在内核场景下，理论最快并不等于工程最优，就好像贪心得到的是局部最优解一般。下面从几个维度告诉你为什么会选择红黑树

##### 动态扩容成本

哈希表的动态扩容的成本是它在内核场景下最大的劣势，哈希表一般基于数组（Bucket），我们假设连接数从 10K 增加至 100K 甚至 1000K 时，哈希表就不可避免地需要扩容 (Rehash)。

哈希表的扩容需要申请一块更大的内存，然后把旧表里的所有数据重新计算 Hash 并移动过去，这是一个 **$O(N)$** 的操作。在内核态中，这种瞬间的大量计算和内存操作会造成剧烈的系统抖动 (Jitter)，导致那一瞬间的 `epoll_ctl` 的响应时间急剧增加，这是不可接受的。

而红黑树则是动态生长的，每插入一个节点，只需要少量的指针操作，它没有扩容的概念，性能曲线非常平滑，而不会像哈希表在某个时刻突然 Rehash 造成卡顿。

##### 内存利用率

`epoll` 需要适应各种规模的场景（从监听几个 FD 到监听几万个 FD）。

哈希表为了减少哈希冲突以尽可能维持 $O(1)$ 的性能，通常会预分配比实际数据量大的内存。这就会产生一些问题：

- 如果预分配得太大，对于只有几个连接的情况会造成巨大的内存浪费。
- 如果预分配太小，又会频繁触发扩容。

内核无法预测用户会创建多少个连接，因此很难预分配一个完美的初始大小。

而红黑树则是用多少拿多少，它不需要预分配连续的内存，因此对内存的利用率可以说是100%的。

##### 确定性

内核开发非常看重可预测性 (Predictability)。

哈希表的时间复杂度虽然平均是 $O(1)$，但在最坏情况下会退化成链表 $O(N)$，虽然可以通过良好的 Hash 函数缓解，但风险依然存在。而红黑树的时间复杂度有着严谨的数学证明，无论数据如何分布，查找、插入、删除永远都稳定在 $O(\log N)$。对于内核而言，“稳定的慢”往往比“不稳定的快”要优。

> 💡 **小知识** $O(\log N)$ 其实并不慢，假设数据量为 100 万，$\log_2(10^6) \approx 20$，单次操作也仅仅需要进行约 20 次比对。

##### 总结

|特性|哈希表 (Hash Table)|红黑树 (RB-Tree)|Epoll 的选择|
|----|----|----|----|
|平均查找速度|$O(1)$|$O(\log N)$|红黑树够用了|
|最坏查找速度|$O(N)$（冲突时）|$O(\log N)$|红黑树胜|
|内存开销|高 (预分配 bucket，存在内存空洞)|低 (按需分配)|红黑树胜|
|扩容成本|极高 (Rehash 抖动)|无 (平滑增长)|红黑树胜|
|数据量适应性|低 (需预估大小)|高 (自适应)|红黑树胜|

虽然哈希表在理想时间优于红黑树，但红黑树在省内存、无扩容抖动、性能稳定这三点上更符合操作系统内核对资源管理的需求。

#### 就绪列表：$O(K)$ 获取就绪事件

红黑树解决了 FD 管理的效率问题，但还有一个问题：当调用 `epoll_wait` 时，如何快速找出哪些 FD 已经就绪？

`epoll_wait` 的高性能秘密就在于就绪列表。epoll 实例在内核中除了用红黑树来存储所有注册的 FD 外，还有一个链表（或链队），专门用来存放已就绪的 FD。我们称之为就绪列表。当内核发现一个被监听的 FD 上有 I/O 事件发生时（比如数据到达），它不会等到应用程序调用 epoll_wait，而是会通过红黑树定位该 FD，并将其事件信息追加到就绪列表。

所以，当应用程序调用 `epoll_wait` 时，它要做的全部工作就是：**检查并取出就绪列表中的元素**。

##### 效率对比

- select/poll: 必须遍历全部（$N$ 个）FD 才能找到 K 个就绪的，所以它的时间复杂度是 $O(N)$。
- epoll: 直接从就绪列表就能取出 K 个就绪的，所以它的时间复杂度是 $O(K)$（其中 $K \ll N$）。

这就是 epoll 能实现万级并发，将时间复杂度从线性 $O(N)$ 降到与就绪事件数成正比的 $O(K)$（$K \ll N$，低就绪率时近似常数）的关键。

## 三、epoll 的三大核心 API

了解了设计原理和数据结构后，接下来我们来看看 epoll 提供的三个核心 API，它们是应用程序与内核交互的桥梁。

### `epoll_create`：创建 epoll 实例

**`epoll_create`** 是实现持久化的**第一步，也是最关键的一步**

```c
int epoll_create1(int flags) // 新接口，传入 flags，用于在创建时设置文件描述符的属性。
int epoll_create(int size);  // 旧接口，size 在现代内核中已被忽略，但必须大于 0
```

`epoll_create` 的作用，是在 Linux 内核中创建一个 `epoll` 实例（即持久化的 **红黑树** 和 **就绪列表**），并返回一个特殊的 **`epfd`** (epoll 文件描述符)。这个 `epfd` 就是应用程序和内核中的这个 `epoll` 实例交流的**唯一凭证**。

现在，实例已经创建好了，我们该如何让内核知道我们想要监听的客户端 FD 呢？

### `epoll_ctl`：管理监听的 FD

有了 epoll 实例后，我们需要告诉内核：我们想监听哪些 FD，以及关心它们的什么事件。这就是 `epoll_ctl` 的职责。

```c
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
```

`epoll_ctl` 提供三种操作来管理 FD 集合：

| 操作         | 常量              | 说明                                                               |
| ------------ | ----------------- | ------------------------------------------------------------------ |
| **增** | `EPOLL_CTL_ADD` | 将一个新的 FD 添加到红黑树中进行监听                               |
| **删** | `EPOLL_CTL_DEL` | 从红黑树中移除不再需要监听的 FD                                    |
| **改** | `EPOLL_CTL_MOD` | 修改某个 FD 监听的事件类型（如从只监听可读改为同时监听可读和可写） |

由于 FD 存储在红黑树中，每次增删改操作的时间复杂度都是 $O(\log N)$，非常高效。

### `epoll_wait`：等待事件发生

```c
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
```

`epoll_wait` 负责等待事件发生，当有 FD 就绪时，它会从就绪列表中取出事件信息，填充到 `events` 数组中，并返回就绪的 FD 数量。

**参数说明：**

- `epfd`：epoll 实例的文件描述符
- `events`：用于接收就绪事件的数组
- `maxevents`：数组的最大容量。
  > 💡 **提示**：如果就绪的 FD 数量超过 `maxevents`，`epoll_wait` 会分批返回。未返回的 FD 会保留在就绪列表中，在下一次调用 `epoll_wait` 时继续返回。这一点 **LT 和 ET 模式是一样的**。区别在于：
  > - **LT**：如果你处理了 FD 但没读完数据，下次还会返回。
  > - **ET**：如果你处理了 FD 但没读完数据，下次**不会**返回（除非有新数据到达）。

至此，epoll 的基础知识已经讲完了，现在进入触发模式的区别

## 四、触发模式：LT vs ET

epoll 提供了两种事件通知模式：

1. Level-Triggered (LT)：水平触发
2. Edge-Triggered (ET)：边缘触发

我们可以将它类比为数字电路中的触发方式：

- LT 就像高电平触发，只要 FD 处于就绪状态 (高电平)，epoll_wait 就会持续地通知。
- ET 就像上升沿触发，只有 FD 的状态从非就绪变为就绪那一刻 (事件的发生，上升沿) 才会通知一次。

LT 的编程通常相对更简单更安全，如果程序在这次只读了部分数据，在下一次调用 epoll_wait 时仍会继续通知你，直到把所有的数据读完。而 ET 的编程虽然更复杂，但效率更高。因为它只会通知你一次，你需要确保在这次通知中把所有的数据都读完。如果还有数据没处理，epoll 也不会再通知你，直到下一个事件 (上升沿) 再次发生。

效率上，由于 ET 模式减少了重复通知带来的系统调用次数，因此更适合进行高性能的开发。

这里提供一个更形象的流程：
我们假设一个客户端连接一次性发来了 2000 字节数据，但你的接收缓冲区只有 1000 字节。

| 模式          | 第一次 epoll_wait 返回 | 应用程序操作                     | 第二次 epoll_wait 返回                                                                                                          |
| ------------- | ---------------------- | -------------------------------- | ------------------------------------------------------------------------------------------------------------------------------- |
| LT (水平触发) | ✅ 通知 FD 可读        | 读取 1000 字节，还剩 1000 字节。 | ✅**继续通知**（FD 仍处于“可读”状态）                                                                                   |
| ET (边缘触发) | ✅ 通知 FD 可读        | 读取 1000 字节，还剩 1000 字节。 | ❌**不会通知**，因为 FD 状态没有再次从“非就绪”变为“就绪”。你需要自己循环读取直到返回 EAGAIN/EWOULDBLOCK (缓冲区空了)。 |

> ⚠️ **注意**：使用 ET 模式时，通常需要将 FD 设置为**非阻塞模式**，并在循环中读取直到返回 `EAGAIN`。否则剩余数据虽然仍在内核缓冲区，但不会再次触发事件，导致应用可能误以为“没有数据”。

## 五、最小LT和ET实现

为了更直观地理解这两种模式的区别，下面提供了最小化的代码实现示例。

### LT 模式

LT 模式是默认模式，代码编写相对简单。即使一次没有读完所有数据，内核也会在下一次 `epoll_wait` 时继续通知。

阻塞 I/O 下 `read` 不会返回 `EAGAIN`；但如果你把连接也设成非阻塞，记得在出错分支里特殊判断 `EAGAIN/EWOULDBLOCK`，避免重复打印错误。

```c
#include <sys/epoll.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <fcntl.h>
#include <stdio.h>
#include <arpa/inet.h> // inet_ntoa

#define MAX_EVENTS 10 // 每次 epoll_wait 最多返回的事件数

// 设置文件描述符为非阻塞
void setnonblocking(int sock) {
    int opts = fcntl(sock, F_GETFL);
    fcntl(sock, F_SETFL, opts | O_NONBLOCK);
}

int main() {
    struct epoll_event ev, events[MAX_EVENTS];

// 创建监听 Socket (TCP, IPv4)
    int listen_sock = socket(AF_INET, SOCK_STREAM, 0);
    if (listen_sock == -1) {
        perror("socket");
        return 1;
    }

// 配置监听
    struct sockaddr_in addr;
    addr.sin_family = AF_INET; // IPv4
    addr.sin_addr.s_addr = INADDR_ANY; // 监听所有网卡的 IP
    addr.sin_port = htons(8080); // 监听端口  (htons: 主机字节序转网络字节序)

if (bind(listen_sock, (struct sockaddr*)&addr, sizeof(addr)) == -1) {
        perror("bind");
        return 1;
    }

if (listen(listen_sock, SOMAXCONN) == -1) {
        perror("listen");
        return 1;
    }

int epfd = epoll_create1(0);
    if (epfd == -1) {
        perror("epoll_create1");
        return 1;
    }

// 添加监听，默认是 LT 模式
    ev.events = EPOLLIN; 
    ev.data.fd = listen_sock;
    if (epoll_ctl(epfd, EPOLL_CTL_ADD, listen_sock, &ev) == -1) {
        perror("epoll_ctl: listen_sock");
        return 1;
    }

while (1) {
        int nfds = epoll_wait(epfd, events, MAX_EVENTS, -1);
        if (nfds == -1) {
            perror("epoll_wait");
            return 1;
        }

for (int i = 0; i < nfds; ++i) {
            if (events[i].data.fd == listen_sock) { // 有新连接
                struct sockaddr_in addr;
                socklen_t addrlen = sizeof(addr);
                int conn_sock = accept(listen_sock, (struct sockaddr *) &addr, &addrlen);
                if (conn_sock == -1) {
                    perror("accept");
                    continue;
                }

printf("New connection from %s:%d\n", inet_ntoa(addr.sin_addr), ntohs(addr.sin_port));

// 设置非阻塞 (虽然 LT 模式下阻塞 I/O 也可以，但推荐非阻塞)
                setnonblocking(conn_sock);
                ev.events = EPOLLIN;
                ev.data.fd = conn_sock;

// 把新连接添加进 epoll 监听事件
                if (epoll_ctl(epfd, EPOLL_CTL_ADD, conn_sock, &ev) == -1) {
                    perror("epoll_ctl: conn_sock");
                    close(conn_sock);
                }
            } else {
                // 处理数据
                char buf[1024];
                // LT 模式下，这里可以只读一次。
                // 如果缓冲区还有数据，下一次 epoll_wait 依然会返回该 FD
                int n = read(events[i].data.fd, buf, sizeof(buf));
                if (n > 0) {
                    // 处理 buf...
                } else if (n == 0) {
                    close(events[i].data.fd);
                } else {
                    if (errno == EAGAIN || errno == EWOULDBLOCK) {
                        // 非阻塞且本次已无数据，等待下一次通知
                        continue;
                    }
                    perror("read");
                }
            }
        }
    }
    return 0;
}
```

### ET 模式

ET 模式需要显式指定 `EPOLLET`，并且**必须**配合**非阻塞 I/O (Non-blocking I/O)** 使用。在收到通知后，必须循环读取直到缓冲区为空（返回 `EAGAIN`）。

```c
#include <sys/epoll.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <fcntl.h>
#include <stdio.h>
#include <errno.h>
#include <arpa/inet.h> // inet_ntoa

#define MAX_EVENTS 10 // 每次 epoll_wait 最多返回的事件数

// 设置文件描述符为非阻塞
void setnonblocking(int sock) {
    int opts = fcntl(sock, F_GETFL);
    fcntl(sock, F_SETFL, opts | O_NONBLOCK);
}

int main() {
    struct epoll_event ev, events[MAX_EVENTS];

// 创建监听 Socket (TCP, IPv4)
    int listen_sock = socket(AF_INET, SOCK_STREAM, 0);
    if (listen_sock == -1) {
        perror("socket");
        return 1;
    }

if (bind(listen_sock, (struct sockaddr*)&addr, sizeof(addr)) == -1) {
        perror("bind");
        return 1;
    }

if (listen(listen_sock, SOMAXCONN) == -1) {
        perror("listen");
        return 1;
    }
    
    // ET 模式下，listen_sock 设置为非阻塞
    setnonblocking(listen_sock);

int epfd = epoll_create1(0);
    if (epfd == -1) {
        perror("epoll_create1");
        return 1;
    }

// 添加监听，显式指定 EPOLLET
    ev.events = EPOLLIN | EPOLLET; 
    ev.data.fd = listen_sock;
    if (epoll_ctl(epfd, EPOLL_CTL_ADD, listen_sock, &ev) == -1) {
        perror("epoll_ctl: listen_sock");
        return 1;
    }

while (true) {
        int nfds = epoll_wait(epfd, events, MAX_EVENTS, -1);
        if (nfds == -1) {
            perror("epoll_wait");
            return 1;
        }

for (int i = 0; i < nfds; ++i) {
            if (events[i].data.fd == listen_sock) { // 有新连接
                while (true) {
                    // ET 模式下处理新连接，必须循环 accept 直到 EAGAIN
                    // 因为可能同时有多个连接到达，但只触发一次事件
                    struct sockaddr_in addr;
                    socklen_t addrlen = sizeof(addr);
                    int conn_sock = accept(listen_sock, (struct sockaddr *) &addr, &addrlen);
                    if (conn_sock == -1) {
                        if (errno == EAGAIN || errno == EWOULDBLOCK) { // 所有新连接处理完了
                            break;
                        } else { // 真出错了
                            perror("accept");
                            break;
                        }
                    }

printf("New connection from %s:%d\n", inet_ntoa(addr.sin_addr), ntohs(addr.sin_port));

// 设置非阻塞
                    setnonblocking(conn_sock);
                    ev.events = EPOLLIN | EPOLLET; //监听可读 + 边缘触发
                    ev.data.fd = conn_sock;

// 把新连接添加进 epoll 监听事件
                    if (epoll_ctl(epfd, EPOLL_CTL_ADD, conn_sock, &ev) == -1) {
                        perror("epoll_ctl: conn_sock");
                        close(conn_sock);
                    }
                }
            } else {
                // ET 模式下，必须循环读取直到 EAGAIN
                while (true) {
                    char buf[1024];
                    int n = read(events[i].data.fd, buf, sizeof(buf));
                    if (n > 0) {
                        // 处理数据...
                    } else if (n == 0) {
                        close(events[i].data.fd);
                        break;
                    } else {
                        if (errno == EAGAIN || errno == EWOULDBLOCK) {
                            // 数据读取完了
                            break;
                        } else {
                            // 出错了
                            perror("read");
                            break;
                        }
                    }
                }
            }
        }
    }
    return 0;
}
```

### 总结

- **LT (Level Triggered)**: 编程简单，不易出错，支持阻塞和非阻塞 I/O。
- **ET (Edge Triggered)**: 编程复杂，必须使用非阻塞 I/O 并一次性读到 `EAGAIN`；在高并发场景能有效减少系统调用，更适合高性能开发。

## 一、为什么需要 epoll？—— select/poll 的性能瓶颈

在 `epoll` 出现之前，Linux 主要使用 `select` 和 `poll` 来实现 I/O 多路复用。然而，当需要处理大量（$N$ 个）连接时，它们存在两个致命的性能瓶颈：

### $O(N)$ 的遍历开销

### $O(N)$ 的拷贝开销

每次调用都需要将**完整的 $N$ 个 FD 列表从用户空间拷贝到内核空间**。当连接数达到数万时，这种频繁的内存拷贝会成为严重的性能负担。

## 二、epoll 的解决方案：持久化管理与高效数据结构

`epoll` 的设计理念很简单但很高明：**既然 FD 列表变化不频繁，为什么每次都要重新传递呢？**

于是，`epoll` 针对这两个问题分别设计了解决方案：

### 解决拷贝开销：持久化注册

**核心思想**：程序只需在内核中**注册一次**感兴趣的 FD 列表，之后调用 `epoll_wait` 时**不需要再传递整个列表**。

这种"注册一次，长期有效"的设计，彻底消除了 $O(N)$ 的拷贝开销。

### 解决遍历开销：红黑树 + 就绪列表

遍历开销体现在两个地方，epoll 分别用两种数据结构来解决：

#### 红黑树：高效管理 FD

##### 动态扩容成本

##### 内存利用率

`epoll` 需要适应各种规模的场景（从监听几个 FD 到监听几万个 FD）。

哈希表为了减少哈希冲突以尽可能维持 $O(1)$ 的性能，通常会预分配比实际数据量大的内存。这就会产生一些问题：

- 如果预分配得太大，对于只有几个连接的情况会造成巨大的内存浪费。
- 如果预分配太小，又会频繁触发扩容。

内核无法预测用户会创建多少个连接，因此很难预分配一个完美的初始大小。

而红黑树则是用多少拿多少，它不需要预分配连续的内存，因此对内存的利用率可以说是100%的。

##### 确定性

内核开发非常看重可预测性 (Predictability)。

> 💡 **小知识** $O(\log N)$ 其实并不慢，假设数据量为 100 万，$\log_2(10^6) \approx 20$，单次操作也仅仅需要进行约 20 次比对。

##### 总结

虽然哈希表在理想时间优于红黑树，但红黑树在省内存、无扩容抖动、性能稳定这三点上更符合操作系统内核对资源管理的需求。

#### 就绪列表：$O(K)$ 获取就绪事件

红黑树解决了 FD 管理的效率问题，但还有一个问题：当调用 `epoll_wait` 时，如何快速找出哪些 FD 已经就绪？

所以，当应用程序调用 `epoll_wait` 时，它要做的全部工作就是：**检查并取出就绪列表中的元素**。

##### 效率对比

这就是 epoll 能实现万级并发，将时间复杂度从线性 $O(N)$ 降到与就绪事件数成正比的 $O(K)$（$K \ll N$，低就绪率时近似常数）的关键。

## 三、epoll 的三大核心 API

了解了设计原理和数据结构后，接下来我们来看看 epoll 提供的三个核心 API，它们是应用程序与内核交互的桥梁。

### `epoll_create`：创建 epoll 实例

**`epoll_create`** 是实现持久化的**第一步，也是最关键的一步**

现在，实例已经创建好了，我们该如何让内核知道我们想要监听的客户端 FD 呢？

### `epoll_ctl`：管理监听的 FD

有了 epoll 实例后，我们需要告诉内核：我们想监听哪些 FD，以及关心它们的什么事件。这就是 `epoll_ctl` 的职责。

```c
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
```

`epoll_ctl` 提供三种操作来管理 FD 集合：

由于 FD 存储在红黑树中，每次增删改操作的时间复杂度都是 $O(\log N)$，非常高效。

### `epoll_wait`：等待事件发生

```c
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
```

`epoll_wait` 负责等待事件发生，当有 FD 就绪时，它会从就绪列表中取出事件信息，填充到 `events` 数组中，并返回就绪的 FD 数量。

**参数说明：**

至此，epoll 的基础知识已经讲完了，现在进入触发模式的区别

## 四、触发模式：LT vs ET

epoll 提供了两种事件通知模式：

1. Level-Triggered (LT)：水平触发
2. Edge-Triggered (ET)：边缘触发

我们可以将它类比为数字电路中的触发方式：

效率上，由于 ET 模式减少了重复通知带来的系统调用次数，因此更适合进行高性能的开发。

这里提供一个更形象的流程：
我们假设一个客户端连接一次性发来了 2000 字节数据，但你的接收缓冲区只有 1000 字节。

## 五、最小LT和ET实现

为了更直观地理解这两种模式的区别，下面提供了最小化的代码实现示例。

### LT 模式

LT 模式是默认模式，代码编写相对简单。即使一次没有读完所有数据，内核也会在下一次 `epoll_wait` 时继续通知。

阻塞 I/O 下 `read` 不会返回 `EAGAIN`；但如果你把连接也设成非阻塞，记得在出错分支里特殊判断 `EAGAIN/EWOULDBLOCK`，避免重复打印错误。

```c
#include <sys/epoll.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <fcntl.h>
#include <stdio.h>
#include <arpa/inet.h> // inet_ntoa

#define MAX_EVENTS 10 // 每次 epoll_wait 最多返回的事件数

// 设置文件描述符为非阻塞
void setnonblocking(int sock) {
    int opts = fcntl(sock, F_GETFL);
    fcntl(sock, F_SETFL, opts | O_NONBLOCK);
}

int main() {
    struct epoll_event ev, events[MAX_EVENTS];

// 创建监听 Socket (TCP, IPv4)
    int listen_sock = socket(AF_INET, SOCK_STREAM, 0);
    if (listen_sock == -1) {
        perror("socket");
        return 1;
    }

if (bind(listen_sock, (struct sockaddr*)&addr, sizeof(addr)) == -1) {
        perror("bind");
        return 1;
    }

if (listen(listen_sock, SOMAXCONN) == -1) {
        perror("listen");
        return 1;
    }

int epfd = epoll_create1(0);
    if (epfd == -1) {
        perror("epoll_create1");
        return 1;
    }

while (1) {
        int nfds = epoll_wait(epfd, events, MAX_EVENTS, -1);
        if (nfds == -1) {
            perror("epoll_wait");
            return 1;
        }

printf("New connection from %s:%d\n", inet_ntoa(addr.sin_addr), ntohs(addr.sin_port));

### ET 模式

ET 模式需要显式指定 `EPOLLET`，并且**必须**配合**非阻塞 I/O (Non-blocking I/O)** 使用。在收到通知后，必须循环读取直到缓冲区为空（返回 `EAGAIN`）。

```c
#include <sys/epoll.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <fcntl.h>
#include <stdio.h>
#include <errno.h>
#include <arpa/inet.h> // inet_ntoa

#define MAX_EVENTS 10 // 每次 epoll_wait 最多返回的事件数

// 设置文件描述符为非阻塞
void setnonblocking(int sock) {
    int opts = fcntl(sock, F_GETFL);
    fcntl(sock, F_SETFL, opts | O_NONBLOCK);
}

int main() {
    struct epoll_event ev, events[MAX_EVENTS];

// 创建监听 Socket (TCP, IPv4)
    int listen_sock = socket(AF_INET, SOCK_STREAM, 0);
    if (listen_sock == -1) {
        perror("socket");
        return 1;
    }

if (bind(listen_sock, (struct sockaddr*)&addr, sizeof(addr)) == -1) {
        perror("bind");
        return 1;
    }

if (listen(listen_sock, SOMAXCONN) == -1) {
        perror("listen");
        return 1;
    }
    
    // ET 模式下，listen_sock 设置为非阻塞
    setnonblocking(listen_sock);

int epfd = epoll_create1(0);
    if (epfd == -1) {
        perror("epoll_create1");
        return 1;
    }

while (true) {
        int nfds = epoll_wait(epfd, events, MAX_EVENTS, -1);
        if (nfds == -1) {
            perror("epoll_wait");
            return 1;
        }

printf("New connection from %s:%d\n", inet_ntoa(addr.sin_addr), ntohs(addr.sin_port));

// 设置非阻塞
                    setnonblocking(conn_sock);
                    ev.events = EPOLLIN | EPOLLET; //监听可读 + 边缘触发
                    ev.data.fd = conn_sock;

### 总结

最后修改：2025 年 12 月 07 日

如果觉得我的文章对你有用，请随意赞赏

万级并发的秘密：一文彻底搞懂 Linux Epoll

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

树莓派3B+搭建openwrt/lede软路由之编译固件篇

NoKVM折腾记-安装主控

树莓派3B+搭建openwrt/lede软路由之开始使用篇

Nginx防御cc-禁止特定UA访问

一个鸽了很久的ddns面板（也免费提供ddns服务）

NoKVM折腾记-安装主控

Nginx开启Brotli压缩以及预压缩文件

评《霍格沃茨之遗》

2024 ZSC新生赛题解

xz_spider 一个用Python写的简单写真爬虫

万级并发的秘密：一文彻底搞懂 Linux Epoll

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

万级并发的秘密：一文彻底搞懂 Linux Epoll

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款