SO_ATTACH_REUSEPORT_CBPF套接字选项意外行为

时间:2017-11-25 02:56:30

标签: linux sockets packet-capture

我正在尝试使用来自两个应用程序的端口,并让每个应用程序从一组不同的IP地址接收数据包。为了实现这一点,我使用了SO_REUSEPORT和SO_ATTACH_REUSEPORT_CBPF套接字选项。我的代码如下:

parentfd = socket(AF_INET, SOCK_STREAM, 0);
if (parentfd < 0)
  error( "ERROR opening socket");

struct sock_filter code[]={
  { 0x28, 0, 0, 0x0000000c },
  { 0x15, 0, 3, 0x00000800 },
  { 0x20, 0, 0, 0x0000001a },
  { 0x15, 2, 0, 0xc0a8ff01 },
  { 0x6, 0, 0, 0x00000000 },
  { 0x6, 0, 0, 0x00040000 },
  { 0x6, 0, 0, 0x00000001 },
};

struct sock_fprog bpf = {
  .len = ARRAY_SIZE(code),
  .filter = code,
};

if (setsockopt(parentfd, SOL_SOCKET, SO_REUSEPORT, (const void *)&optval,sizeof(optval)))
  error("ERROR setting SO_REUSEPORT");

if (setsockopt(parentfd, SOL_SOCKET, SO_ATTACH_REUSEPORT_CBPF, (const void *)&bpf, sizeof(bpf)))
  error("ERROR setting SO_ATTACH_REUSEPORT_CBPF);

我还有一个不同的进程,只使用 SO_REUSEPORT标志来侦听同一个端口。在具有IP 192.168.255.1的计算机上,我正在运行echo 1234 | ncat 192.168.255.150 1234。根据我的过滤器,我希望第二个进程可以接收来自该IP地址的所有流量。然而,它都是第一个收到的。当我将过滤器更改为简单:

struct sock_filter code[]={ { 0x6, 0, 0, 0x00000001 }, };

它按预期工作,所有数据包都由第二个进程接收。知道为什么会这样吗?

2 个答案:

答案 0 :(得分:2)

我发现了问题所在。过滤器应用于所有数据包,甚至是TCP握手数据包。此外,基指针指向数据包有效负载的第一个字节,而不是标头。因此,当它执行时

ldh[12]

它超出数据包的限制(SYN数据包有0字节的有效负载),默认行为是返回0.

答案 1 :(得分:0)

非工作代码是:

l0: ldh [12]                   /* read EtherType (2 bytes), which is found at offset 12 (decimal) */
l1: jeq #0x800, l2, l5         /* if EtherType == `0x800` (IPv4), jump to `l2`, otherwise jump to `l5` */
l2: ld [26]                    /* read source IP address (4 bytes) */
l3: jeq #0xc0a8ff01, l6, l4    /* if source IP address == 192.168.255.1, jump to l6 (return 1), else jump to l4 (return 0) */
l4: ret #0
l5: ret #0x40000
l6: ret #0x1

工作代码是:

ret #0x1

socket (7)说:

  

BPF程序必须返回0到N-1之间的索引,表示应该接收数据包的套接字(其中N是组中套接字的数量)。如果BPF程序返回无效索引,套接字选择将回退到普通的SO_REUSEPORT机制。

在我的机器tcpdump -i lo -ddd 'src host 192.168.255.1'上生成

10
40 0 0 12
21 0 2 2048
32 0 0 26
21 4 5 3232300801
21 1 0 2054
21 0 3 32821
32 0 0 28
21 0 1 3232300801
6 0 0 262144
6 0 0 0

哪个是

l0: ldh [12]
l1: jeq #0x800, l2, l4
l2: ld [26]
l3: jeq #0xc0a8ff01, l8, l9
l4: jeq #0x806, l6, l5
l5: jeq #0x8035, l6, l9
l6: ld [28]
l7: jeq #0xc0a8ff01, l8, l9
l8: ret #0x40000
l9: ret #0

我没有看到代码明显错误的任何内容。

您是否尝试在服务器上运行tcpdump?也许您忘记在客户端删除额外的IP地址,或者某处遗忘了SNAT规则?

您正在运行哪个内核版本?你能发布一个重现问题的最小C应用程序吗?