(시리즈 글이 2개 있습니다.)

Linux: 124. eBPF - __sk_buff / sk_buff 구조체
; https://www.sysnet.pe.kr/2/0/14019

Linux: 130. eBPF - bpf_skb_load_bytes를 이용한 __sk_buff.data 영역의 IP/TCP 헤더 해석
; https://www.sysnet.pe.kr/2/0/14038

eBPF - bpf_skb_load_bytes를 이용한 __sk_buff.data 영역의 IP/TCP 헤더 해석

지난 글에서,

eBPF - __sk_buff / sk_buff 구조체
; https://www.sysnet.pe.kr/2/0/14019

__sk_buff 구조체에 대한 bpf_skb_load_bytes 함수의 반환값을 해석할 수 없다고 했는데요,

SEC("socket")
int socket_handler(struct __sk_buff *skb)
{
    __u16 proto;

    bpf_skb_load_bytes(skb, 12, &proto, 2);
    proto = __bpf_ntohs(proto); // TCP 소켓 예제에서 출력된 h_proto 값들
                                // 비정상적인 값 출력
                                // bpf_trace_printk: __sk_buff.h_proto == 8019
                                // bpf_trace_printk: __sk_buff.h_proto == b010
                                // bpf_trace_printk: __sk_buff.h_proto == 5014
                                // bpf_trace_printk: __sk_buff.h_proto == 5004

    return skb->len;

/* 실제 proto 값의 예:
0x0800 for IPv4
0x0806 for ARP
0x86DD for IPv6
*/
}

그래도 뭔가, 값이 고정적으로 나오는 것 같아서 한 번 더 확인해 봤습니다. 가만 보니까, bpf_skb_load_bytes 말고 또 다른 함수가 있는데요,

bpf_skb_load_bytes_relative
; https://docs.ebpf.io/linux/helper-function/bpf_skb_load_bytes_relative/

그러니까, __sk_buff.data의 BPF_HDR_START_MAC과 BPF_HDR_START_NET 헤더를 상대적으로 접근할 수 있게 해주는데, 실제로 이걸로 했더니 값이 제대로 나왔습니다.

SEC("socket")
int socket_handler(struct __sk_buff *skb) {
   __u16 proto;

   // 기존 코드를 주석 처리
   // bpf_skb_load_bytes(skb, 12, &proto, 2);

   // 새롭게 bpf_skb_load_bytes_relative를 이용해 MAC 헤더 기준으로 protocol offset 지정
   bpf_skb_load_bytes_relative(skb, 12, &proto, 2, BPF_HDR_START_MAC);
   proto = __bpf_ntohs(proto);
  
   bpf_printk("__sk_buff.h_proto == %04x, protocol == %04x\n", proto, __bpf_htons(skb->protocol));

   return skb->len;
}

/* 출력 결과:
__sk_buff.h_proto == 0800, protocol == 0800
*/

그렇다면 bpf_skb_load_bytes와 어떤 차이가 있는 걸까요? 이를 알아보기 위해 2개의 함수 모두 offset 0부터 48바이트를 읽어 출력해 비교했는데,

char buff_org[48];
bpf_skb_load_bytes(skb, 0, buff_org, 48);

char buff_rel[48];
bpf_skb_load_bytes_relative(skb, 0, buff_rel, 48, BPF_HDR_START_MAC);

다음과 같이 정리됩니다.

// buff_org
00,50,ec,04,d4,0c,15,af,15,ee,4d,ec,80,19,08,21,44,a9,00,00,01,01,08,0a,8d,82,2d,27,5c,51,00,cf,48,54,54,50,2f,31,2e,31,20,32,30,30,20,4f,4b,0d

// buff_rel
00,15,5d,28,cf,04,00,15,5d,00,05,06,08,00,45,00,03,fe,0a,24,40,00,80,06,6b,44,c0,a8,00,24,c0,a8,00,1d,00,50,ec,04,d4,0c,15,af,15,ee,4d,ec,80,19

그러니까, bpf_skb_load_bytes_relative는 MAC 헤더로부터 내용을 출력한 반면 bpf_skb_load_bytes는 그로부터 다소 떨어진 위치의 내용을 반환하고 있었던 것입니다. 그렇다면 정확히 어떤 위치인지 확인해 보기 위해 헤더에 따라 계산을 해보았습니다.

방법은, ethhdr, iphdr, tcphdr 구조체에 따라 buff_rel의 내용을 이렇게 분석해 나가면 됩니다.

struct ethhdr {
        unsigned char h_dest[6];    // 00,15,5d,28,cf,04
        unsigned char h_source[6];  // 00,15,5d,00,05,06
        __be16 h_proto;             // 08,00
};

struct iphdr {
                            // 0x45 == 0100 0101
        __u8 ihl: 4;        // == 0101 == 5 (헤더 길이, 5 * 4 = 20바이트)
        __u8 version: 4;    // == 0100 == 4 (IPv4 버전)

        __u8 tos;           // 00
        __be16 tot_len;     // 03,fe
        __be16 id;          // 0a,24
        __be16 frag_off;    // 40,00
        __u8 ttl;           // 80
        __u8 protocol;      // 06 (TCP)
        __sum16 check;      // 6b,44
        union {
                struct {
                        __be32 saddr; // c0,a8,00,24
                        __be32 daddr; // c0,a8,00,1d
                };
                struct {
                        __be32 saddr;
                        __be32 daddr;
                } addrs;
        };
};

struct tcphdr {
        __be16 source;  // 00,50
        __be16 dest;    // ec,04
        __be32 seq;     // d4,0c,15,af
        __be32 ack_seq; // 15,ee,4d,ec

                        // 0x80 == 1000 0000
        __u16 res1: 4;  // == 1000
        __u16 doff: 4;  // == 0000 (데이터 오프셋, 0 * 4 = 0바이트)
        __u16 fin: 1;
        __u16 syn: 1;
        __u16 rst: 1;
        __u16 psh: 1;
        __u16 ack: 1;
        __u16 urg: 1;
        __u16 ece: 1;
        __u16 cwr: 1;
        __be16 window;
        __sum16 check;
        __be16 urg_ptr;
};

아하~~~ bpf_skb_load_bytes가 반환한 위치는 TCP 헤더의 시작 부분이었던 것입니다. 이에 비춰 아래의 글에 나온 소스 코드를 다시 볼까요?

L7 Tracing with eBPF: HTTP and Beyond via Socket Filters and Syscall Tracepoints
; https://eunomia.dev/en/tutorials/23-http/

SEC("socket")
int socket_handler(struct __sk_buff *skb)
{
    struct so_event *e;
    __u8 verlen;
    __u16 proto;
    __u32 nhoff = ETH_HLEN;
    __u32 ip_proto = 0;
    __u32 tcp_hdr_len = 0;
    __u16 tlen;
    __u32 payload_offset = 0;
    __u32 payload_length = 0;
    __u8 hdr_len;

    bpf_skb_load_bytes(skb, 12, &proto, 2);
    proto = __bpf_ntohs(proto);
    if (proto != ETH_P_IP)
        return 0;

    // ...[생략]...

    return skb->len;
}

현재 기준으로 보면 저런 동작이 가능했던 것이 도저히 설명이 안 됩니다. 아마도 당시의 리눅스 커널은 저게 가능했었다고... 생각하고 지나가야 할 것 같습니다. (혹시 이에 관한 이력을 아시는 분은 덧글 부탁드립니다. ^^)

아무튼, 저 코드는 이제 다음과 같은 식으로 작성해야 동작합니다.

// TCP header, TCP header size, TCP checksum mechanism, TCP header structure, options, and format
// https://www.noction.com/blog/tcp-header

static void print_sk_buff(char* title, struct __sk_buff *skb) {
    struct iphdr iph;
    long result = bpf_skb_load_bytes_relative(skb, 0, &iph, sizeof(struct iphdr), BPF_HDR_START_NET);
    if (result != 0) {
        bpf_printk("[%s]: unexpected-packet = %d", title, result);
        return;
    }

    if (iph.protocol != IPPROTO_TCP) {
        bpf_printk("[%s]: !tcp_packet(protocol = %d)", title, iph.protocol);
        return;
    }

    __u8 ip_header_length = iph.ihl * 4; // IP Header 크기

    struct tcphdr tcph;
    result = bpf_skb_load_bytes_relative(skb, ip_header_length, &tcph, sizeof(struct tcphdr), BPF_HDR_START_NET);
    __u8 tcp_header_length = tcph.doff * 4; // TCP Header 크기

    __u32 ip_tcp_header_legnth = ip_header_length + tcp_header_length; // (IP Header + TCP Header) 크기

    __u32 total_packet_length = __bpf_ntohs(iph.tot_len); // 패킷의 전체 크기
    __u32 tcp_payload_length = total_packet_length - ip_tcp_header_legnth; // TCP Payload 크기

    bpf_printk("[%s]: len(IPHeader) = %d, len(TCPHeader) = %d, len(TCPPayload) = %d", title, ip_header_length, tcp_header_length, tcp_payload_length);
}

SEC("socket")
int socket_handler(struct __sk_buff *skb) {
    print_sk_buff("socket", skb);
    return skb->len;
}

정리해 보면, (과거에는 어땠는지 모르겠지만) 현재 __sk_buff.data 필드에 대한 데이터는 다음과 같은 기준으로 가져올 수 있습니다.

// BPF_PROG_TYPE_SOCKET_FILTER 유형

bpf_skb_load_bytes_relative(BPF_HDR_START_MAC) - MAC 헤더를 시작점으로 offset 지정
bpf_skb_load_bytes_relative(BPF_HDR_START_NET) - IP 헤더를 시작점으로 offset 지정
bpf_skb_load_bytes - TCP 헤더를 시작점으로 offset 지정

문제는, bpf_skb_load_bytes가 언제나 TCP 헤더를 시작점으로 잡지는 않는다는 것입니다. 테스트해 보면, 저렇게 나오는 경우는 BPF_PROG_TYPE_SOCKET_FILTER 유형의 SEC("socket") 프로그램에서 그런 것이고, 다른 유형, 예를 들어 BPF_PROG_TYPE_CGROUP_SKB 프로그램에서는 전혀 다른 위치가 나옵니다.

예를 들어 아래의 코드를 테스트하면,

SEC("cgroup_skb/egress")
int cgroup_egress_packets(struct __sk_buff *skb) {
    __u8 buff_rel[48];
    bpf_skb_load_bytes_relative(skb, 0, buff_rel, 48, BPF_HDR_START_MAC); // EFAULT 14 Bad address

    return 1;
}

bpf_skb_load_bytes_relative 함수가 -14를 반환했습니다. 반면 BPF_HDR_START_MAC이 아닌 BPF_HDR_START_NET을 옵션으로 줬더니 성공했습니다. 다시 말해, bpf_skb_load_bytes_relative 함수라고 해도 어떤 eBPF 프로그램 유형에서 불리느냐에 따라 성공/실패로 나뉠 수 있습니다.

또한, bpf_skb_load_bytes 함수가 반환한 데이터와 비교하면,

int cgroup_egress_packets(struct __sk_buff *skb) {
    __u8 buff_org[48];
    bpf_skb_load_bytes(skb, 0, buff_org, 48);

    __u8 buff_rel[48];
    bpf_skb_load_bytes_relative(skb, 0, buff_rel, 48, BPF_HDR_START_NET);

    return 1;
}

buff_org와 buff_rel 데이터가 완전히 동일합니다. 그러니까, BPF_PROG_TYPE_CGROUP_SKB 프로그램에서의 호출 결과는 다음과 같이 정리가 됩니다.

// BPF_PROG_TYPE_CGROUP_SKB 유형

bpf_skb_load_bytes_relative(BPF_HDR_START_MAC) - 오류 발생 (EFAULT 14 Bad address)
bpf_skb_load_bytes_relative(BPF_HDR_START_NET) - IP 헤더를 시작점으로 offset 지정
bpf_skb_load_bytes - IP 헤더를 시작점으로 offset 지정

이러한 차이점에 대해 Google AI 검색에서는 다음과 같은 설명을 하고 있습니다.

cgroup_skb programs: Attached to a cgroup, these programs operate higher in the stack, where packets have already been associated with a socket and the L2 header has often been stripped. The cgroup context is associated with a specific process or set of processes, and the BPF program inspects traffic from the perspective of that application, not the raw network interface. 

기왕에 예제를 작성했으니 앞서 작성한 print_sk_buff 함수를 BPF_PROG_TYPE_CGROUP_SKB 프로그램에서도 사용해 볼까요?

SEC("cgroup_skb/ingress")
int test_ingress_packets(struct __sk_buff *skb) {
    print_sk_buff("ingress", skb);
    return 1;
}

SEC("cgroup_skb/egress")
int test_egress_packets(struct __sk_buff *skb) {
    print_sk_buff("egress", skb);
    return 1;
}

SEC("cgroup/connect4")
int socket_connect4(struct bpf_sock_addr *ctx)
{
    struct bpf_sock* bpf_sk = ctx->sk;
    bpf_printk("[socket_connect4] bpf_sk == %p\n", bpf_sk);

    return SYS_PROCEED;
}

동작을 테스트하기 위해 HTTP 요청을 직접 Socket을 사용해 다음과 같이 다루는 경우,

var socket = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp);
int readCount = 0;

socket.Connect("www.sysnet.pe.kr", 80);

string request = "GET / HTTP/1.1\r\nHost: sysnet.pe.kr\r\nConnection: close\r\n\r\n";
byte[] requestBytes = Encoding.ASCII.GetBytes(request);
Console.WriteLine($"Socket payload size: {requestBytes.Length} bytes");

socket.Send(requestBytes);

var buffer = new byte[4096];
int bytesReceived;
var response = new StringBuilder();

do
{
    readCount++;
    bytesReceived = socket.Receive(buffer);
    response.Append(Encoding.ASCII.GetString(buffer, 0, bytesReceived));
                    
} while (bytesReceived &gt; 0);

Console.WriteLine($"{socket.LocalEndPoint} <==> {socket.RemoteEndPoint}, # of reads: {readCount}");
socket.Close();

실행해 보면 이런 식의 로그를 얻게 됩니다.

bpf_trace_printk: [socket_connect4] bpf_sk == 00000000883b5933
bpf_trace_printk: [egress]: !tcp_packet(protocol = 17)
bpf_trace_printk: [ingress]: !tcp_packet(protocol = 17)
bpf_trace_printk: [egress]: !tcp_packet(protocol = 17)
bpf_trace_printk: [ingress]: !tcp_packet(protocol = 17)

bpf_trace_printk: [socket_connect4] bpf_sk == 000000001740e3bf
bpf_trace_printk: [egress]: len(IPHeader) = 20, len(TCPHeader) = 40, len(TCPPayload) = 0
bpf_trace_printk: [egress]: len(IPHeader) = 20, len(TCPHeader) = 32, len(TCPPayload) = 57
bpf_trace_printk: [egress]: len(IPHeader) = 20, len(TCPHeader) = 32, len(TCPPayload) = 0

첫 번째 socket_connect4의 경우 이후 protocol == 17(IPPROTO_UDP)인 걸로 봐서 아마도 DNS 조회인 듯하고, 두 번째 socket_connect4 이후부터 HTTP 요청을 위한 TCP 통신의 결과로 나온 것 같습니다. 그런데, 이상하게도 HTTP 응답을 위한 ingress 로그가 없습니다. 왜일까요? ^^; (혹시 이유를 아시는 분은 덧글 부탁드립니다.)

이번엔 대충 여기까지... 살펴본 것으로 만족해야겠습니다. ^^

위의 프로그램을 테스트하다가 겪은 오류인데요, 만약 다음과 같이 코드를 만들면,

void print_sk_buff(char* title, struct __sk_buff *skb) {
    // ...[생략]...
}

SEC("cgroup_skb/ingress")
int test_ingress_packets(struct __sk_buff *skb) {
    print_sk_buff("ingress", skb);
    return 1;
}

SEC("cgroup_skb/egress")
int test_egress_packets(struct __sk_buff *skb) {
    print_sk_buff("egress", skb);
    return 1;
}

eBPF 로딩 시 이런 오류가 발생합니다.

load program: invalid argument: Caller passes invalid args into func#1 ('print_sk_buff') (8 line(s) omitted)

저 오류를 피하려면 print_sk_buff 함수를 명시적으로 static으로 지정해야 하는데요,

static void print_sk_buff(char* title, struct __sk_buff *skb) {
    // ...[생략]...
}

공식 문서에 보면,

eBPF Docs - Functions
; https://docs.ebpf.io/linux/concepts/functions/

딱히 static 함수여야 한다는 제약은 없습니다. 또한, 관련해서 리눅스 소스 코드도 찾아보면,

linux/kernel/bpf/verifier.c
; https://github.com/torvalds/linux/blob/master/kernel/bpf/verifier.c#L10636

// ...[생략]...
err = btf_check_subprog_call(env, subprog, caller->regs);
if (err == -EFAULT)
    return err;
if (subprog_is_global(env, subprog)) {
    const char *sub_name = subprog_name(env, subprog);

    // ...[생략]...

    if (err) {
        verbose(env, "Caller passes invalid args into func#%d ('%s')\n",
            subprog, sub_name);
        return err;
    }

    // ...[생략]...
    return 0;
}

static 예약어가 없다면 해당 C 함수는 global로 취급하는데요, 그런 상황에서 btf_check_subprog_call 함수가 오류 코드를 반환했다는 의미가 됩니다. 그렇다면, 반대로 static 함수인 경우라면 btf_check_subprog_call 함수에서 오류를 반환해도 상관없다는 것인데... 좀 이해가 안 되는 코드입니다. ^^;

마지막으로, 위의 BPF_PROG_TYPE_CGROUP_SKB 예제에서도 지난 글에서와 동일한 문제가 발생했는데요, 예를 들어, 다음의 코드는,

SEC("cgroup_skb/egress")
int cgroup_egress_packets(struct __sk_buff *skb) {
    struct bpf_sock *read_bpf_sock = (struct bpf_sock*)BPF_CORE_READ(skb, sk); // NULL 반환
    // 또는 이렇게 호출해도,
    // struct bpf_sock *read_bpf_sock = NULL;
    // int err = bpf_core_read(&read_bpf_sock, sizeof(void *), &skb->sk); // NULL 반환
}

반환값이 NULL이 나오고, 오히려 직접 접근하는 경우에는,

struct bpf_sock *direct_bpf_sock = skb->sk; // 포인터 주소 반환

정상적으로 포인터 값이 나옵니다. 도대체 왜 ^^; 저런 차이가 있는 걸까요? 후자의 경우처럼 직접 접근하는 코드가 동작한다고 해도, 때로는 BPF_CORE_READ를 사용해야만 하는 경우도 있기 때문에 마냥 무시할 수만은 없는 문제입니다.

암튼... 근래에 리눅스 환경을 다루면서 (결국엔 이유가 있겠지만) 수박 겉 핡기 식의 제 지식만으로는 당최 이해가 안 되는 상황들을 겪게 됩니다. ^^;

[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[이전 글] Linux: 129. eBPF (bpf2go) - BPF_PROG_TYPE_CGROUP_SKB 예제 - "cgroup_skb/egress", "cgroup_skb/egress"

[최초 등록일: 11/6/2025]
[최종 수정일: 11/6/2025]

이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

by SeongTae Jeong, mailto:techsharer at outlook.com

No	Writer	Date	Cnt.	Title	File(s)
13714	정성태	8/19/2024	12146	닷넷: 2295. C# 12 - 기본 생성자(Primary constructors) (책 오타 수정) [3]
13713	정성태	8/16/2024	14980	개발 환경 구성: 721. WSL 2에서의 Hyper-V Socket 연동
13712	정성태	8/14/2024	13002	개발 환경 구성: 720. Synology NAS - docker 원격 제어를 위한 TCP 바인딩 추가
13711	정성태	8/13/2024	14127	Linux: 77. C# / Linux - zombie process (defunct process) [1]	1
13710	정성태	8/8/2024	15332	닷넷: 2294. C# 13 - (6) iterator 또는 비동기 메서드에서 ref와 unsafe 사용을 부분적으로 허용	1
13709	정성태	8/7/2024	13044	닷넷: 2293. C# - safe/unsafe 문맥에 대한 C# 13의 (하위 호환을 깨는) 변화	1
13708	정성태	8/7/2024	13966	개발 환경 구성: 719. ffmpeg / YoutubeExplode - mp4 동영상 파일로부터 Audio 파일 추출
13707	정성태	8/6/2024	13537	닷넷: 2292. C# - 자식 프로세스의 출력이 4,096보다 많은 경우 Process.WaitForExit 호출 시 hang 현상	1
13706	정성태	8/5/2024	12796	개발 환경 구성: 718. Hyper-V - 리눅스 VM에 새로운 디스크 추가
13705	정성태	8/4/2024	13380	닷넷: 2291. C# 13 - (5) params 인자 타입으로 컬렉션 허용 [2]	1
13704	정성태	8/2/2024	14778	닷넷: 2290. C# - 간이 dotnet-dump 프로그램 만들기	1
13703	정성태	8/1/2024	13203	닷넷: 2289. "dotnet-dump ps" 명령어가 닷넷 프로세스를 찾는 방법
13702	정성태	7/31/2024	14493	닷넷: 2288. Collection 식을 지원하는 사용자 정의 타입을 CollectionBuilder 특성으로 성능 보완	1
13701	정성태	7/30/2024	15949	닷넷: 2287. C# 13 - (4) Indexer를 이용한 개체 초기화 구문에서 System.Index 연산자 허용	1
13700	정성태	7/29/2024	15119	디버깅 기술: 200. DLL Export/Import의 Hint 의미
13699	정성태	7/27/2024	15876	닷넷: 2286. C# 13 - (3) Monitor를 대체할 Lock 타입	1
13698	정성태	7/27/2024	14486	닷넷: 2285. C# - async 메서드에서의 System.Threading.Lock 잠금 처리	1
13697	정성태	7/26/2024	12967	닷넷: 2284. C# - async 메서드에서의 lock/Monitor.Enter/Exit 잠금 처리	1
13696	정성태	7/26/2024	13693	오류 유형: 920. dotnet publish - error NETSDK1047: Assets file '...\obj\project.assets.json' doesn't have a target for '...'
13695	정성태	7/25/2024	13306	닷넷: 2283. C# - Lock / Wait 상태에서도 STA COM 메서드 호출 처리	1
13694	정성태	7/25/2024	13191	닷넷: 2282. C# - ASP.NET Core Web App의 Request 용량 상한값 (Kestrel, IIS)
13693	정성태	7/24/2024	12850	개발 환경 구성: 717. Visual Studio - C# 프로젝트에서 레지스트리에 등록하지 않은 COM 개체 참조 및 사용 방법	1
13692	정성태	7/24/2024	14812	디버깅 기술: 199. Windbg - 리눅스에서 뜬 닷넷 응용 프로그램 덤프 파일에 포함된 DLL의 Export Directory 탐색
13691	정성태	7/23/2024	13669	디버깅 기술: 198. Windbg - 스레드의 Win32 Message Queue 정보 조회
13690	정성태	7/23/2024	11865	오류 유형: 919. Visual C++ 리눅스 프로젝트 - error : ‘u8’ was not declared in this scope
13689	정성태	7/22/2024	15620	디버깅 기술: 197. Windbg - PE 포맷의 Export Directory 탐색

AD BLOCK 해제 요청

eBPF - bpf_skb_load_bytes를 이용한 __sk_buff.data 영역의 IP/TCP 헤더 해석