eBPF - kprobe를 이용한 트레이스
지난 글에서, bpf2go를 이용해 eBPF 프로그램을 go 언어로 작성해 봤는데요,
Golang + bpf2go를 사용한 eBPF 기본 예제
; https://www.sysnet.pe.kr/2/0/13769
빠르게 테스트를 할 요량이라면 간단하게 사용할 수 있는 
bpftrace를 이용하는 것도 괜찮은 선택입니다. 예를 들어, 아래의 kprobe 예제는 do_sys_open / proc_sys_open 커널 함수가 호출될 때 메시지를 출력합니다.
$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 22.04.4 LTS
Release:        22.04
Codename:       jammy
$ sudo ./bpftrace -l 'kprobe:*sys_open'
kprobe:__ia32_compat_sys_open
kprobe:__ia32_sys_open
kprobe:__x64_sys_open
kprobe:do_sys_open
kprobe:proc_sys_open
// WSL 환경에서는 do_sys_open으로 지정한 경우 호출이 잘 되었지만,
// Ubuntu 22.04 / CentOS 9 VM 환경에서는 do_sys_open에 대해 오류는 없지만 호출이 안 됩니다.
$ sudo ./bpftrace -e 'kprobe:do_sys_open { printf("do_sys_open called\n"); }'
Attaching 1 probe...
^C
// 그래서 Ubuntu 22.04, CentOS 9 VM 환경에서는 do_sys_open 대신 proc_sys_open으로 걸어봤습니다.
$ sudo ./bpftrace -e 'kprobe:proc_sys_open { printf("proc_sys_open called\n"); }'
Attaching 1 probe...
proc_sys_open called
proc_sys_open called
proc_sys_open called
^C
이러한 eBPF의 kprobe 작동 원리가 궁금한데요, 
Kernel Probes (Kprobes) - How Does a Kprobe Work?
; https://docs.kernel.org/trace/kprobes.html#how-does-a-kprobe-work
How Does a Kprobe Work?
When a kprobe is registered, Kprobes makes a copy of the probed instruction and replaces the first byte(s) of the probed instruction with a breakpoint instruction (e.g., int3 on i386 and x86_64).
When a CPU hits the breakpoint instruction, a trap occurs, the CPU's registers are saved, and control passes to Kprobes via the notifier_call_chain mechanism. Kprobes executes the "pre_handler" associated with the kprobe, passing the handler the addresses of the kprobe struct and the saved registers.
Next, Kprobes single-steps its copy of the probed instruction. (It would be simpler to single-step the actual instruction in place, but then Kprobes would have to temporarily remove the breakpoint instruction. This would open a small time window when another CPU could sail right past the probepoint.)
After the instruction is single-stepped, Kprobes executes the "post_handler," if any, that is associated with the kprobe. Execution then continues with the instruction following the probepoint.
그러니까, kprobe 대상의 함수에 BP(int 3) 1바이트 코드를 삽입해 두고, BP가 걸렸을 때 eBPF 함수를 실행해 준 다음 다시 BP를 이전 바이트로 복원해 실행을 계속하는 식입니다.
달리 말하면, 우리가 IDE 디버깅 모드에서 BP를 걸어 실행을 멈추고 재개하는 것과 동일한 원리로 동작한다고 보면 됩니다.
이러한 디버깅 방식이기 때문에 갖는 재미있는 특징이 하나 있습니다.
사실, "kprobe:proc_sys_open"에서 "proc_sys_open"은 커널 함수의 이름이면서 그 함수의 주소를 대표합니다. 주소라는 측면에서 볼 때, offset도 지정이 가능한데요, 이 값은 반드시 기계어의 한 단위로 지정해야 합니다. 예를 들어, "kprobe:proc_sys_open+0x1"로 걸어 보면 어떨까요? 만약 시작 주소의 기계어가 "nop" 1바이트라면 +0x1은 "nop" 다음 바이트를 가리켜 유효한 주소가 됩니다. 하지만 그건 운이 좋은 경우이고, 대부분은 이런 메시지가 출력될 것입니다.
// Ubuntu 22.04, CentOS 9 VM에서 실행한 경우
$ sudo ./bpftrace -e 'kprobe:proc_sys_open+0x1 { printf("proc_sys_open called\n"); }'
Attaching 1 probe...
cannot attach kprobe, Invalid or incomplete multibyte or wide character
ERROR: Possible attachment attempt in the middle of an instruction, try a different offset.
ERROR: Error attaching probe: kprobe:proc_sys_open+1
// WSL + Ubuntu 20.04에서 실행한 경우
$ sudo ./bpftrace -e 'kprobe:do_sys_open+1 { printf("do_sys_open called\n"); }'
Attaching 1 probe...
BUG: [/build/source/src/attached_probe.cpp:415] Could not add kprobe into middle of instruction: /lib/modules/5.15.153.1-microsoft-standard-WSL2+/build/vmlinux:do_sys_open+1
Aborted
이유를 알기 위해서는, 
proc_sys_open을 역어셈블하면 됩니다.
// Ubuntu 22.04, CentOS 9 VM에서 실행한 경우
$ sudo cat /boot/System.map-$(uname -r) | grep proc_sys_open
ffffffff815b2200 t __pfx_proc_sys_open
ffffffff815b2210 t proc_sys_open
$ objdump -S --start-address=0xffffffff815b2210 ./vmlinux | less
./vmlinux:     file format elf64-x86-64
Disassembly of section .text:
ffffffff815b2210 <.text+0x5b2210>:
ffffffff815b2210:       e8 cb 3a b0 ff          call   0xffffffff810b5ce0
ffffffff815b2215:       55                      push   %rbp
ffffffff815b2216:       48 c7 c0 e8 44 67 83    mov    $0xffffffff836744e8,%rax
ffffffff815b221d:       48 89 e5                mov    %rsp,%rbp
ffffffff815b2220:       41 55                   push   %r13
ffffffff815b2222:       49 89 f5                mov    %rsi,%r13
ffffffff815b2225:       41 54                   push   %r12
ffffffff815b2227:       49 89 fc                mov    %rdi,%r12
ffffffff815b222a:       53                      push   %rbx
ffffffff815b222b:       48 8b 5f d8             mov    -0x28(%rdi),%rbx
ffffffff815b222f:       48 c7 c7 b8 b8 f2 83    mov    $0xffffffff83f2b8b8,%rdi
ffffffff815b2236:       48 85 db                test   %rbx,%rbx
ffffffff815b2239:       48 0f 44 d8             cmove  %rax,%rbx
ffffffff815b223d:       e8 8e da c6 00          call   0xffffffff8221fcd0
ffffffff815b2242:       48 83 7b 18 00          cmpq   $0x0,0x18(%rbx)
ffffffff815b2247:       75 70                   jne    0xffffffff815b22b9
ffffffff815b2249:       83 43 0c 01             addl   $0x1,0xc(%rbx)
ffffffff815b224d:       48 c7 c7 b8 b8 f2 83    mov    $0xffffffff83f2b8b8,%rdi
ffffffff815b2254:       e8 b7 db c6 00          call   0xffffffff8221fe10
ffffffff815b2259:       49 8b 44 24 e0          mov    -0x20(%r12),%rax
ffffffff815b225e:       48 81 fb 00 f0 ff ff    cmp    $0xfffffffffffff000,%rbx
ffffffff815b2265:       77 65                   ja     0xffffffff815b22cc
ffffffff815b2267:       48 8b 40 28             mov    0x28(%rax),%rax
ffffffff815b226b:       48 85 c0                test   %rax,%rax
ffffffff815b226e:       74 0a                   je     0xffffffff815b227a
ffffffff815b2270:       48 63 00                movslq (%rax),%rax
ffffffff815b2273:       49 89 85 c8 00 00 00    mov    %rax,0xc8(%r13)
ffffffff815b227a:       48 c7 c7 b8 b8 f2 83    mov    $0xffffffff83f2b8b8,%rdi
ffffffff815b2281:       e8 4a da c6 00          call   0xffffffff8221fcd0
ffffffff815b2286:       83 6b 0c 01             subl   $0x1,0xc(%rbx)
ffffffff815b228a:       74 1d                   je     0xffffffff815b22a9
ffffffff815b228c:       48 c7 c7 b8 b8 f2 83    mov    $0xffffffff83f2b8b8,%rdi
...[생략]...
따라서, 위와 같은 경우에는 +0x5, +0x6, +0xd, +0x10, +0x12, +0x15 ... 등으로 지정해야 하는 것입니다. 그럼, 바로 그 위치에 "int 3 (0xcc)"을 삽입해, 이전까지의 기계어를 한 단위로 실행한 후 BP가 걸리게 됩니다.
저렇게 보면, eBPF가 꽤나 매력적인 기술임에는 틀림없는 것 같습니다. ^^ 커널 함수를 이토록 쉽고 안전하게 가로채기를 할 수 있다니, 그야말로 혁신이라고 밖에 볼 수 없습니다.
그나저나 한 가지 혼란스러운 부분이 있는데요, 바로 대상이 되는 함수를 지정하는 이름 규칙이 통일돼 있지 않다는 점입니다. 예를 들어, 
지난 bpf2go 예제에서는 kprobe 대상을 지정할 때, 
SEC("kprobe/sys_clone") 
"kprobe/sys_clone"으로 지정했는데요, sys_clone 함수 이름이 실제로 커널에 정의된 이름은 아닙니다. 원래 정의된 커널 함수는 __x64_, 또는 __ia32_ 접미사가 붙어 있는데요, (커널 4.17부터 적용)
// CentOS 9 VM에서 실행한 경우
$ sudo bpftrace -l 'kprobe:*sys_clone'
kprobe:__ia32_sys_clone
kprobe:__x64_sys_clone
$ grep sys_clone /proc/kallsyms
0000000000000000 t __pfx___do_sys_clone
0000000000000000 t __do_sys_clone
0000000000000000 T __pfx___x64_sys_clone
0000000000000000 T __x64_sys_clone
0000000000000000 T __pfx___ia32_sys_clone
0000000000000000 T __ia32_sys_clone
0000000000000000 t __pfx___do_sys_clone3
0000000000000000 t __do_sys_clone3
0000000000000000 T __pfx___x64_sys_clone3
0000000000000000 T __x64_sys_clone3
0000000000000000 T __pfx___ia32_sys_clone3
0000000000000000 T __ia32_sys_clone3
0000000000000000 d _eil_addr___ia32_sys_clone3
0000000000000000 d _eil_addr___x64_sys_clone3
0000000000000000 d _eil_addr___ia32_sys_clone
0000000000000000 d _eil_addr___x64_sys_clone
아마도 bpf2go는 패키지 내부적으로 플랫폼 환경에 따른 접미사를 적절하게 붙여주는 듯합니다.
반면, 위의 이름 규칙을 bpftrace로는 사용할 수 없습니다. 예를 들어, "sys_clone"을 bpftrace에 사용해 보면,
// bpftrace의 경우 독자적인 문법 제공 (bpftrace Language)
$ sudo /usr/bin/bpftrace -e 'kprobe:sys_clone { printf("sys_clone called\n"); }'
Attaching 1 probe...
cannot attach kprobe, probe entry may not exist
Error attaching probe: 'kprobe:sys_clone'
이를 찾을 수 없어 에러가 발생합니다. 즉, bpftrace는 이름과 정확히 일치해야만 정상 동작합니다.
$ sudo /usr/bin/bpftrace -e 'kprobe:__x64_sys_clone { printf("sys_clone called\n"); }'
Attaching 1 probe...
sys_clone called
sys_clone called
^C
이런 오류가 나온다면?
$ sudo bpftrace -e 'kprobe:proc_sys_open { printf("proc_sys_open called\n"); }'
Attaching 1 probe...
ERROR: Could not resolve symbol proc_sys_open. Use BPFTRACE_VMLINUX env variable to specify vmlinux path. Compile bpftrace with ALLOW_UNSAFE_PROBE option to force skip the check.
혹은 offset을 추가한 경우 이런 오류가 발생한다면?
$ sudo bpftrace -e 'kprobe:proc_sys_open+5 { printf("proc_sys_open called\n"); }'
Attaching 1 probe...
Can't check if kprobe is in proper place (compiled without (k|u)probe offset support): /lib/modules/5.15.153.1-microsoft-standard-WSL2+/build/vmlinux:proc_sys_open+5
새로운 버전의 bpftrace를 다운로드해 사용하면 됩니다.
만약 이런 식으로 "The kernel contains ... struct but does not support loading an iterator program against it. Please report this bug." 오류 메시지가 나오거나,
$ sudo /usr/bin/bpftrace -l '*sys_clone*'
WARNING: The kernel contains bpf_iter__bpf_map struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__task struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__unix struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__task_file struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__bpf_map_elem struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__bpf_sk_storage_map struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__task_vma struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__bpf_prog struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__sockmap struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__netlink struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__tcp struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__udp struct but does not support loading an iterator program against it. Please report this bug.
WARNING: The kernel contains bpf_iter__ipv6_route struct but does not support loading an iterator program against it. Please report this bug.
WARNING: Could not read symbols from /sys/kernel/tracing/available_events: No such file or directory
Segmentation fault
또는, 아래와 같은 오류가 발생한다면?
$ sudo bpftrace -e 'kprobe:do_sys_open { printf("do_sys_open called\n"); }'
stdin:1:1-19: WARNING: do_sys_open is not traceable (either non-existing, inlined, or marked as "notrace"); attaching to it will likely fail
kprobe:do_sys_open { printf("do_sys_open called\n"); }
~~~~~~~~~~~~~~~~~~
Attaching 1 probe...
^Copen(/sys/kernel/tracing/kprobe_events): No such file or directory
WARNING: failed to detach probe: kprobe:do_sys_open
/sys/kernel/tracing/kprobe_events 등을 마운트하시면 됩니다.
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]