본문 바로가기
프로그램.../프로....Kernel

[커널 패닉] 디버깅

by 크크다스 2014. 10. 17.
반응형

== 커널 패닉 관련 블로그 들을 링크해본다.

= 키워드

. 커널 패닉 분석

= crash 사용법 : http://lapan.tistory.com/67

= objdump를 이용한 커널 oops 메세지 분석과 디버깅 : http://forum.falinux.com/zbxe/index.php?document_srl=533239&mid=lecture_tip

/opt/IPQ/ipq8066-ln-1-1_qca_oem_standard-standard/qsdk/staging_dir/toolchain-arm_v7-a_gcc-4.6-linaro_uClibc-0.9.33.2_eabi/bin/arm-openwrt-linux-objdump

/ProjFp/trunk/IPQ4/ipq8066-ln-1-1_qca_oem_standard-standard/qsdk/build_dir/linux-ipq806x/qca-wifi-10.2.2.60.9-akronite-perf/qca-wifi-10.2.2.60.9/umac/base

bin/arm-openwrt-linux-objdump -D ieee80211_common.o > ieee80211_common.objdump

PC is at start_kernel+0x2b0/0x350

=> 프로그램 카운터가 바로 start_kernel + 0x2b0 에 있다

=> 0x350  ===>>> 요 녀석은 바로 start_kernel 의 함수의 크기

=> 헥사로 0x2b0 면 함수의 뒤쪽

  ?? PC is at ieee80211_priv_wlan_vap_iter+0x84/0x158 [umac]

arm-linux-objdump -D init/main.o 

start_kernel 함수의 시작이 0x474

0x474 + 0x2b0 = 0x724 이다. 그 위치를 확인하자.

724: e5823000 str r3, [r2]

이번에는 -S 옵션을 써보자(*** 제일 중요)

arm-linux-objdump -X init/main.o

=> 코드별로 나와 있어서 매우 찾기 쉬움 / 실제 소스와 찾은 위치에서 비교

이번에는 -x 옵션을 써보자
arm-linux-objdump -x init/main.o

내가 원하는 것만 표시하겠다.
000006e0 R_ARM_PC24        page_writeback_init
000006e4 R_ARM_PC24        proc_root_init
000006e8 R_ARM_PC24        check_writebuffer_bugs
000006ec R_ARM_PC24        trap_yyc
00000714 R_ARM_PC24        printk
00000730 R_ARM_PC24        printk
0000073c R_ARM_PC24        printk
00000740 R_ARM_PC24        .text.init.refok

오호... 내가 원하는 724 의 위치 이전에 trap_yyc 가 있고, 
그 뒤에 printk 가 하나 있고 그 다음 printk 가 나오는 사이로군...
그렇다면 첫번째 printk 거나 그 사이에 어딘가 문제를 일으킨다.

724: e5823000 str r3, [r2]
를 이전에 찾았었다.
알다시피 의미는 [r2] 에 r3를 넣으라는 것이었다.


---------------------- crash 사용법 ---------------------

보통 core파일은 응용 프로그램가 crash날 때, 사용되곤 한다. 

그런데 만약 커널 패닉이 발생하는 상황은 어덯게 대처해야 할까? 

커널 패닉의 경우에도 core 파일이 생기며, vmcore라는 이름으로 아래 경로에

생기는 듯 하다. 

/var/crash/xxxx-xx-xx-xx:xx:xx/vmcore


그렇다면 이를 어떻게 분석할 수 있을까?

아래와 같이 crash 명령어를 사용하여 분석할 수 있다. 


출처 - http://joonlinux.blogspot.kr/2011/02/blog-post.html

리눅스 커널 코어 덤프 분석하기 


1. 커널 코어 분석 유틸리티 설치하기

 yum install --enablerepo=rhel-debuginfo crash kernel-debuginfo

2.커널 코어덤프 파일 분석 시작 하기

crash /usr/lib/debug/lib/modules/<커널 릴리즈 버전>/vmlinux \
/var/crash/xxxx-xx-xx-xx:xx:xx/vmcore

3.커널 메세지 버퍼내용 확인하기
crash > log

4.커널 satck trace  정보 확인하기
crash > bt

5. 프로세서 상태 확인하기
crash > ps

6. virtual memory 정보 확인하기
crash > vm

7. open file 확인하기
crash > files

- crash 명령 소개 

sys - 시스템의 일반적인 정보를 출력해 준다.
bt - Backtrace 명령. 스택의 내용들을 순차적으로 출력해준다.
ps - Process list 출력.
free - Memory 및 스왑 상태 출력.
mount - 마운트 상태 출력
irq - 각 장치의 ( irq ) 상태를 출력.
kmem - 메모리 상태 출력 ( kmalloc, valloc 등 메모리 할당 상태도 보여줌 )
log - dmesg 의 내용을 출력.
mod - 로딩된 모듈 리스트 출력.
net - Network 상태 출력.
runq - 실행중인 task 리스트 출력.
task - 작업목록 출력.
rd - 메모리 번지수에 대한 상세정보 출력.
foreach - 모든 task, process 등 디버깅 정보에 대한 상세한 출력이 가능함.
set - 설정된 주소 및 PID 등을 기본 컨텍스트로 설정.
struct - 구조화된 메모리 내부의 변수들을 출력해 준다.
files - task 가 열고있는 파일디스크립터들을 출력해준다.

또는, 아래의 문서를 참고하면 좋을 듯 하다 
출처 - http://cafe.daum.net/redhat/COsR/29?docid=1HjQ8COsR2920090904142417

 Kernel_Dump_Analysis.pdf


---------------------- crash 사용법 ---------------------
objdump를 이용한 oops 메세지 분석을 통한 디버깅.

쉽게 쉽게... 고의로 커널 패닉을 낸후에 그 위치를 찾는 방법을 설명한다.

커널 패닉의 종류는 꽈꽉 꼬여있는 라이브러리에서 발생하기도 하고 도저히 찾을수 없는
위치에 존재하기도 한다.(그런 경우는 알아서 하자)

다만, printk 를 한줄씩 넣어가면 하는 디버깅보다는 운이 좋다면 한번에 정확한 위치를 찾을수도 있다.

커널의 init/main.c 함수에는 start_kernel  함수가 있다.
여기에서 고의로 널포인터를 넣고 웁스 패닉을 낸후에 그 위치를 찾아보자.


문제의 소스이다.
init/main.c 의 start_kernel 함수의 맨 마지막 위치이다.

    /* Do the rest non-__init'ed, we're now alive */
    trap_yyc();
    swmem = VMALLOC_START;
    printk("virt to phys 0x%x\n", virt_to_phys(swmem));
    *swmem = 0x12345678;
    printk("--------------------------- 0x%x\n", *swmem);
    printk("--------------------------- 0x%p\n", swmem);
    rest_init();

VMALLOC_START 위치는 당연히 물리적으로 갖고 있는 메모리의 위치 바로 위에 존재한다.
따라서 그런 곳에 포인터를 두고 access 를 시도하면 100% 웁스가 발생한다.

발생한 커널 웁스 메세지이다.

Unable to handle kernel paging request at virtual address c2800000
pgd = c0004000
[c2800000] *pgd=21c14011, *pte=00000000, *ppte=00000000
Internal error: Oops: 807 [#1]
Modules linked in:
CPU: 0    Not tainted  (2.6.24 #135)
PC is at start_kernel+0x2b0/0x350
LR is at 0xc033a3a4
pc : [<c0008ae4>]    lr : [<c033a3a4>]    psr: 60000053
sp : c0335fd4  ip : c033a3a4  fp : c0335ff4
r10: 2002132c  r9 : 41069265  r8 : 20021360
r7 : c0337cd4  r6 : c0022f28  r5 : c035626c  r4 : c0355e24
r3 : 12345678  r2 : c2800000  r1 : 00000001  r0 : c02ebf70
Flags: nZCv  IRQs on  FIQs off  Mode SVC_32  ISA ARM  Segment kernel
Control: 0005317f  Table: 20004000  DAC: 00000017
Process swapper (pid: 0, stack limit = 0xc0334258)
Stack: (0xc0335fd4 to 0xc0336000)
5fc0:                                              c0008470 c0022f28 00053175 
5fe0: c0356728 c0022f24 00000000 c0335ff8 20008034 c0008844 00000000 00000000 
Backtrace: 
[<c0008834>] (start_kernel+0x0/0x350) from [<20008034>] (0x20008034)
 r6:c0022f24 r5:c0356728 r4:00053175
Code: eb01240a e5942000 e59f3094 e59f0094 (e5823000) 
---[ end trace ca143223eefdc828 ]---
Kernel panic - not syncing: Attempted to kill the idle task!

흠... 일단 익숙한 함수가 보인다 start_kernel 이다.  그 함수에서 실행한 무언가에 문제가 있는건 확실하다.
한줄씩 printk 를 넣어서 어디까지 실행하는지 확인해 볼까?

한가지만 해보고 그런 디버깅은 시도하자.
위에서 보면 매우 중요한 정보가 하나 있다.

PC is at start_kernel+0x2b0/0x350

프로그램 카운터가 바로 start_kernel + 0x2b0 에 있다는 것이다. 
그리고 0x350  ===>>> 요 녀석은 바로 start_kernel 의 함수의 크기이다.
오호.... 헥사로 0x2b0 면 함수의 뒤쪽에 있나 보군...
자 첫번째 유추를 할수 있다. 하지만 이것으로는 좀 부족하다.

위의 유추는 정확한가?  System.map 파일을 보고 검증해보자.
vi System.map 으로 본 내용이다.

   31 c00087b8 T parse_early_param
   32 c0008824 W smp_setup_processor_id
   33 c0008834 T start_kernel
   34 c0008b84 t initcall_debug_setup
   35 c0008ba4 t nosoftlockup_setup
   36 c0008bc4 t kernel_init

웁스의 밑에 보면 
[<c0008834>] (start_kernel+0x0/0x350) from [<20008034>] (0x20008034)

kernel_start 함수의 위치와 어디에서 호출되었는지 정보가 있다.
역시 System.map 파일을 보면 __enable_mmu 이다.  이건 그냥 넘어가자.


다시 본론으로 돌아와서 우리가 알고 있는 정보는 문제가 발생한곳이
start_kernel + 0x2b0 위치에 있다는 것이다.

이제 objdump 를 이용해 보자.
내가 사용하려고 하는 옵션은 두가지 이다.

첫번째로 -D 옵션이다.
이것은 disassemble 을 하는데 모조리 표시해 달라고 한다.
arm-linux-objdump -D init/main.o 

이중에 내가 원하는 함수의 역어셈블 화면을 보자.
00000474 <start_kernel>:
 474: e1a0c00d mov ip, sp
 478: e92dd870 stmdb sp!, {r4, r5, r6, fp, ip, lr, pc}
 47c: e24cb004 sub fp, ip, #4 ; 0x4
 480: e24dd008 sub sp, sp, #8 ; 0x8

...... 중간 생략

 700: e2833502 add r3, r3, #8388608 ; 0x800000
 704: e1a03ba3 mov r3, r3, lsr #23
 708: e1a03b83 mov r3, r3, lsl #23
 70c: e2831206 add r1, r3, #1610612736 ; 0x60000000
 710: e5843000 str r3, [r4]
 714: ebfffffe bl 714 <start_kernel+0x2a0>
 718: e5942000 ldr r2, [r4]
 71c: e59f3094 ldr r3, [pc, #148] ; 7b8 <.init.text+0x7b8>
 720: e59f0094 ldr r0, [pc, #148] ; 7bc <.init.text+0x7bc>
 724: e5823000 str r3, [r2]
 728: e5943000 ldr r3, [r4]
 72c: e5931000 ldr r1, [r3]
 730: ebfffffe bl 730 <start_kernel+0x2bc>
 734: e5941000 ldr r1, [r4]
 738: e59f0080 ldr r0, [pc, #128] ; 7c0 <.init.text+0x7c0>
 73c: ebfffffe bl 73c <start_kernel+0x2c8>
 740: ebfffffe bl 740 <start_kernel+0x2cc>
 744: e24bd018 sub sp, fp, #24 ; 0x18
 748: e89da870 ldmia sp, {r4, r5, r6, fp, sp, pc}
...
 75c: 00000378 andeq r0, r0, r8, ror r3
...
 76c: 00000010 andeq r0, r0, r0, lsl r0
 770: 0000037c andeq r0, r0, ip, ror r3
 
 ... 나머지 생략


위의 정보에서 start_kernel 함수의 시작이 0x474 이다.
이유는 잘 아시다시피 링크되기 전의 오브젝트 파일이니까.
그러면 0x474 + 0x2b0 = 0x724 이다.
그 위치를 확인하자.

 714: ebfffffe bl 714 <start_kernel+0x2a0>
 718: e5942000 ldr r2, [r4]
 71c: e59f3094 ldr r3, [pc, #148] ; 7b8 <.init.text+0x7b8>
 720: e59f0094 ldr r0, [pc, #148] ; 7bc <.init.text+0x7bc>
 724: e5823000 str r3, [r2]
 728: e5943000 ldr r3, [r4]
 72c: e5931000 ldr r1, [r3]
 730: ebfffffe bl 730 <start_kernel+0x2bc>
 734: e5941000 ldr r1, [r4]
 738: e59f0080 ldr r0, [pc, #128] ; 7c0 <.init.text+0x7c0>
 73c: ebfffffe bl 73c <start_kernel+0x2c8>
 740: ebfffffe bl 740 <start_kernel+0x2cc>
 744: e24bd018 sub sp, fp, #24 ; 0x18
 748: e89da870 ldmia sp, {r4, r5, r6, fp, sp, pc}
 

문제가 되는 실행 라인은 찾았다
 724: e5823000 str r3, [r2]
히자만 여기가 정확히 어디인지 아직 봐야 할 것이 남아있다.

이번에는 -x 옵션을 써보자
arm-linux-objdump -x init/main.o

내가 원하는 것만 표시하겠다.
000006e0 R_ARM_PC24        page_writeback_init
000006e4 R_ARM_PC24        proc_root_init
000006e8 R_ARM_PC24        check_writebuffer_bugs
000006ec R_ARM_PC24        trap_yyc
00000714 R_ARM_PC24        printk
00000730 R_ARM_PC24        printk
0000073c R_ARM_PC24        printk
00000740 R_ARM_PC24        .text.init.refok

오호... 내가 원하는 724 의 위치 이전에 trap_yyc 가 있고, 
그 뒤에 printk 가 하나 있고 그 다음 printk 가 나오는 사이로군...
그렇다면 첫번째 printk 거나 그 사이에 어딘가 문제를 일으킨다.

다시 소스를 보자. 
    /* Do the rest non-__init'ed, we're now alive */
    trap_yyc();
    swmem = VMALLOC_START;
    printk("virt to phys 0x%x\n", virt_to_phys(swmem));
    *swmem = 0x12345678;
    printk("--------------------------- 0x%x\n", *swmem);
    printk("--------------------------- 0x%p\n", swmem);
    rest_init();

trap_yyc 소스뒤에 printk 가 하나 있고 두번째 printk 사이에 
잘못된 포인터에 데이타를 넣는 것이 보인다.

724: e5823000 str r3, [r2]
를 이전에 찾았었다.
알다시피 의미는 [r2] 에 r3를 넣으라는 것이었다.

이제 oops 메세지 분석으로 문제가 되는 위치를 찾았다.


참고... 절대 실제로  항상 이렇게 찾을 거라 생각하지 말자.
이건 상당히 운이 좋은 케이스에 불과하기 때문이다.
그럼에도 불구하고 생각보다 oops 메세지는 우리에게 많은 정보를 주는 것도 사실이다.


반응형