Hyper-V + Realtek 랜카드가 설치된 시스템의 BSOD 현상
Hyper-V를 호스팅하고 있는 시스템이 갑자기 BSOD로 넘어가는 현상이 발생했습니다. 아래는 그 시간대에 남겨진 2개의 이벤트 로그인데,
Log Name: System
Source: Microsoft-Windows-WER-SystemErrorReporting
Date: 2011-07-04 오후 10:23:28
Event ID: 1001
Task Category: None
Level: Error
Keywords: Classic
User: N/A
Computer: MAINTEST
Description:
The computer has rebooted from a bugcheck. The bugcheck was: 0x000000d1 (0xfffffa8414c9a4cc, 0x0000000000000002, 0x0000000000000001, 0xfffff880015e29ed).
A dump was saved in: C:\Windows\MEMORY.DMP. Report Id: 070411-43321-01.
Log Name: System
Source: Microsoft-Windows-Kernel-Power
Date: 2011-07-04 오후 10:22:49
Event ID: 41
Task Category: (63)
Level: Critical
Keywords: (2)
User: SYSTEM
Computer: MAINTEST
Description:
The system has rebooted without cleanly shutting down first. This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
다행히, 첫 번째 로그에 보면 "C:\Windows\MEMORY.DMP" 위치를 알려주고 있어서, 이 파일을 windbg의 "!analyze -v"로 확인해서 다음과 같은 결과를 얻었습니다.
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
Use !analyze -v to get detailed debugging information.
BugCheck D1, {fffffa8414c9a4cc, 2, 1, fffff880015e29ed}
Probably caused by : Rt64win7.sys ( Rt64win7!MpPollingDpc+f31 )
Followup: MachineOwner
---------
0: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
DRIVER_IRQL_NOT_LESS_OR_EQUAL (d1)
An attempt was made to access a pageable (or completely invalid) address at an
interrupt request level (IRQL) that is too high. This is usually
caused by drivers using improper addresses.
If kernel debugger is available get stack backtrace.
Arguments:
Arg1: fffffa8414c9a4cc, memory referenced
Arg2: 0000000000000002, IRQL
Arg3: 0000000000000001, value 0 = read operation, 1 = write operation
Arg4: fffff880015e29ed, address which referenced memory
Debugging Details:
------------------
WRITE_ADDRESS: fffffa8414c9a4cc
CURRENT_IRQL: 2
FAULTING_IP:
Rt64win7!MpPollingDpc+f31
fffff880`015e29ed 89848ffc340000 mov dword ptr [rdi+rcx*4+34FCh],eax
DEFAULT_BUCKET_ID: VISTA_DRIVER_FAULT
BUGCHECK_STR: 0xD1
PROCESS_NAME: System
TRAP_FRAME: fffff80001bda320 -- (.trap 0xfffff80001bda320)
NOTE: The trap frame does not contain all registers.
Some register values may be zeroed or incorrect.
rax=00000000008bc84f rbx=0000000000000000 rcx=00000000fffffff4
rdx=fffff80001bda4ec rsi=0000000000000000 rdi=0000000000000000
rip=fffff880015e29ed rsp=fffff80001bda4b0 rbp=0000000000000001
r8=0000000000000000 r9=00000000008bc84f r10=fffff8000200ee80
r11=0000000000000002 r12=0000000000000000 r13=0000000000000000
r14=0000000000000000 r15=0000000000000000
iopl=0 nv up ei pl nz na pe nc
Rt64win7!MpPollingDpc+0xf31:
fffff880`015e29ed 89848ffc340000 mov dword ptr [rdi+rcx*4+34FCh],eax ds:9c20:34cc=????????
Resetting default scope
LAST_CONTROL_TRANSFER: from fffff80001e9b2a9 to fffff80001e9bd00
STACK_TEXT:
fffff800`01bda1d8 fffff800`01e9b2a9 : 00000000`0000000a fffffa84`14c9a4cc 00000000`00000002 00000000`00000001 : nt!KeBugCheckEx
fffff800`01bda1e0 fffff800`01e99f20 : fffff800`01bda380 fffff880`01b03925 fffff800`00040001 00000000`00000000 : nt!KiBugCheckDispatch+0x69
fffff800`01bda320 fffff880`015e29ed : 00000000`0000001c 00000000`00000001 00000000`00000000 fffffa80`14c97000 : nt!KiPageFault+0x260
fffff800`01bda4b0 fffff880`01099138 : fffffa80`14b131a0 fffff800`01f89e01 fffffa80`14dad230 fffffa80`14b119b0 : Rt64win7!MpPollingDpc+0xf31
fffff800`01bda530 fffff800`01ea7652 : 00000000`00000001 00000000`00000000 00000000`00000000 00000000`00000057 : NDIS!ndisMTimerObjectDpc+0xa8
fffff800`01bda570 fffff800`01ea74f6 : fffffa80`1ba2a168 fffffa80`1ba2a168 00000000`00000000 00000000`00000000 : nt!KiProcessTimerDpcTable+0x66
fffff800`01bda5e0 fffff800`01ea73de : 0000015d`72b79650 fffff800`01bdac58 00000000`0092cd98 fffff800`02012588 : nt!KiProcessExpiredTimerList+0xc6
fffff800`01bdac30 fffff800`01ea71c7 : 0000015d`b8a654c2 fffffa80`0092cd98 fffffa80`14bb2000 00000000`00000098 : nt!KiTimerExpiration+0x1be
fffff800`01bdacd0 fffff800`01e93a2a : fffff800`0200ee80 fffff800`0201ccc0 00000000`00000000 fffff880`01406050 : nt!KiRetireDpcList+0x277
fffff800`01bdad80 00000000`00000000 : fffff800`01bdb000 fffff800`01bd5000 fffff800`01bdad40 00000000`00000000 : nt!KiIdleLoop+0x5a
STACK_COMMAND: kb
FOLLOWUP_IP:
Rt64win7!MpPollingDpc+f31
fffff880`015e29ed 89848ffc340000 mov dword ptr [rdi+rcx*4+34FCh],eax
SYMBOL_STACK_INDEX: 3
SYMBOL_NAME: Rt64win7!MpPollingDpc+f31
FOLLOWUP_NAME: MachineOwner
MODULE_NAME: Rt64win7
IMAGE_NAME: Rt64win7.sys
DEBUG_FLR_IMAGE_TIMESTAMP: 49a65b0d
FAILURE_BUCKET_ID: X64_0xD1_Rt64win7!MpPollingDpc+f31
BUCKET_ID: X64_0xD1_Rt64win7!MpPollingDpc+f31
Followup: MachineOwner
---------
Rt64win7.sys 파일은 Realtek 랜 카드의 디바이스 드라이버였는데, 운영체제에서 기본 제공되는 것으로 아무래도 너무 예전에 만들어진 거라서 문제가 발생한 것 같았습니다. 제 시스템에는 메인보드에 내장된 것과 함께 별도로 Realtek PCI 랜 카드가 장착된 상태였고 두 가지의 모델이 달라서 각각 다음의 디바이스 드라이버로 업데이트를 시켜 주었습니다.
RTL8111B/RTL8168B/RTL8111/RTL8168
RTL8111C/RTL8111CP/RTL8111D(L)
RTL8168C/RTL8111DP/RTL8111E
RTL8168E/RTL8111F
; http://www.realtek.com/downloads/downloadsView.aspx?Langid=1&PNid=13&PFid=5&Level=5&Conn=4&DownTypeID=3&GetDown=false
RTL8110S-32/RTL8110SB(L)/RTL8169SB(L)/RTL8169SC(L)
RTL8169 (RTL8110SC(L))
; http://www.realtek.com/downloads/downloadsView.aspx?Langid=1&PNid=13&PFid=4&Level=5&Conn=4&DownTypeID=3&GetDown=false&Downloads=true
그런데, 문제가 발생하는군요. ^^;
2개의 랜 카드와 연관된 네트워크 상태가 "Enabled"와 "Network cable unplugged" 상태를 반복하면서 통신이 안되는 현상이 나온 것입니다. (길가에 ㄷ 피하려다가, ㄷ차에 깔렸다는 경우가 바로 이런 것을 두고 한 말이겠지요.)
다른 컴퓨터를 통해 "Realtek Enabled Network cable unplugged"라는 문자열로 검색을 해보니, 유사한 사례가 제법 검색이 되었습니다.
Keeps cycling between Network Cable Unplugged and Enabled
; http://www.tomshardware.com/forum/29017-42-keeps-cycling-network-cable-unplugged-enabled
위의 글에 보면 아래와 같은 내용이 나오는데,
So, the problem is partially solved.
Net is 10/100Mbps and the network switch is configured as Auto-negotitation.
Do not know why but fixing the speed to of my board to 10Mbps it is able to connect to the network.
If I try auto-negotiation or fixing 100Mbps it does not.
Will investigate further why this does not work but for now I will stick to the 10Mbps and be able to use the printers and access local storage
Thanks for the help
제 경우에도, 디바이스 드라이버 고급 옵션에서 "10 Mbps Full Duplex"로 변경하는 것으로 일단 그 현상은 해결할 수 있었습니다.
스위칭 장비와 맞지 않아서 나타나는 문제라고들 하는데, 10Mbps로 내리라는 것은 분명 해결책이라고 볼 수 없을 것 같습니다. 문제군요... 언제 발생할지도 모를 BSOD를 감수하면서 이전 디바이스 드라이버를 사용하는 것이 맞을지...? 혹시나 BSOD 문제가 해결되었을지도 불확실한 10Mbps 제한의 새로운 디바이스 드라이버를 굳이 사용해야 하는지...?
아니면, Realtek이 아닌 다른 랜 카드를 별도로 구매하는 것이 더 나은 선택일지도 모르겠습니다.
참고로, Hyper-V 시스템에서는 Realtek 카드가 문제가 있긴 한가 봅니다.
"Memory Management" Blue Screen Of Death On Host
; http://social.technet.microsoft.com/Forums/en-US/winserverhyperv/thread/a837e41c-1a72-40df-89fa-fe2fa6f9c6e8/
한가지 더! 검색을 하다보니 "Hyper V + i7"의 조합에서도 BSOD가 발생하는 경우가 있다는 글들이 나오는데, 알아둘 필요는 있을 것 같습니다. ^^
Server 2008 R2 Hyper-V / Intel I7 - Blue Screen of Death
; http://www.sudonym.com/275/server-2008-r2-hyper-v-intel-i7-blue-screen-of-death
An update rollup package for the Hyper-V role in Windows Server 2008 R2: August 24, 2010
; http://support.microsoft.com/kb/2264080
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]