한국레드햇 너나우리 DNSEver qmail.kldp.org 어드민플레이

안녕하세요, 영자 디지문입니다.


11월 28일, 29일 동일 증상 및 원인으로 서버가 다운된 사실이 있었음을 알립니다.


1차 장애(11/28)
서비스 단절 시간 :  15:00 ~ 16:37
장애 최초 확인 당시 네트워크 핑은 가나 웹, FTP, SSH 등 서비스 접속 불가

2차 장애(11/29)
서비스 단절 시간: 20:00~ 22:22
증상 동일




▼ 1차 장애 발생 전후로 시스템 로그 상에 아래와 같은 패턴의 로그가 간헐적으로 발생

(SATA 전송대역폭이 UDMA/33으로 극저하)

Nov 29 12:09:52 digimoon kernel: BUG: warning at drivers/ata/libata-sff.c:1327/ata_sff_hsm_move() (Tainted: P     )
Nov 29 12:09:52 digimoon kernel:  [<f8924391>] ata_sff_hsm_move+0x69a/0x6e9 [libata]
Nov 29 12:09:52 digimoon kernel:  [<f896e2d3>] direct_read_completion+0x63/0x70 [hptmv]
Nov 29 12:09:52 digimoon kernel:  [<f896fcde>] CheckPendingCall+0x3e/0x60 [hptmv]
Nov 29 12:09:52 digimoon kernel:  [<f8925083>] ata_sff_interrupt+0x12b/0x1bc [libata]
Nov 29 12:09:52 digimoon kernel:  [<c044f1b5>] handle_IRQ_event+0x45/0x8c
Nov 29 12:09:52 digimoon kernel:  [<c044f280>] __do_IRQ+0x84/0xd6
Nov 29 12:09:52 digimoon kernel:  [<c044f1fc>] __do_IRQ+0x0/0xd6
Nov 29 12:09:52 digimoon kernel:  [<c04074b2>] do_IRQ+0x99/0xc3
Nov 29 12:09:52 digimoon kernel:  [<c0405946>] common_interrupt+0x1a/0x20
Nov 29 12:09:52 digimoon kernel:  [<c0403ce7>] mwait_idle+0x25/0x38
Nov 29 12:09:52 digimoon kernel:  [<c0403ca8>] cpu_idle+0x9f/0xb9
Nov 29 12:09:52 digimoon kernel:  =======================
Nov 29 12:09:52 digimoon kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
Nov 29 12:09:52 digimoon kernel: ata2.00: BMDMA stat 0x26
Nov 29 12:09:52 digimoon kernel: ata2.00: cmd 35/00:00:97:73:8d/00:04:02:00:00/e0 tag 0 dma 524288 out
Nov 29 12:09:52 digimoon kernel:          res 51/84:78:1f:75:8d/84:02:02:00:00/e0 Emask 0x30 (host bus error)
Nov 29 12:09:52 digimoon kernel: ata2.00: status: { DRDY ERR }
Nov 29 12:09:52 digimoon kernel: ata2.00: error: { ICRC ABRT }
Nov 29 12:09:52 digimoon kernel: ata2: soft resetting link
Nov 29 12:09:53 digimoon kernel: ata2.00: configured for UDMA/33
Nov 29 12:09:53 digimoon kernel: ata2: EH complete
Nov 29 12:09:53 digimoon kernel: SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
Nov 29 12:09:53 digimoon kernel: sdb: Write Protect is off
Nov 29 12:09:53 digimoon kernel: SCSI device sdb: drive cache: write back




분석 결과 장애 발생 당시의 커널 버전이 2.6.18-194.8.1.el5인 점으로 보아 아래 링크의 사례에 해당하는 것으로 추정(커널 버그)

https://bugzilla.redhat.com/show_bug.cgi?id=524243

https://bugzilla.kernel.org/show_bug.cgi?id=11065



커널 업그레이드 후 UDMA133으로 회복되는 것을 확인

Nov 29 22:22:29 digimoon kernel: SCSI subsystem initialized
Nov 29 22:22:29 digimoon kernel: ACPI: PCI Interrupt 0000:00:1f.2[B] -> GSI 19 (level, low) -> IRQ 209
Nov 29 22:22:29 digimoon kernel: ata_piix 0000:00:1f.2: MAP [ P0 P2 P1 P3 ]
Nov 29 22:22:29 digimoon kernel: scsi0 : ata_piix
Nov 29 22:22:29 digimoon kernel: scsi1 : ata_piix
Nov 29 22:22:29 digimoon kernel: ata1: SATA max UDMA/133 cmd 0xd400 ctl 0xd080 bmdma 0xc880 irq 209
Nov 29 22:22:29 digimoon kernel: ata2: SATA max UDMA/133 cmd 0xd000 ctl 0xcc00 bmdma 0xc888 irq 209
Nov 29 22:22:29 digimoon kernel: ata1.00: HPA detected: current 625140335, native 625142448
Nov 29 22:22:29 digimoon kernel: ata1.00: ATA-8: WDC WD3200AAKS-00V1A0, 05.01D05, max UDMA/133
Nov 29 22:22:29 digimoon kernel: ata1.00: 625140335 sectors, multi 16: LBA48 NCQ (depth 0/32)
Nov 29 22:22:29 digimoon kernel: ata1.00: configured for UDMA/133
Nov 29 22:22:29 digimoon kernel: ata2.00: ATA-8: WDC WD3200AAKS-00V1A0, 05.01D05, max UDMA/133
Nov 29 22:22:29 digimoon kernel: ata2.00: 625142448 sectors, multi 16: LBA48 NCQ (depth 0/32)
Nov 29 22:22:29 digimoon kernel: ata2.00: configured for UDMA/133
Nov 29 22:22:29 digimoon kernel:   Vendor: ATA       Model: WDC WD3200AAKS-0  Rev: 05.0
Nov 29 22:22:29 digimoon kernel:   Type:   Direct-Access                      ANSI SCSI revision: 05
Nov 29 22:22:29 digimoon kernel: SCSI device sda: 625140335 512-byte hdwr sectors (320072 MB)
Nov 29 22:22:29 digimoon kernel: sda: Write Protect is off
Nov 29 22:22:29 digimoon kernel: SCSI device sda: drive cache: write back
Nov 29 22:22:29 digimoon kernel: SCSI device sda: 625140335 512-byte hdwr sectors (320072 MB)
Nov 29 22:22:29 digimoon kernel: sda: Write Protect is off
Nov 29 22:22:29 digimoon kernel: SCSI device sda: drive cache: write back



입주자 여러분의 불편이 없는 원활한 서버 운영을 위해 최선을 다하도록 하겠습니다.

덕분에 서버 속도도 많이 원활해진 것 같습니다. 백업 시간도 꽤 단축되었고요.

조회 수 :
14300
등록일 :
2010.11.30
18:42:38 (*.144.181.1)
엮인글 :
http://hosting.digimoon.net/board/36732/499/trackback
게시글 주소 :
http://hosting.digimoon.net/board/36732

[레벨:2]청량

2010.12.01
22:56:18
(*.211.53.10)

항상 힘써주시니 감사합니다 ^^*

[레벨:15]id: 디지문디지문

2010.12.04
22:55:07
(*.74.175.5)

젠장~ 버그메시지가 또 발생하는군요. 커널 업그레이드가 해결이 아닌 듯... 하드웨어 문제려나... ㅜ,.ㅜ;;

List of Articles
번호 제목 글쓴이 날짜 조회 수
152 <서비스 일시 중단 공지> 서버 보안 점검 중입니다 [15] [레벨:15]id: 디지문디지문 2011-02-16 15045
151 <서버 장애 공지> DDoS 공격이 있었습니다 [10] imagefile [레벨:15]id: 디지문디지문 2011-02-14 13931
150 <서버 장애 공지> 죄송하고 또 죄송합니다... 좀 큰 문제입니다 [6] [레벨:15]id: 디지문디지문 2010-12-17 11375
149 <서버 장애 공지> 24시간 가까이 서비스 중단된 사연 안내 [7] [레벨:15]id: 디지문디지문 2010-12-05 11373
» 11월 28일, 29일 서버 장애 안내 [2] [레벨:15]id: 디지문디지문 2010-11-30 14300
147 2010년 11월 27일 계정 발급 다시 시작합니다 [레벨:15]id: 디지문디지문 2010-11-27 9849
146 10월 17일은 디지문호스팅 생일입니다!!! [10] [레벨:15]id: 디지문디지문 2010-10-17 21303
145 9월 9일 서버 장애 공지입니다 imagefile [레벨:15]id: 디지문디지문 2010-09-10 10502
144 계정 발급을 당분간 중단합니다 [2] [레벨:15]id: 디지문디지문 2010-08-20 10346
143 7월 26일 회수 계정 명단입니다 [2] [레벨:15]id: 디지문디지문 2010-07-26 10510
142 <필독 중요 공지> 7월 17일 am 01:00 서버 이전 공지 [4] [레벨:15]id: 디지문디지문 2010-07-02 9415
141 6월 7일~21일 회원가입 실패하신 분들께 알립니다 [레벨:15]id: 디지문디지문 2010-06-21 9985
140 <6월 7일 22:00 서버 장애 복원 공지> [10] imagefile [레벨:15]id: 디지문디지문 2010-06-07 10493
139 5월 29일 기술지원 일시 불가 안내 [레벨:15]id: 디지문디지문 2010-05-28 8478
138 <17일 08시 서버 장애 복원 공지> [4] imagefile [레벨:15]id: 디지문디지문 2010-05-17 9007
137 비툴 사이트 입주를 금지합니다. [레벨:15]id: 디지문디지문 2010-05-09 11761
136 서버 장애 공지입니다(하드디스크 문제) [4] [레벨:15]id: 디지문디지문 2010-03-29 9579
135 백업 시간이 길어지고 있어 입주자 여러분의 협조를 구합니다 [레벨:15]id: 디지문디지문 2010-03-09 9071
134 3월 4일 하드디스크 입출력 오류 증상이 있었습니다 [레벨:15]id: 디지문디지문 2010-03-04 10229
133 (긴급 공지) 제로보드 4.X 심각한 취약점 발견 [1] [레벨:15]id: 디지문디지문 2010-02-24 13177
132 2월 4일부터 한메일로 메일 발송이 안 되는 문제 발생 [1] [레벨:15]id: 디지문디지문 2010-02-21 12043
131 2얼 17일 회수 계정 명단입니다 [1] [레벨:15]id: 디지문디지문 2010-02-17 9452
130 1월 25일 ~ 2월 12일 호스팅 회원가입 실패하신 분들께 공지드립니다 [레벨:15]id: 디지문디지문 2010-02-12 7231
129 <중요 공지>suPHP 도입 예정입니다. [3] [레벨:15]id: 디지문디지문 2010-02-05 9128
128 서버 다운 있었습니다 [레벨:15]id: 디지문디지문 2010-01-26 8424
127 <서버 이전 완료>서버 이전 날짜 확정 공지입니다 [7] [레벨:15]id: 디지문디지문 2010-01-24 10652
126 <필독 공지>원활한 서버 이전을 위한 퍼블릭도메인 설정 안내입니다. imagefile [레벨:15]id: 디지문디지문 2010-01-22 11861
125 <필독 공지>한시적으로 트래픽을 제한합니다. [5] [레벨:15]id: 디지문디지문 2010-01-20 8184
124 <중대 발표>디지문호스팅 서버 이전 계획입니다 [12] [레벨:15]id: 디지문디지문 2010-01-14 10166
123 <해결>한메일로 메일 발송이 안 되는 문제 [1] [레벨:15]id: 디지문디지문 2010-01-09 7162