안녕하세요, 영자 디지문입니다.
여러분들께 좀 안 좋은 소식을 들려드리게 되어 죄송하고 또 죄송할 따름입니다.
어제 16일 14시 이후부터 서버가 또 말썽을 일으키더군요. 서비스 접속 안 되고 네트워크 핑만 되는 상태가 다시 발생하였습니다.
그런데 이번엔 종전보다 증상이 약간 달랐습니다. 아파치 웹서버는 살아 있는데 DB를 긁어 출력해야 하는 웹페이지가 출력이 안 되는 현상이 나타나더군요. 서버 상태를 보려 해도 SSH나 FTP 모두 접속이 되지 않는 것이었습니다.
17일 00시 50분 간신히 서버를 다시 올릴 수 있었습니다. 피시방 사장님께서 외출 나갔다 복귀하시자마자 밤새 수고해 주셔서 겨우 올릴 수 있었습니다.
그러나...
서버에서 레이드 컨트롤러가 인식되지 않는 것이었습니다.
다른 메인보드에 장착해 보아도 인식되지 않았습니다.
그렇습니다. 컨트롤러 자체가 나간 것이었습니다. 컨트롤러의 롬바이오스 칩이 나간 것으로 추정됩니다.
하드디스크 물리적 장애에 대비하고자 레이드 컨트롤러를 도입한 것인데 사실 레이드 컨트롤러 자체가 나가면 답이 없긴 합니다. 하지만 여타 부품에 비해 고장나는 빈도가 낮은 축에 속하는 부품인지라 신뢰하며 사용해 왔던 게 사실입니다.
레이드 컨트롤러에 연결된 하드디스크의 컨디션은 제대로 체크하더라도 정작 컨트롤러 자신의 컨디션은 제대로 체크 못하나 봅니다. 한 방에 그냥 훅 가네요. ㅡ,.ㅡ;;
레이드 컨트롤러에 연결된 레이드 어레이 쪽에 /home, MySQL 디비를 모두 위치시켜 놓고 운영하고 있었습니다. 하드디스크에 장애가 나더라도 서비스 중단 시간을 최대한 절감하자는 목적으로 레이트 어레이에 갱신 빈도가 가장 잦은 /home과 MySQL 디비를 위치시켜 놓은 것이죠.
그리고 물리적으로 다른 하드디스크에 하루 한 번씩 주기 백업도 해주면서 만약의 사태에 이중으로 대비하고 있었습니다.
레이드 컨트롤러는 그렇다 치고 더욱 문제가 되는 것이 하필 이번 하드웨어 장애가 빈번하게 일어나는 와중에 백업용 하드디스크가 자꾸 인식이 되었다 말았다 하는 증상이 나타나는 것입니다.
하드웨어 문제가 하도 골치라서 안 그래도 서버에 연결된 하드디스크 수를 최소화시키고 메인보드도 교체할 계획이었습니다.
지난 일주일 동안 잠시 백업본도 레이드 어레이 쪽에 저장되도록 운영하고 있었는데 손을 써보기도 전에 하필 장애가 발생해 버렸습니다. ㅜ,.ㅜ;;
최신 백업본마저 소멸되었다는 얘기입니다.
다행이 일주일 전에 12월 12일에 원격으로 백업을 받아놓은 데이터가 있어서 지금 그것으로 복구하고 있는 중입니다.
백업본 하나만큼은 자신 있다고 큰소리 쳐왔건만 이렇게 최악의 경우의 수를 만나 버리고 말았습니다.
레이드 컨트롤러 자체가 나가질 않나~ 하필 그 동안 백업용 하드디스크마저 문제가 있었질 않나...
지금 사무실에서 업무를 보는 틈틈히 복원 작업하고 있습니다. 아직 제대로 출력되지 않는 홈피들이 다수 있습니다. 완전히 다 끝나면 다시 재공지토록 하겠습니다.
--------------------------------------------------------------------------------------
17일 11시 30분에 1차 복원 작업 완료하였습니다. 제가 원격백업해 두었던 자료가 아마 12월 12일이나 13일 자료일 겁니다.
홈페이지에 이상한 에러 문구가 떠 있다거나 게시판 로그인이 안 되는 증상이 있는 등의 문제가 있는 분들께선 서슴없이 문의 주시기 바랍니다.
정말 죄송합니다. 백업의 중요성은 아무리 강조해도 지나치지 않음을 이번에 뼈저리게 느끼네요.
love2446, moonch 계정명 신청해 주신 분들을 찾습니다.