IT/Linux/Kubernetes

[모범 사례] SK C&C 데이터센터 화재, 네이버는 어떻게 빠른 복구가 가능했을까?

안녕하세요. ManVSCloud 김수현입니다.

지난 2022년 10월 15일 15시 30분 경, SK C&C 판교 데이터센터 화재 발생으로 여론이 집중되고 있습니다.

다양한 업체들이 SK C&C 판교 데이터센터 화재로 큰 피해를 입은 상태입니다.

오늘은 재난 상황 속에서 네이버는 어떻게 빠른 복구가 가능했을지에 대해 알아보도록 하겠습니다.

세부적인 이야기에 들어가기 앞서 이번 화재에 인명 피해가 없음에 감사합니다.


그것마저 전략이었다

안타깝게도 이번 화재로 인해 사회적 질타를 받고 있는 서비스 제공 업체들이 있습니다.

1차 원인은 화재가 발생한 SK C&C지만 서비스를 사용하는 사용자 입장에서는 사용하는 서비스를 제공하는 업체에서 얼마나 빠르게 서비스를 복구하여 사용자의 불편함을 해결해주는가에 따라 서비스에 대한 평가가 달라집니다.

네이버는 이번 재난 대응으로 사용자들에게 좋은 평가를 받고 있습니다.
(주가도 함께…)

아무래도 타 업체들과 네이버가 지속적으로 비교되고 있는데 피해 규모와 대응 속도의 차이가 확연하게 차이가 났기때문으로 보입니다.

네이버는 네이버 쇼핑 및 일부 이미지 로딩, 검색 결과 표시 부분만 오류가 발생했고 이는 2시간내에 복구가 되었으나 대부분의 타 업체는 모든 서비스가 마비되었으며 일부 서비스를 복구하기까지 상당히 오랜 시간이 소요되었습니다.

“네이버는 피해 규모부터 작았으니 당연히 타 업체보다 복구 시간이 짧은 게 아닌가?”라고 생각될 것입니다.

과연 그럴까?!

네이버는 재난 상황을 대비해 매우 전략적으로 설계를 했기때문에 사용자 입장에서 피해 규모가 작구나…라고 느껴졌을뿐 실제로는 2~3만대 이상의 서버 규모가 존재했다는 사실!!

어…어떻게 했…지?

네이버는 이런 부분까지 미리 예상하고 전략적으로 서비스 컴포넌트들을 분산 배치 및 백업을 하고 있었으며 모든 주요 서비스의 이중화를 통해 IDC 장애를 대비하고 있었습니다.

이 부분이 네이버의 강력함을 알 수 있는 부분이라 생각됩니다.

왜냐?

인프라를 구축하거나 운영하는 담당자들은 알고 있을 것입니다.
“이중화 필수입니다.”, “백업은 꼭 해야합니다.”, “암호화 해야해요” 등… 항상 입에 달고 살지만 결정권자로부터 “비용 낮춰야하니 중요한 서비스가 아니면 굳이 안하겠다”라는 말을 돌려받습니다.

네이버는 이번 재난을 통하여 뜻밖에 “우린 이런 부분에 돈 아끼지 않아, 네이버는 안전해”라고 증명한 셈입니다.


네이버도 장애였었나요?

월요일 아침 출근 후 데이터센터 화재에 대한 소식은 상당한 이슈거리가 아닐 수 없었을 것입니다.

IT와 거리가 먼 사람들 역시 재난으로 인해 겪은 서비스 통신 마비에 대한 이야기가 끊이지 않았는데 놀랍게도 네이버 역시 화재 피해를 입었고 장애가 발생했다는 사실을 모르는 사람들이 있었다는 것입니다.

위에서 언급한대로 ‘일부 서비스만 장애가 발생했기때문에’라는 이유도 있지만 또 다른 이유로는 서비스 이중화 및 분산처리 운영이 너무 잘 되어 있었기 때문입니다.
재해 발생 시 내부 프로세스에 따른 기민한 대응을 한 것으로 보아 DR 테스트 훈련도 정기적으로 했을 것으로 생각됩니다.

무려 2시간 내에 복구가 완료되어 해당 시간 외에 사용자들은 장애를 겪지않고 정상적인 서비스를 사용하게된 것입니다.

2시간이라는 시간이 길어보일 수도 있지만 그렇지 않습니다.

서비스는 매출과 직결되므로 죽지 않아야합니다.
죽더라도 최단 시간 내에 복구가 되어야하는데 이러한 시스템이 죽지않고 정상적으로 이용이 가능한 정도를 가용성이라고 합니다.

가용성은 무결성, 기밀성과 함께 정보보안의 3대 핵심 요소 중 하나라고 볼 수 있는데 시스템이 100%의 가용성을 가진다 것은 꿈같은 일입니다.
그러나 최대한의 가용성을 확보하기 위해 노력해야합니다.

1년이라는 시간을 기준으로 2시간의 서비스 중단이 발생했다면 네이버의 연간 보장되는 가용률은 몇퍼센트가 될까요?

  • 1년 = 8760시간
  • 장애 시간 = 2시간
  • (8760 ÷ (8760 + 2)) * 100 = 99.97%

99.97%의 가용률입니다.
이는 절대 낮은 가용률이 아니며 주말 오후 재난 상황에도 불구하고 상당히 빠른 속도로 잘 대처했고 네이버는 이런 상황에 대한 대비도 잘 되어있구나 알 수 있는 부분이었습니다.


Personal Comments

오늘은 기술적으로 딥한 이야기보다 재난 상황을 대비하여 네이버가 어떻게 준비했고 대처하였는지 알아보았습니다.

기술도 중요하지만 이러한 사례 역시 매우 중요합니다.

네이버는 훌륭한 모범 사례를 만들었고 국내 포털 사이트 1위를 유지한 이유, 네이버 클라우드가 국내 클라우드에서 제일 좋다는 평가를 받는 이유를 다시 새삼 느꼈습니다.

네이버 클라우드 공식 블로그에서 서비스 연속성에 필요한 서버 이중화와 재해 복구에 대해 소개하고 있어 이를 공유하며 글을 마무리 합니다.

긴 글 읽어주셔서 감사합니다.


Previous Post Next Post

You Might Also Like

No Comments

Leave a Reply