본문 바로가기

IT Insight

'카카오톡 먹통 1년'…데이터센터 분산 설치 '착착'

728x90

 

 

개요

카카오엔터 등 10개 데이터센터 지방에 구축…산업부, 점검회의

 

 

카카오 데이터 센터 화재

 

 

  1년 전 '카카오톡 먹통' 사태를 유발한 SK C&C 판교데이터센터 화재 이후 정부가 데이터센터의 지역 분산을 추진해 신규 데이터센터 10곳이 지방 설치를 추진하는 것으로 나타났다.

 

정부는 작년 10월 SK C&C 판교데이터센터 화재로 '국민 메신저'로 불리는 카카오톡의 서비스가 멈춰 혼란이 발생하자 데이터센터의 수도권 집중을 완화하는 방식으로 리스크를 줄이기 위한 지방 분산 사업을 추진했다. 이를 통해 수도권에 집중된 전력 수요 분산 효과도 기대됐다.

 

이런 전략에 따라 지난 6월 카카오엔터프라이즈가 전남 장성군 남면에 첨단 데이터센터를 구축하기로 하는 등 총 10건의 신규 데이터센터가 수도권 밖 지방에 구축되고 있다.

 

산업부는 이와 관련해 선도 프로젝트로 카카오엔터프라이즈(전남), 솔라시도(전남), 블루밸리 산단 데이터센터 캠퍼스(경북) 등 3개 데이터센터 구축을 추진하고 있다.

아울러 데이터센터의 수도권 집중 완화를 위해 '전력 계통 영향 평가제' 시행을 준비하는 등 관련법 시행령 개정 등을 추진할 예정이다.

 

 

 

카카오 데이터 센터 화재 원인

 

한편, 화재 발생 후 가스 소화 장비가 작동하였으나, 가스 소화가 어려운 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있었다.
리튬이온 배터리가 일부 무정전 전원장치(UPS)와 물리적으로 완벽히 분리되지 않은 공간(천장 공간이 미분리된 격벽)에 배치되어 있어 화재 열기 등으로 무정전 전원장치가 작동이 중지되었고, 일부 전원공급도 중단되었다.

배터리 상단에 포설되어 있던 전력선이 화재로 인해 손상되었고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단하였다.

각 무정전 전원장치 집단이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계가 갖춰져 있었으나, 화재 등으로 특정 공간의 무정전 전원장치에 동시 장애 발생 시에는 그 무정전 전원장치들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조였다.

  • 데이터 센터에 불이 나면 잘 안꺼지는 이유 

     데이터센터에는 전기 장치가 많기 때문에 특별한 소화 시스템을 가지고 있다. 화재가 발생하면 스프링 쿨러에서 가스(하론 가스, Halon)가 나와 산소를 차단해서 불을 끄도록 되어 있다. 하론 가스는 주변의 산소 농도를 낮추는 기능이 있다.

가스가 다 소진되어도 진화가 되지 않는다면, 물을 뿌려야 하는데, 그 전에 먼저 전체 전원을 차단해야 한다. 전기로 가득찬 공간에 물이 흐르면 감전 위험도 있고, 장비들은 다 망가지게 되기 때문이다.

  전기차는 많은 장점이 있지만 불이 나면 쉽게 꺼지지 않는데, 바로 리튬 이온 배터리 때문이다. 데이터센터 UPS에도 리튬 이온 배터리가 사용되는 추세인데, 리튬 이온 배터리에 불이 나면 폭발로도 이어지기 쉽다. ABC 분말 소화기와 같은 일반 소화 약품으로는 진화하기 어렵기 때문에 산소 공급 차단을 위해 하론 가스를 1차적으로 사용하고, 전원차단 후 물을 사용해 진화하는 방법을 이용한다.

 

 

카카오 서비스 장애

 

카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(Active 역할)와 기타 센터 간 동작(Active)-대기(Standby) 체계로 이중화했으나, 이번 사고 시 대기(Standby) 시스템이 제대로 동작하지 못하였다.

대기 서버를 동작 서버로 만들기 위한 권한관리 기능인 ‘운영 및 관리도구’가 판교 데이터센터 내에서만 이중화되어있을 뿐 타 데이터센터에 이중화되어있지 않아, 판교 데이터센터의 동작 서버 작동 불능 시 서비스 장애 복구가 지연되었다.

또한,‘애플리케이션’, ‘서비스 플랫폼’ 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화되어 있지 않아 복구에 상당 시간이 소요된 원인이 되었다.

카카오톡, 다음 등 카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중되어 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받게 되었다.

 

 

 

네이버 서비스 장애

 

 네이버는 데이터센터 간 이중화 조치를 하여 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 발생하였다.

대부분 기능 오류의 경우 다른 기능에 비해 상대적으로 낮은 복구 우선순위, 복구하는 데이터의 무결성 확인 등의 이유로 복구에 시간이 소요되었다. 

 

 

데이터 센터 이중화

 

데이터센터는 IT 장비를 모아 전문적으로 관리하는 물리적인 빌딩입니다. 데이터센터에서 관리하는 IT 장비로는 먼저 데이터를 저장하는 서버와 스토리지, 그리고 데이터 전송을 위한 네트워크가 있고요. 이러한 장비를 유지하는 데 필요한 발전기, 항온·항습기, 무정전 전원장치(UPS), 배터리 등으로 구성되어 있습니다.

 

- 데이터 이중화 : 다른 서버나 다른 데이터센터에 데이터를 복제해 저장

- 시스템 이원화 : 시스템에서 장애가 발생하더라도 서비스가 중단되지 않도록 두 개 이상의 시스템을 이용

 

 

  • 시스템 이원화 장점
    • 방재
    • 페일오버: 예비 시스템으로 자동 전환
    • 다운타임 감소
    • 성능 향상
    • 로드 밸런싱(부하 분산)

 

  • 넷플릭스의 글로벌 서비스

  넷플릭스는 AWS를 이용하는데 국내 통신망에도 자주 시청하는 콘텐츠를 새벽 시간대에 미리 저장해 두는 일종의 캐시 서버인 ‘오픈 커넥트’를 구축해 시스템을 이원화했습니다. 장애가 발생하더라도 안정적으로 스트리밍을 제공할 수 있는 이유입니다. 또한 AWS 클라우드에서는 장애가 발생했을 때를 대비해 ‘리전 이중화’ 서비스를 제공하기도 합니다. 가용 영역을 넘어 저 멀리에 있는 다른 리전에 백업해 두는 것이죠.

 

 

 

 

 

 

 

 

https://www.yna.co.kr/view/AKR20231026188200003?section=industry/technology-science

 

'카카오톡 먹통 1년'…데이터센터 분산 설치 '착착' | 연합뉴스

(서울=연합뉴스) 김동규 기자 = 1년 전 '카카오톡 먹통' 사태를 유발한 SK C&C 판교데이터센터 화재 이후 정부가 데이터센터의 지역...

www.yna.co.kr

https://www.dailysecu.com/news/articleView.html?idxno=141997

 

데이터센터 화재와 카카오 먹통 사태 분석, 재발방지 위해 어떤 대책 마련되나 - 데일리시

과학기술정보통신부(장관 이종호, 이하 ‘과기정통부’)는 방송통신위원회(이하 ‘방통위’), 소방청과 함께 12월 6일, 지난 10월 15일 에스케이CNC 판교 데이터센터 화재 및 카카오·네이버 등 부

www.dailysecu.com

https://www.opsnow.com/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%84%BC%ED%84%B0-%EC%9D%B4%EC%A4%91%ED%99%94%EC%97%90-%EB%8C%80%ED%95%B4%EC%84%9C/

 

데이터 센터 이중화에 대해서 - OpsNow

얼마 전에 판교에 있는 데이터 센터에서 화재가 발생하면서 연일 데이터 센터에 대한 뉴스들이 쏟아졌습니다. 그 중에 IT 관련하여 시스템 이원화와 재난 대응, 고가용성 등에 대한 내용들의 내

www.opsnow.com