카카오, 서비스 장애 재발방지 대책 발표
"데이터센터 이중화 미흡, 가용 자원 부족 때문"
전체 시스템 철저한 이중화, IT조직 확대 약속
"카카오의 서비스 안정화가 우리의 최우선 과제이며, 사회적 책임이라는 것을 항상 명심할 것입니다."
남궁훈 비상대책위원회 재발방지대책 공동 소위원장
카카오가 7일 열린 연례 개발자 콘퍼런스 '이프 카카오 데브 2022'에서 10월 15일 경기 성남시 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인을 분석하고 재발방지 대책을 공개했다.
그동안 '이프 카카오'가 카카오가 개발 중인 미래 기술을 알리는 자리였다면 이날은 카카오 서비스 먹통 사태를 반성하고 그와 관련된 기술 개선책을 소개하는 데 집중했다.
①원인 분석 ② 재발방지책 ③미래 투자 발표
발표를 맡은 남궁훈, 고우찬 비상대책위원회 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장(그렙 대표), 이채영 비상대책위원회 재발방지대책소위원회 부위원장 등 4명의 연사는 서비스 장애 원인에 대한 분석과 개선 사항을 공유하며 다시는 이런 일이 발생하지 않도록 개선하는 계기로 삼겠다는 의지를 밝혔다.
남 소위원장은 기조 발표에서 카카오의 사회적 소명을 강조하고 비슷한 사고가 다시 일어나지 않게 하겠다는 각오를 다졌다. 그는 "카카오의 환경·사회·지배구조(ESG) 최우선 과제를 '서비스를 안정적으로 제공하는 것'으로 설정했다"며 "인프라 개선을 위해 과거 원인 분석, 현재 재발 방지책, 미래 투자 크게 세 가지 관점에서 실천 과제를 세우겠다"고 강조했다. 이어 "인프라 조직을 강화하고 안정적 서비스 환경을 마련하겠다"고 덧붙였다.
이확영 소위원장(그렙 대표)은 제3자 관점에서 ①데이터센터와 운영 관리 도구들의 이중화 미흡 ②가용 자원 부족 등을 카카오 서비스의 주요 장애 원인으로 꼽았다.
이채영 부위원장은 재발 방지를 위한 기술적 개선 사항을 발표했다. 카카오는 ①데이터센터 이중화 ②데이터와 서비스 이중화 ③플랫폼과 운영 도구 이중화 등 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 시스템 전체의 철저한 이중화를 적용한다는 계획을 발표했다. 또 모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영 관리 도구 삼중화 등 구체적 개선 사항도 전했다.
정부, 카카오에 한 달 내 재난 대응책 만들 것 요구
고 소위원장은 자체 데이터센터 방재 대책 및 앞으로 5년 동안 정보통신(IT) 엔지니어링 혁신 방안을 소개했다. 카카오는 ①현재 총 4,600억 원의 예산을 들여 짓고 있는 경기 안산시 데이터센터를 통해 운영의 안정성을 확보하고 ②IT 엔지니어링 전담 조직 및 인재 확보 ③각종 자연재해와 인위적 사건사고로 사업을 중단하는 상황을 최소화하기 위한 비상대응 계획 및 데이터센터 DR( Disaster Recovery) 체계를 구축할 계획이다.
한편 과학기술정보통신부도 6일 데이터센터 화재 사고 원인 발표 기자회견에서 카카오가 시스템 이중화를 제대로 구축하지 않았다고 지적했다. 카카오가 서비스를 기능별로 다섯 개 층으로 나누고 판교 데이터센터와 다른 데이터센터 사이에 '동작-대기 체계'로 이중화를 해 뒀지만, 다른 센터의 서버를 동작하기 위한 도구는 판교 데이터센터 내에만 구축해 장애 복구가 늦어졌다. 정부는 카카오에 한 달 내 ①서비스 다중화 ②재난 대비 훈련 강화 ③적극적 피해 구제 등을 담은 재난 대응책 마련을 요구했다.
관련 이슈태그
기사 URL이 복사되었습니다.
댓글0