본문 바로가기

IT & SNS

카카오톡 장애에 대한 단상




지난주말에 발생한 카카오톡 장애와 관련하여 말들이 많다.
서버를 이중화 하지 않았다니, 
트래픽 과부하로 인한 서버군 장애가 원인이라는 말들도 있다.


그간 카카오톡과 관련된 장애가 발생된 사례가 한두건이 아니다. 서비스 장애, 긴급점검, 지연현상등 많은 사용자들의 머리속 연상되는 키워드가 되었을 수준이다. 그래도 선점과 네트웍 효과, 성장과정에서 있을 수 있는 시행착오라고 많이들 이해하고 넘어갔다. 그러나 이제는 상황이 이전과는 다르고 이런 사례가 반복되면 위에서 말한 갈아타기가 현실이 될 수 있다.


이유야 어떻게 되었던 전국민이 사용하는 카카오톡은 큰 오점을 남긴 것임에는 틀림이 없다. 중요한 것은 얼마나 빠르고 정확하게 대처하느냐와 재발하지 않게 하는 것이고 그것을 사용자들에게 납득시키는 것이다. 사용자들이 서비스 안정성과 관련하여 불신의 눈빛을 보내기 시작하거나 경쟁서비스로 갈아타기를 하는 흐름이 생기면 빠져 나가는건 순식간이다. 카카오톡보다 안정적이고 기능도 더 좋은 틱톡, 라인, 마이피플 등의 
경쟁 서비스가 많지 않은가


이쯤에서 한가지 집고 넘어갈 것이 있다. 다름 아닌 장애를 처리하는 프로세스다. 그간 반복된 장애와 처리하는 수준을 보면 장애 발생에 대한 인지, 상황별 처리, 보고체계, 사용자 공지, 장애 응대, 사후처리 등의 프로세스가 정밀하지 못하다는 느낌을 많이 받는다. 물론 대용량 트래픽을 감당해본 경험이 부족해서 그럴 수 있다고 할 수도 있겠지만, 그건 변명에 지나지 않은 것이다. 내부적으로 장애와 관련한 체계와 메뉴얼, 전문인력이 갖추어 지지 않는다면 앞으로 이런 장애는 계속해서 발생할 것이다. 


이번에 카카오톡에서 발생한 물리적인 전력선 이상, 서버 과부하, 장비 노후화 이런 문제들은 어느 회사에서나 발생하는 현상이다. 물리적인 하드웨어를 최적의 상태로 유지하더라도 정말 예상치 못한 곳에서 장애가 발생하고 가끔은 원인불명의 장애가 담당 엔지니어들 속만 끊게 만드는 경우도 허다하니 말이다. 중요한 것은 그런 장애를 사전에 인지할 수 있게 하거나 상황별로 잘 대처해서 사용자들이 불편을 겪지 않게 하는 것이다. 
이전부터 발생하던 장애인데, 큰 문제 아닌데, 이정도는 뭐... 내부 구성원들의 이런 마인드가 사용자의 불신을 가지게 만들고 결국은 그 서비스를 외면하게 만든다. 그동안 애써 만들고 키워온 서비스가 어쩌면 한방에 훅 갈 수도 있다는 이야기다. 어쩌면 장애처리나 대응보다 더 중요한 것이 서비스 마인드가 아닐까 싶다. 물먹기 싫어하는 소를 억지로 끌고 간다고 물을 마시지 않는 것처럼 서비스 마인드가 갖추어지지 않은 구성원들에게 프로세스나 기술을 가르친다고 되는 것은 아니니 말이다. 


아래 카카오 공지를 보면서 참 성의가 없다는 느낌을 받는건 나만 그런가?



---------------------------------------------------------------------------------------------------------------------------

아래에 이번 장애와 관련하여 궁금한 부분 몇가지를 정리해 본다. 

1. 카카오톡 공지에서 이야기한 LG CNS의 전력공급의 문제인가? 
LG CNS의 전력선은 이중화 되어 있다는데 둘다 문제가 생긴것인가? 그럼 다른 회사들의 서버는 멀쩡했나?  아래 기사내용을 보면 조금 이해가 될 듯한다. 

==>LG CNS 관계자는 "가산 데이터센터 다른 곳들은 이상이 없는데 카카오톡 서버군이 있는 곳에만 전력 장애가 발생했다"면서 "이번 카카오톡 서버의 장애 원인은 데이터센터의 UPS(Uninterrupt Power Supply, 무정전전원장치)를 지나 서버와 직접 연결돼 전력을 공급하는 연결부위인 분전반의 차단기가 작동한 것으로 UPS 작동여부와는 무관한 건"이다. 

카카오서비스에 전력을 공급하는 4개의 분전반중 하나에서 장애가 발생하여 일부 서버가 다운되었다는 말도 있긴 하다

2. 혹시 서버 과부하?

만약 위의 인터뷰 기사가 사실이라면 서버 과부하로 인한 전력문제가 발생했을 가능성도 있다.
즉 과부하를 제대로 관리하지 못했다는 이야기가 되는 것이다. 그럼 카카오의 서비스 운영 수준에 도마에 오르게 되는 것인데...


3. 서버 이중화, IDC 이중화?

IDC를 이중화하거나 대륙별로 분산 배치하는 것은 만만치 않은 작업이다. 적지 않은 비용이 들어가고 트래픽을 분산시키는 기술력도 요구되니 말이다. 근데 IDC 이중화에 앞서 서버 이중화가 되어 있는지 궁금하다. 만약 일부 서버의 장애였고 백업서버들이 가동되었다면 그렇게 오랜시간 장애가 발생하지 않았을 것이다.  
혹시 백업서버가 없었기 때문에 정상적으로 작동되는 서버들을 올리지 못한건 아닌가? 쉽게 말해 100대로 분산해서 받든 트래픽을 70대가 받으면 이전보다 더 많은 과부하가 생겨 정상인 70대도 죽어 버릴테니까... 그래서 죽은 30대를 가동할 수 있을때까지 기다린거 아닌가 라는 생각이 든다. 
정말 이중화 안되어 있을까? ㅎㅎㅎ