클라우드의 충격

저자: 시로타 마코토, 제이펍, 2009.

책 느낌: 전문적인 용어 없이 편안하게 읽으면서, 어느 어느 정도 IT 관련 지식만 있으면 클라우드에 관한 대략적인 정보를 얻을 수 있다. 또한 2009년에 나온 책이기 때문에 현재 이 분야의 모습을 보면 얼마나 사람들이 예측하고 있었으며, 그 예측이 맞았는지 살펴 볼 수 기회를 제공하고 있다.

36 쪽, 그렇다면 실제로 클라우드 컴퓨팅 환경에서 이용되고 있는 서버는 어느 정도의 빈도로 고장 나고 있을까? 이점에 관해서 구글의 팰로우인 제프딘(Jelf Dean)이 2008년 5월에 샌프란 시스코에서 있었던 구글 주최의 컨퍼런스에서 대단히 흥미로운 강연을 한 적이 있다. 다음은 제프 딘의 발언 중 일부다.

“ 구글에서는 1,800대의 서버로 구성된 클러스터 컴퓨터를 하나의 단위로 해서 시스템을 유지하고 있다. 이 클러스터에서 1년간 약 1,000대의 머신에서 장애가 발생하고, 수 천건의 하드드라이브 고장이 일어난다. 한 대의 전력배분 장치가 고장나면 500~1,000대의 머신이 6시간에 걸쳐 정지한다. 20대의 랙이 고장 나면 그때마다 40~80대의 머신이 네트워크에서 사라진다. 5대의 랙이 불안정해지면 네트워크 패킷의 절반이 누락된다. 일단 클러스터의 배선을 변경하면 2일간에 걸쳐 머신의 5%에 영향을 준다. 클러스터가 오버히트할 확률은 50%, 서버의 대부분은 5분 미만으로 정지하고 복구까지는 1,2일이 걸린다.”

이 발언 첫 부분에 있듯이, 1,800대의 서버 중에 1년에 1,000대가 고장난다는 것은 1일에 평균 2.7대는 고장난다는 것이다.