배너
닫기
배너

데이터 보호 전략의 핵심, 산업용 서버

  • 등록 2013.12.31 13:45:32
URL복사

산업용 서버
데이터 보호 전략

유성희 에버드롬 대표 (brian.ryu@everdrome.com)

최근의 사례

우리나라 경제는 현재 제조업 분야가 견인하고 있다. 특히 세계 1등을 차지하고 있는 반도체, LCD, 조선, 스마트폰, TV, 일부 백색가전 등은 이미 Fast Follower(빠른 추격자)를 거쳐 First Mover(선도자)로서의 입지를 굳혀가고 있다. 하지만 우리나라가 Fast Follower이었던 시절과는 달리 현재의 Fast Follower와 First Mover와의 거리는 한순간 추월당하기 쉬운 아주 근소한 차이에 머물러 있다.
실제로 경제 전문가들은 글로벌 분업화, 전문기술인력의 국가 간 이동 등으로 인해 전 세계 모든 산업 분야의 제조기술력 1등과 2등의 차이는 3개월에서 1년 내외로 좁혀져 가고 있다고 분석하고 있다. 모두 알다시피 Fast Follower이던 시절에 우리는 제조공정에 어떤 새로운 기술을 적용하려고 할 때 잊지 않고 챙겼던 것이 ‘First Mover에서 이 기술을 먼저 적용했는지’를 확인하는 것이었다.
현재 우리나라 제조업체 중에서 세계 1등 제품을 생산하고 있는 생산라인에서는 더 이상 이런 확인을 하지 않는다. 내가 1등이기 때문에 2등에게서 베낄 것이 없으니 새로운 기술의 도입을 선택하고, 검증하고, 적용하는 것이 오롯이 나의 몫이기 때문이다. 제조라인에서의 가용성 확보의 중요성은 앞 장에서 다루었기 때문에 여기서 반복할 필요는 없겠다. 하지만 실제로 제조업 분야를 들여다보면 아직도 여러 가지 이유로 서버 가용성 기술을 적용하지 않은 생산현장이 훨씬 더 많은 것이 현실이다. 그 이유는 무엇일까?


고가용성 솔루션 도입의 어려움

고가용성 솔루션을 도입할 때 고민이 되는 것이 무엇인지를 ITIC에서 조사한 내용에 따르면, 복수 선택일 때 57%의 담당자가 도입비용을 선택했고, 나머지 항목들은 조금씩 다르긴 하지만 모두 기술적인 문제들이었다. 두 단어로 요약한다면 결국 ‘비싸고, 어렵다’로 귀결된다.
예전에 가용성 기술을 검토했다고 하더라도, 최근에 기존 방식의 단점들을 획기적으로 개선한 기술 발전이 많았으므로 여기에서 그 차이점들을 다루어 보고자 한다.

고가용성 기술의 발전

전통적인 클러스터 기술은 고가이면서도 적용 자체가 기술적으로 복잡해서 별도의 클러스터 기술 인력을 확보해야만 설치와 운영이 가능했었다. 게다가 클러스터에 대한 기술뿐만 아니라 SAN(Storage Area Network)이라는 스토리지 기술도 필요했으며 SAN 스위치, SAN 스토리지, FC 어댑터 등 추가적인 하드웨어의 도입으로 인해 운영 측면의 복잡성도 커질 수밖에 없었다.
말 그대로 ‘다운타임 줄이는 것’이 원래의 목적이었는데 설치, 정책, 운영, 관리, 복구 등의 작업이 유기적으로 늘어나다 보니 관리 미숙, 즉 Human Error로 인해 오히려 계획되지 않은 다운타임이 발생하는 일까지 발생하는 어처구니없는 일이 다반사로 일어나기도 했다. 과연 새로운 기술이 어떤 것이며, 과연 이러한 복잡성을 줄일 수 있는 것일까?

기술 발달과 새로운 기술들의 출현

1. 이더넷 기반의 동기화 기술
우선, 가용성 기술의 발전에 결정적인 촉매제 역할을 한 것이 바로 이더넷 기술이다. 1982년 첫 번째 10Mbps 이더넷이 상용화된 이후, 94년에는 100Mbps, 2001년에는 1Gbps, 2003년에는 10Gbps 이더넷 기술이 나타났다. 곧 40GbE와 100GbE가 상용화될 즈음이다.
네트워크 대역폭이 넓어지면서 멀티미디어 통신이나 모바일통신, IP 기반의 스토리지 기술 등에 엄청난 기여를 했다는 것은 모든 분이 알고 있지만, 가용성 기술에도 지형의 변화가 일어날 만큼의 엄청난 역할을 하게 된 것에 대해서는 알고 있는 분들이 많지 않으리라 생각한다.
불과 10년 전으로 시계를 돌려보자. 당시 우리는 100Mbps 이더넷을 사용했었고, 대역폭의 한계 때문에 당시 2Gbps를 지원하는 SAN을 통해 스토리지와 서버를 연결하는 것이 최선의 선택이었다. 결국, 클러스터를 구성하기 위해서도 두 대의 서버 간 통신은 100Mbps의 한계에 부딪혔고 대신 공유스토리지에 데이터를 공유하고 장애가 발생했을 때, 두 대의 서버가 서로 교차하면서 운영을 지속시키는 방법이 가장 효율적인 가용성 기술의 조합이었다.
결국, 한쪽 서버에서 장애가 발생하면 장애 발생 직전까지의 데이터가 저장되어 있는 공유스토리지를 두고 다른 쪽 서버로 서비스가 절체되는 구조이다. 결국, 절체 이전과 절체 이후의 시스템의 상태는 이어지는 것이 아니라 시스템이 새로 시작되는 상태로 이어지기 때문에 절체 이전에 처리되고 있던 트랜잭션은 유실될 수밖에 없었고, 수분에 이르는 절체시간(Fail-Over Time)으로 인해 서비스의 중단이 발생하게 되었다. 즉, 서비스 마이그레이션이 이루어지긴 하나 죽은 상태의 마이그레이션(Dead Migration)까지만 가능한 기술이었다.
그렇다면 현재 시점에서 가용성 기술과 이더넷 기술은 어떻게 접목되었을까?
10GbE 어댑터가 출시되면서부터 이전에는 불가능했던 락스텝(Lockstep) 기술을 이용한 CPU, 메모리의 동기화뿐만 아니라 내장디스크의 동기화까지 10GbE를 통해 가능하게 되었다. 이 3가지의 동기화가 가능하다는 것은 데이터의 유실 없이 시스템 스테이트(System State)를 그대로 절체하는, 말 그대로 살아있는 상태에서의 마이그레이션(Live Migration)이 가능해졌다는 뜻이다.
Live Migration은 엄청난 복잡성의 단순화를 가져온다. 바로 단일이미지(Single Image)의 지원이다. 이전의 전통적인 클러스터는 두 개의 시스템 이미지가 각각의 서버에 구성되어 있어야만 클러스터링이 가능했다. 즉, 이전의 방식이 OS, 애플리케이션 등을 양쪽에 각각 설치하고, 데이터 영역만 공유하는 형태이었던 것에 비해 새로운 기술을 적용하게 되면 하나의 시스템 이미지가 양쪽의 서버로 동기화되는 구조가 가능해지기 때문에 구축하는 절차와 운영, 관리 등도 단일이미지 방식으로 구현할 수 있게 되었다. 이것은 단독서버와 마찬가지로 이중화된 서버를 구축, 운영, 관리하면 된다는 뜻과 같다. 어렵고 복잡하게만 느껴졌던 클러스터 기술이 일반 서버를 관리하는 기술자도 쉽게 사용할 수 있는 솔루션으로 재탄생하는 순간이다.



2. 가상화 기술
가상화 기술은 이미 2011년도에 전 세계 서버의 50% 이상이 어떤 형태로든 가상화를 적용한 것으로 발표되어 있을 만큼 일반화된 기술이다. 하지만 제조 분야 특히, 생산부서에서의 가상화는 클러스터 기술 도입의 복잡성이나 마찬가지로 투자 대비 효용 가치나 관리적인 측면에서의 복잡성 때문에 상대적으로 도입이 늦추어지고 있는 것이 현실이다. 가상화 기술이 가용성 기술과 접목된 배경은 아주 단순하다.

첫째, 가상화가 가용성을 낮춘다.
10대의 물리적 서버를 한 대의 물리적 서버로 가상화하여 통합한다고 치자. 10대의 물리적 서버는 각각의 가용성 수준이 존재한다. 즉 각각 연간 가용률이 99%(총 87시간 다운타임)라고 가정하면 1대의 서버가 다운될 확률은 1%이고, 10대의 서버가 동시에 다운될 확률은 1/10010이다. 물론 이런 해석은 여러 변수를 무시한 너무 단순한 방법이긴 하지만 어떤 의미가 있는지에 대한 판단의 활용에는 큰 무리가 없다고 본다. 그리고 10대의 가상머신을 올려놓은 1대의 물리적 서버가 다운될 확률은 역시 1%이다. 1/100과 1/10010을 비교하면 엄청난 가용률의 격차가 발생하게 된다. 결국, 가상화 기술과 가용성 기술의 접목은 이것만으로도 필연이라고 볼 수 있다.

둘째, 가용성 기술의 비용을 가상화가 상쇄한다.
앞에서 가용성 기술의 도입을 고려할 때의 가장 큰 고민이 바로 도입비용이었다. 서버를 이중화한다면 당연히 가용성 솔루션의 비용이 발생할 것이고 추가해야 하는 서버만 고려해도 2배의 비용이 발생한다. 결국, 가용성 기술과 가상화 기술이 하나로 접목된다면, 가용성 기술을 도입할 때 필요한 비용을 가상화 기술이 상쇄시킬 수 있는 절묘한 조합이 탄생한다.



3. 장애 예측 기술
기존 클러스터들의 가용률이 낮은 이유는 페일오버가 시작되는 동작 시점을 보면 원인을 찾을 수 있다. 서버의 장애를 몇 가지로 나누고 각각의 장애 시에 클러스터가 어떻게 작동할 것인지에 대한 정책을 정하고 그 정책에 따라 동작 스크립트를 작성하여 페일오버를 구현하는 방식이 전통적인 클러스터의 구축 방식이다.
다시 동작 시점에 대해 들여다보자면, 네트워크카드가 장애를 일으켰을 상태를 가정해보자. 네트워크카드가 어떤 이유에서든지 통신이 중단되었다는 것을 감지한 직후의 시점이다. 이 시점을 기준으로 동작 스크립트가 시작된다면 예외 없이 서비스가 일단 중단된 상태에서 절체될 수밖에 없다. 하지만 네트워크 통신이 중단된 원인을 분석해보면 아주 다양한 시나리오가 나올 수 있다. 단순히 네트워크 케이블이 빠졌을 수도 있지만, 전류 또는 전압이 변화되었거나, 온도가 올라갔거나, 팬에 문제가 있거나, 여러 개의 변화가 유기적으로 작용했을 수도 있다. 이보다 많은 시나리오가 실제로 존재하고 최신의 서버는 각 부품이 능동적으로 다양한 신호들을 주고받고 있다.
IPMI(Intelligent Platform Management Interface)가 그 대표적인 예다. IPMI가 지원되는 부품들은 서버의 BMC(Baseboard Management Controller)와 아웃밴드(Out-band) 방식으로 데이터를 수시로 주고받는다. 새로운 가용성 기술은 이 신호들을 분석하여 장애가 발생하기 이전에 장애를 예측해내는 장애예측 알고리즘을 적용하는 방식을 활용한 것이다.
실제로 최신 서버는 항상 150가지 이상의 신호를 실시간으로 보내고 있으며 이 신호들을 종합적으로 분석하여 장애를 예측해내는 기술 또한 발전하고 있다. 모든 서버 부품이 원인 없이 작동을 멈추는 경우는 거의 없으므로 대개의 경우 원인을 제공한 사전 징조를 실시간으로 찾아낼 수만 있다면 장애가 발생하기 전에 장애가 예측되는 부품을 격리하고 정상적으로 작동하는 부품을 이용하여 서비스 중단 없는 정상적인 운영이 가능해진다.



‌새로운 기술들을 적용한 솔루션 비교

앞서 설명한 새로운 기술들을 적용한 솔루션의 종류는 크게 4가지로 구분된다.

1) 소프트웨어 기반의 가상화 기능이 내장된 Fault Tolerant 솔루션 : 필요로 하는 사양의 범용 x86 서버를 별도 구매하여 통합 솔루션 설치
2) 소프트웨어 기반의 Fault Tolerant 솔루션(가상화 Hypervisor는 별도) : 필요로 하는 사양의 범용 x86 서버를 별도 구매하여 가상화 솔루션 설치 후, 가용성 솔루션 설치
3) 하드웨어 기반의 Fault Tolerant 서버(가상화 Hypervisor는 별도) : Fault Tolerant 서버에 가상화 솔루션 설치
4) 일체형 어플라이언스-가상화 기능이 내장된 Fault Tolerant 서버 : 가용성 솔루션과 가상화 솔루션이 모두 설치되어 있음

이들 솔루션의 기능이나 특성들은 유사하지만, 적용하려는 업무의 특성과 일치하는지와 전체적인 아키텍처와의 관계 등을 사전에 검토해야 한다.


결론

가용성 기술은 이미 고비용과 복잡성 부분에서 엄청난 개선이 이루어진 상태다. 그리고 가용률 또한 무중단에 가까운 기술이 개발되었다. 가용성 기술이 제조업 분야에서 중요 요소임을 인지하였다면 이제 새로운 가용성 기술에 대해 관심을 가질만한 가치가 충분하다.



















주요파트너/추천기업