본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

빅데이터 분석 전략을 여는 6개의 열쇠

OSS 게시글 작성 시각 2017-07-11 07:01:37

2017년 7월 4일 (화)

ⓒ ITWorld, HPE | HPE



 

빅데이터에서 필요한 것이 무엇인지, 그리고 그것을 얻기 위해서는 어떻게 해야 하는지를 전문가가 알려줍니다.

대부분의 조직에 있는 비즈니스와 기술 리더들은 빅데이터 분석의 능력을 잘 알고 있습니다. 그렇지만, 자신들이 원하는 방식으로 그런 능력을 활용할 수 있는 리더는 소수에 불과합니다. 과제가 복잡한 만큼, 기술 역시 복잡할 수밖에 없습니다. 핵심 원리를 이해하고 거기에 투자하는 것이 조직에서 넘쳐나고 있는 정보의 바다를 이용할 수 있는 올바른 방법을 찾기 위해 이런 복잡성을 처리하는데 도움이 될 것입니다.

새로운 HPE(Hewlett Packard Enterprise) 백서는 빅데이터 분석 플랫폼을 제대로 확보하기 위해 필요한 6가지 주요 요소를 분류합니다. 이 백서가 주는 통찰력에 대해서 논의하고 어떻게 하면 기업들이 빅데이터를 제대로 확보할 수 있는지를 설명해 달라고 전 세계적으로 잘 알려진 HPE의 팀 리더인 폴 카트론에게 요청해보았습니다.

1. 엄청난 속도
데이터에 대한 기대치는 전에 없이 높습니다. 비즈니스 사용자들 그리고 고객들은 거의 즉각적인 결과를 요구하고 있지만, 이런 기대치를 충족시키기는 매우 어려우며, 레거시 시스템을 사용해서는 더욱 어렵습니다. 비 데이터 분석 전략을 구현함에 있어서 속도가 유일한 요인은 아니지만, 가장 높은 우선순위를 갖고 있다고 카트론은 말했습니다. 그는 10테라바이트의 데이터 세트에 대해 쿼리를 실행해야 하는 한 고객을 떠올렸습니다.

“기존 솔루션을 가지고는 그 쿼리에 답을 낼 때까지 48시간이 걸렸을 것”이라고 단언했습니다. “그리고 48시간이 지난 후에는 조처할 시간이 지나버렸기 때문에 그 질문 자체를 고려할 가치가 거의 없게 되었습니다.”라고 말했습니다.

새로운 분석 플랫폼으로의 이동에 있어서 통찰력에 대한 시간에 우선순위를 부여함으로써, 이 회사는 곧바로 48 시간을 5분으로 단축했다고 카트론이 말했습니다. 새로운 솔루션이 충분히 최적화된 다음에는 대기 시간이 1초 이하로 줄어들어서, 최종 결과를 앞당기기 위해 데이터를 적시에 제공할 수 있게 되었습니다.

2. 확장 가능한 용량
빅데이터 분석 솔루션은 방대한 양의 데이터를 수용할 수 있어야 하지만, 동시에 데이터 볼륨에 맞춰 유기적으로 커질 수도 있어야 합니다. “오래된 솔루션을 몇 가지 예로 살펴봅시다. – 어플라이언스보다 커지면, 전면적으로 교체되고, 다운시간도 많았고, 비용도 많이 들었습니다.”라고 카트론이 말했습니다. “지금은 데이터 증가에 따라 데이터베이스를 확장할 수 있으며, 데이터 소비자나 분석가가 알아차리지 못하는 방식으로 진행할 수 있습니다. 최신 분석 솔루션은 만약 있다 하더라도, 아주 적은 다운시간만 나타납니다. 용량과 컴퓨터 확장은 이면에서 진행됩니다.”

3. 레거시 도구들의 지능적인 통합
분석 전략에서 중요한 것은 사용자의 기존 도구와 함께 동작하도록 하는 것입니다. 그리고 어떤 도구를 언제 대체해야 할지도 알아야 합니다.

한 예로 업계 표준 ETL(Extract, Transform, Load: 추출, 변환 적재) 도구를 들면서, “많은 사람들이 이런 구형 도구들에 투자를 해왔었습니다”고 카트론은 말했습니다. “이런 레거시 도구들을 지원하는 것이 중요하기는 합니다. 그렇지만 규모와 데이터 분석의 필요성이 증가함에 따라 이런 ETL 솔루션의 확장은 비용이 많이 드는 문제가 되어감을 알게 될 것입니다. 더 최신의 더 요구에 부합하는 솔루션으로 ETL을 재정비하는 것이 더 이치에 맞을 것입니다.”

4. 하둡(Hadoop)은 제대로 다뤄야만 합니다
많은 사람들에게, 오픈소스 빅데이터 프레임워크인 하둡은 빅데이터 분석과 동의어가 되었습니다. 그렇지만 하둡만으로는 부족합니다.

카트론은 “많은 이들이 모든 것을 하둡만 가지고 하려고 합니다”고 아쉬워했습니다. “결국 가장 중요한 것은, 하둡이 배치 처리 시스템 즉, 데이터를 분석하기 위해 잡(Job)을 실행하면, 대기 행렬(Queue)로 들어가고, 처리가 되어야만 완결되는 것이라는 의미입니다. 고도의 동시성(High-concurrence) 분석에 대해서 논하다 보면, 하둡의 단점이 드러납니다.”

HPE의 백서는 다음과 같이 지적하고 있습니다, “성능 저하와 하둡의 중단 가능성을 야기하지 않고 하둡의 장점을 활용하는 방법이 필요합니다.”

5. 데이터 과학자들에 대한 지원
조직은 더 큰 데이터 세트를 가지고 더 강력한 분석을 행할 수 있는 자신들의 가장 전문적인–그리고 매우 수요가 높은– 데이터 근로자를 지원해야 할 것입니다.

카트론은 “핵심은 데이터 과학자들이 데이터베이스에 있는 데이터로 작업할 수 있는 솔루션으로의 이동을 원하고 있다는 것”이라고 강조했습니다. “데이터 과학자들이 SQL 서버를 보유하고 있다고 가정해봅시다. 데이터 과학자들은 데이터베이스에서 데이터의 일부 또는 샘플을 추출해서 그것을 자신들의 로컬 기기 상에서 변환한 후, 그 기기에서 분석을 실행합니다. 만약, 데이터베이스 자체에서 통계 모델을 실행할 수 있다면, 더 이상 샘플링 할 필요가 없고, 답도 훨씬 더 빨리 얻을 수 있습니다. 이것이 훨씬 더 효율적인 프로세스”라는 의견입니다.

6. 고급 분석 기능들
기업이 예측 분석 쪽으로 이동함에 따라, 데이터 기술에서 바라는 것은 더 많아지고 있습니다. 카트론은 “이제는 그저 보고서 작성만이 아니며, 더 이상 데이터 웨어하우스에 있는 데이터의 종합에 그치지 않습니다”라고 말했습니다. 또, “데이터베이스에 있는 데이터에 대해 아주 복잡한 질문을 던져야 합니다. 예측적이고, 특정 지역과 관련되어 있는, 정서적인 측면에 초점을 맞춘 질문입니다”라고 덧붙였습니다.

카트론은 “대다수 고객은 여전히 보고서 작성만 하고 있다고 말하고 싶어합니다”라고 설명했습니다. 그렇지만 2년 전, 예측 분석으로의 이동 현상이 나타났으며, 다른 고급 분석이 점점 많아지는 것을 목격할 수 있습니다. 조직은 데이터 과학이 점점 더 기업의 자산이 되어가면서 이제 사실상 더 예측 기술을 개선하고, 데이터 과학을 더 정제하는 데에 분명히 큰 관심을 가지고 있습니다.

구명 장치로서의 분석
전 세계적으로, 데이터는 매년 40%씩 증가하고 있습니다. 다른 말로는 2 초당 2테라바이트씩 늘어나고 있습니다. 이런 환경에서 모든 기업은 압도적인 데이터의 파고에 맞서 싸울 것입니다. 보유하고 있는 데이터에 익사하고 싶지 않다면, 이런 속도와 규모의 데이터를 관리하는데 도움을 줄 수 있는 신기술을 이해하고 기업의 성공을 위해 활용하는 것이 필수적일 것입니다.




※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.itworld.co.kr/news/105441]

맨 위로
맨 위로