[공개SW 활용 성공사례 24] 그루터 - 하둡 활용한 빅데이터 관리 및 분석 플랫폼 제공
OSS
게시글 작성 시각 2012-03-06 11:24:30
오픈소스 하둡 생태계 활용한 빅데이터 관리 및 분석 플랫폼 제공
소셜미디어와 스마트 기기의 대중화가 이끈 빅데이터에 대한 관심이 나날이 높아지고 있다. 데이터의 종류와 양이 급증하면서 기업은 이 데이터를 잘 활용해 새로운 기업 가치를 창출하기 위한 노력에 서두르고 있다. 이런 빅데이터의 활용가치를 향상시키려는 다양한 방안들이 모색되고 있는 가운데, 오픈소스인 하둡 생태계를 활용해 빅데이터 전반에 걸친 관리 플랫폼을 서비스 형태로 제공하는 국내 벤처 기업의 사례를 소개한다.
|
지난해 말 시장조사 기관들과 IT 기업들은 앞 다퉈 2012년 주목해야 할 기술로 빅데이터를 꼽았다. 스마트 기기와 소셜 네트워크 등 다양한 정보채널이 등장하면서 유통되는 데이터량도 기하급수적으로 늘어났고 폭증하는 데이터를 어떻게 하면 효율적으로 관리할지를 두고 기업의 고민이 증가했다. 특히 웹로그나 소셜 미디어, 이메일, 그림, 동영상 등 비정형 데이터를 효과적으로 저장 및 관리해 이를 비즈니스적으로 활용하려는 움직임이 활발해졌다.
기술력과 ROI 두 마리 토끼 잡은 하둡
그러나 전통적인 비즈니스 환경에서는 ERP나 CRM, 과금 시스템 등에서 발생하는 정형 데이터의 기술 투자가 적극적으로 진행된 반면, 비정형 데이터로 분류되는 웹로그나 홈페이지, SNS 게시물 등은 투자되기는커녕 버려지기 일쑤였다. 투자수익률(ROI)을 보장받을 수 없었기 때문이다.
이런 분위기가 최근 바뀌고 있다. 빅데이터를 저장 및 관리하면서 ROI를 기대할 수 있는 기술의 등장에 관심이 집중되기 시작한 것이다. 많은 기업들이 데이터 전체의 라이프사이클을 관리하면서 데이터 유형이 변화해도 시스템 변경 없이 적용 및 운영할 수 있길 원했고, 비즈니스 요구사항에 부합한 실시간 또는 배치 분석 레이턴시 지원과 용량 증가에 즉각 대응할 수 있는 기능을 갖춘 빅데이터 전용 플랫폼의 등장을 요구하기에 이르렀다. 이런 상황에서 등장한 것이 바로 하둡(Hadoop)이다.
하둡은 대용량 데이터 처리를 위한 대규모 분산처리를 지원하는 오픈소스 기반의 프레임워크로, 기존 정형 데이터에 집중된 분석 처리를 맵리듀스를 활용해 비정형 데이터 범위까지 처리할 수 있다. 이를 통해 기업은 빅데이터로부터 미래를 예측하거나 고객의 요구에 부합하는 통찰력을 얻을 수 있다. 또한 NoSQL, 카산드라, ZooKeeper, Flume, R 등 20여 가지 빅데이터 관련 오픈소스 기술을 연계한 하둡 생태계가 조성돼, 기업의 다양한 IT 인프라에 영향을 받지 않고 빅데이터 저장 및 분석 환경을 제공한다.
그루터는 클라우드 기반의 소셜 데이터 분석을 제공해 왔다. 빅데이터 저장 및 분석 환경을 위한 플랫폼으로 주목받는 하둡을 활용한 이 기업은 대용량 데이터의 수집, 실시간 분석, 저장, 배치 분석 등 분석용 데이터의 전체 라이프사이클을 관리하는 소프트웨어 스택 솔루션인 BAAS(Bigdata Analitic & Application System)를 선보였다.
권영길 그루터 대표는 BAAS를 개발하기 위해 오픈소스 기반의 하둡을 주목한 이유로 두 가지를 설명했다. 하둡이 등장하기 전까지만 해도 오라클, 테라데이타, IBM 등이 제공하는 데이터 분석 솔루션으로만 빅데이터를 분석할 수 있었고, 이로 인해 특정 솔루션 벤더에 기술적으로 더욱 종속(Lock-in)되곤 했다. 하지만 권 대표는 “하둡이 한 벤더에 소속된 개발자가 만든 솔루션이 아닌 다수의 개발자들이 참여한 오픈소스 형태로 발전해 온 만큼 데이터 분석 분야에서 특정 벤더의 종속성을 해결할 수 있었다”고 말했다.
이에 대해 김형준 그루터 수석 아키텍트는 “벤더 종속적이 됐을 때의 큰 단점은 시간이 지날수록 비용이 크게 늘어난다는 것이다. 설사 초기 도입 비용은 적을지 몰라도 추가적으로 솔루션을 도입하려면 해당 벤더가 제안하는 값을 그대로 지불해야 한다. 그러나 오픈소스인 하둡을 활용하면 특정 벤더에 종속되지 않고 적은 비용으로 시스템을 도입 및 유지할 수 있다”고 덧붙였다.
장애 및 업그레이드에 대한 신속한 피드백도 긍정적으로 작용했다. 상용 SW 벤더들의 경우 문제 해결 및 업그레이드를 일정한 주기를 두고 진행했고, 특히 외산 벤더의 경우 늦장 대응으로 사용자들의 불만을 불러일으키는 사례가 종종 발생했다. 그러나 권영길 대표는 BASS는 하둡을 중심으로 다양한 오픈소스뿐만 아니라 자체 개발한 자사 솔루션을 자유롭게 추가할 수 있어, 오류에 대한 적극적인 대응과 신속한 업그레이드를 보장받을 수 있었다고 덧붙였다.
BAAS는 페타바이트 이상의 원본 데이터와 수백 억 건 이상의 실시간 트랜잭션 데이터를 저장할 수 있으며, 데이터가 추가적으로 증가해도 서비스 중단 및 프로그램 변경 없이 지속적으로 시스템을 증설할 수 있다. 또한 모든 컴포넌트가 장애 발생 시 자가 치유 능력을 보유하고 있어 서비스 연속성도 보장된다.
김형준 수석은 “오픈소스는 언제든 자체적으로 개발해서 플러그인 형태로 적용할 수 있다. BAAS 역시 오픈소스 솔루션의 약점으로 지적되는 관리 및 모니터링 기능을 그루터의 기술로 보완했다”고 강조했다. 실제로 BAAS의 관리 영역에서 클러스터 관리는 오픈소스인 ZooKeeper를 사용하지만, 모니터링 솔루션은 자체 개발 솔루션인 클루몬으로 구축됐다.
오픈소스 활용한 솔루션 개발에 주력할 터
BAAS와 함께 그루터는 하둡 에코시스템을 활용한 소셜 네트워크 데이터 수집 및 분석 시스템인 씨날(www.seenal.com)을 곧 공개할 예정이다. 개인 사용자는 씨날을 활용해 트위터상에서 사용자가 작성한 메시지의 확산과 반응을 측정할 수 있으며 주요 관심 대상을 별도로 지정해 관리할 수 있다. 기업에서는 자사의 이미지 또는 제품과 관련된 내용들을 씨날에서 실시간으로 모니터링할 수 있으며, 최신 이슈에 대한 트렌드와 위협 메시지를 제공받을 수 있다. 무엇보다 목적과 메시지 흐름에 따라 지표를 확인할 수 있는 직관적인 보고서가 제공되는 것이 이 서비스의 특징이다.
김형준 수석은 “기업이 아무리 좋은 홍보를 하고 트위터상에서 좋은 이미지가 확산된다고 해도 이를 성과지표로 관리될 수 있게 수량화하지 못한다면 성과에 대한 제대로 된 평가를 하지 못한다”며 “씨날은 성과를 일목요연하게 확인할 수 있는 수치와 그래프를 제공해 비즈니스 성과에 대한 명확한 분석 기회를 제공한다”고 설명했다.
Q> 기업들이 제대로 된 빅데이터 솔루션을 구축해 활용하도록 조언한다면
(권영길 대표) 빅데이터는 단일 솔루션으로 해결할 수 없다. 요구사항이나 데이터의 성격에 따라 다양한 솔루션을 조합해야 한다. 빅데이터는 단순히 많은 데이터를 분석하는 것이 아니다. 따라서 시스템이나 서비스가 빅데이터에 대한 적응 능력이 있는지 그리고 내부 조직이 빅데이터를 다루는 능력이 구비돼 있는지부터 살펴봐야 한다.
(김형준 수석) 특히 오픈소스 중심으로 소프트웨어 스택을 구축해 운영하려면 내부적인 기술력을 반드시 갖춰야 한다. 단기간에 시스템을 구축하겠다는 생각을 버리고 시스템을 계속 진화시킨다는 생각을 가져야 한다. 오픈소스에 대한 검증보다는 작게라도 실행에 옮기는 것이 중요하며, 내부적으로 구축한 솔루션을 공개하는 것도 도움이 된다. SI 업체나 특정 솔루션 기업에 의존하는 경향도 버려야 한다.
Q> 오픈소스 생태계를 위해 우선적으로 필요한 노력은
(권영길 대표) 오픈소스가 글로벌 트렌드임에도 불구하고 국내에서는 인식과 준비 모두 부족한 게 사실이다. 오픈소스 생태계를 활성화 시키려면 많은 개발자들과 기업의 참여가 전제돼야 한다. 특히 소프트웨어 개발 기업은 개발에 대한 정보를 공유하는 오픈 마인드가 필요하다. 또한 자사가 개발한 소프트웨어에 오픈소스를 도입했다는 점을 공개해 오픈소스와 상용 소프트웨어가 동반 성장할 수 있는 기회로 만들어야 한다.
(김형준 수석) 글로벌하게 인정받은 오픈소스임에도 국내 적용이 더딘 이유로 오픈소스 도입에 따른 매출 감소의 우려를 지적하고 싶다. 국내의 매출 중심 기업 문화를 감안하면 SI 업체들이 자사의 매출을 감소시키면서까지 오픈소스를 적극 도입하기는 쉽지 않기 때문이다. 따라서 기술의 가치와 효율성을 우선시하는 기업 문화가 절실하고 오픈소스 기술의 발전을 도모하는 전략과 기술 체계가 마련돼야 한다. 아울러 개발자들도 오픈소스 활동에 적극 참여해 기술력 향상을 함께 도모해야 할 것이다.
----------------------------------------------------------------
기술력과 ROI 두 마리 토끼 잡은 하둡
그러나 전통적인 비즈니스 환경에서는 ERP나 CRM, 과금 시스템 등에서 발생하는 정형 데이터의 기술 투자가 적극적으로 진행된 반면, 비정형 데이터로 분류되는 웹로그나 홈페이지, SNS 게시물 등은 투자되기는커녕 버려지기 일쑤였다. 투자수익률(ROI)을 보장받을 수 없었기 때문이다.
이런 분위기가 최근 바뀌고 있다. 빅데이터를 저장 및 관리하면서 ROI를 기대할 수 있는 기술의 등장에 관심이 집중되기 시작한 것이다. 많은 기업들이 데이터 전체의 라이프사이클을 관리하면서 데이터 유형이 변화해도 시스템 변경 없이 적용 및 운영할 수 있길 원했고, 비즈니스 요구사항에 부합한 실시간 또는 배치 분석 레이턴시 지원과 용량 증가에 즉각 대응할 수 있는 기능을 갖춘 빅데이터 전용 플랫폼의 등장을 요구하기에 이르렀다. 이런 상황에서 등장한 것이 바로 하둡(Hadoop)이다.
하둡은 대용량 데이터 처리를 위한 대규모 분산처리를 지원하는 오픈소스 기반의 프레임워크로, 기존 정형 데이터에 집중된 분석 처리를 맵리듀스를 활용해 비정형 데이터 범위까지 처리할 수 있다. 이를 통해 기업은 빅데이터로부터 미래를 예측하거나 고객의 요구에 부합하는 통찰력을 얻을 수 있다. 또한 NoSQL, 카산드라, ZooKeeper, Flume, R 등 20여 가지 빅데이터 관련 오픈소스 기술을 연계한 하둡 생태계가 조성돼, 기업의 다양한 IT 인프라에 영향을 받지 않고 빅데이터 저장 및 분석 환경을 제공한다.
▲ 하둡에코시스템 |
BAAS, 빅데이터 전체 라이프사이클 관리 제공
권영길 그루터 대표는 BAAS를 개발하기 위해 오픈소스 기반의 하둡을 주목한 이유로 두 가지를 설명했다. 하둡이 등장하기 전까지만 해도 오라클, 테라데이타, IBM 등이 제공하는 데이터 분석 솔루션으로만 빅데이터를 분석할 수 있었고, 이로 인해 특정 솔루션 벤더에 기술적으로 더욱 종속(Lock-in)되곤 했다. 하지만 권 대표는 “하둡이 한 벤더에 소속된 개발자가 만든 솔루션이 아닌 다수의 개발자들이 참여한 오픈소스 형태로 발전해 온 만큼 데이터 분석 분야에서 특정 벤더의 종속성을 해결할 수 있었다”고 말했다.
이에 대해 김형준 그루터 수석 아키텍트는 “벤더 종속적이 됐을 때의 큰 단점은 시간이 지날수록 비용이 크게 늘어난다는 것이다. 설사 초기 도입 비용은 적을지 몰라도 추가적으로 솔루션을 도입하려면 해당 벤더가 제안하는 값을 그대로 지불해야 한다. 그러나 오픈소스인 하둡을 활용하면 특정 벤더에 종속되지 않고 적은 비용으로 시스템을 도입 및 유지할 수 있다”고 덧붙였다.
장애 및 업그레이드에 대한 신속한 피드백도 긍정적으로 작용했다. 상용 SW 벤더들의 경우 문제 해결 및 업그레이드를 일정한 주기를 두고 진행했고, 특히 외산 벤더의 경우 늦장 대응으로 사용자들의 불만을 불러일으키는 사례가 종종 발생했다. 그러나 권영길 대표는 BASS는 하둡을 중심으로 다양한 오픈소스뿐만 아니라 자체 개발한 자사 솔루션을 자유롭게 추가할 수 있어, 오류에 대한 적극적인 대응과 신속한 업그레이드를 보장받을 수 있었다고 덧붙였다.
BAAS는 페타바이트 이상의 원본 데이터와 수백 억 건 이상의 실시간 트랜잭션 데이터를 저장할 수 있으며, 데이터가 추가적으로 증가해도 서비스 중단 및 프로그램 변경 없이 지속적으로 시스템을 증설할 수 있다. 또한 모든 컴포넌트가 장애 발생 시 자가 치유 능력을 보유하고 있어 서비스 연속성도 보장된다.
김형준 수석은 “오픈소스는 언제든 자체적으로 개발해서 플러그인 형태로 적용할 수 있다. BAAS 역시 오픈소스 솔루션의 약점으로 지적되는 관리 및 모니터링 기능을 그루터의 기술로 보완했다”고 강조했다. 실제로 BAAS의 관리 영역에서 클러스터 관리는 오픈소스인 ZooKeeper를 사용하지만, 모니터링 솔루션은 자체 개발 솔루션인 클루몬으로 구축됐다.
오픈소스 활용한 솔루션 개발에 주력할 터
BAAS와 함께 그루터는 하둡 에코시스템을 활용한 소셜 네트워크 데이터 수집 및 분석 시스템인 씨날(www.seenal.com)을 곧 공개할 예정이다. 개인 사용자는 씨날을 활용해 트위터상에서 사용자가 작성한 메시지의 확산과 반응을 측정할 수 있으며 주요 관심 대상을 별도로 지정해 관리할 수 있다. 기업에서는 자사의 이미지 또는 제품과 관련된 내용들을 씨날에서 실시간으로 모니터링할 수 있으며, 최신 이슈에 대한 트렌드와 위협 메시지를 제공받을 수 있다. 무엇보다 목적과 메시지 흐름에 따라 지표를 확인할 수 있는 직관적인 보고서가 제공되는 것이 이 서비스의 특징이다.
김형준 수석은 “기업이 아무리 좋은 홍보를 하고 트위터상에서 좋은 이미지가 확산된다고 해도 이를 성과지표로 관리될 수 있게 수량화하지 못한다면 성과에 대한 제대로 된 평가를 하지 못한다”며 “씨날은 성과를 일목요연하게 확인할 수 있는 수치와 그래프를 제공해 비즈니스 성과에 대한 명확한 분석 기회를 제공한다”고 설명했다.
▲ 씨날구성도 |
------------------------------------------------------
[인터뷰]
“매출 중심 기업 문화 개선해야 오픈소스 발전”
권영길 그루터 대표, 김형준 그루터 수석 아키텍트
(권영길 대표) 빅데이터는 단일 솔루션으로 해결할 수 없다. 요구사항이나 데이터의 성격에 따라 다양한 솔루션을 조합해야 한다. 빅데이터는 단순히 많은 데이터를 분석하는 것이 아니다. 따라서 시스템이나 서비스가 빅데이터에 대한 적응 능력이 있는지 그리고 내부 조직이 빅데이터를 다루는 능력이 구비돼 있는지부터 살펴봐야 한다.
(김형준 수석) 특히 오픈소스 중심으로 소프트웨어 스택을 구축해 운영하려면 내부적인 기술력을 반드시 갖춰야 한다. 단기간에 시스템을 구축하겠다는 생각을 버리고 시스템을 계속 진화시킨다는 생각을 가져야 한다. 오픈소스에 대한 검증보다는 작게라도 실행에 옮기는 것이 중요하며, 내부적으로 구축한 솔루션을 공개하는 것도 도움이 된다. SI 업체나 특정 솔루션 기업에 의존하는 경향도 버려야 한다.
(권영길 대표) 오픈소스가 글로벌 트렌드임에도 불구하고 국내에서는 인식과 준비 모두 부족한 게 사실이다. 오픈소스 생태계를 활성화 시키려면 많은 개발자들과 기업의 참여가 전제돼야 한다. 특히 소프트웨어 개발 기업은 개발에 대한 정보를 공유하는 오픈 마인드가 필요하다. 또한 자사가 개발한 소프트웨어에 오픈소스를 도입했다는 점을 공개해 오픈소스와 상용 소프트웨어가 동반 성장할 수 있는 기회로 만들어야 한다.
(김형준 수석) 글로벌하게 인정받은 오픈소스임에도 국내 적용이 더딘 이유로 오픈소스 도입에 따른 매출 감소의 우려를 지적하고 싶다. 국내의 매출 중심 기업 문화를 감안하면 SI 업체들이 자사의 매출을 감소시키면서까지 오픈소스를 적극 도입하기는 쉽지 않기 때문이다. 따라서 기술의 가치와 효율성을 우선시하는 기업 문화가 절실하고 오픈소스 기술의 발전을 도모하는 전략과 기술 체계가 마련돼야 한다. 아울러 개발자들도 오픈소스 활동에 적극 참여해 기술력 향상을 함께 도모해야 할 것이다.
----------------------------------------------------------------
- 마이크로소프트웨어 이병혁 기자 saemosi@imaso.co.kr
- 공개SW 역량프라자
번호 | 제목 | 조회수 | 작성 |
---|---|---|---|
71 | [공개SW 활용 성공사례 29] 미국 육군 - 공개SW기반 제조공정관리 솔루션 개발로 군비감축 | 1564 | 2012-04-10 |
70 | [공개SW 활용 성공사례 28] 대우건설 - 공개SW BPMS로 사용자 중심의 업무 프로세스 구현 | 1694 | 2012-04-03 |
69 | [공개SW 활용 성공사례 27] 인도 우탐 에너지텍 - 레드햇 가상화 도입으로 서버 및 HW 비용 절감 | 1335 | 2012-03-27 |
68 | [공개SW 활용 성공사례 26] 다음 커뮤니케이션 - 공개SW DBMS로 웹서비스 핵심 역량 강화 | 1486 | 2012-03-20 |
67 | [공개SW 활용 성공사례 25] LG CNS - 확장성과 비용 효율성 갖춘 웹서비스 환경 구축 | 1898 | 2012-03-13 |
66 | [공개SW 활용 성공사례 24] 그루터 - 하둡 활용한 빅데이터 관리 및 분석 플랫폼 제공 | 1964 | 2012-03-06 |
65 | [공개SW 활용 성공사례 23] 네이버(NHN) - 큐브리드로 웹서비스 위한 대용량 DB 관리 | 1504 | 2012-02-21 |
64 | [공개SW 활용 성공사례 22] OLC센터 - 공개SW 기반 홈페이지 재구축 1 | 1411 | 2012-02-14 |
63 | [공개SW 활용 성공사례 21] 킴스큐 - 누구나 가져다 개발하고 오픈마켓에서 판매까지 | 1553 | 2012-02-07 |
62 | [공개SW 활용 성공사례 20] 핀란드 칸카안빠(Kankaanpää)시 - 공개SW 가상화로 서버 비용절감 | 1273 | 2012-01-31 |
0개 댓글