posted by e비즈북스 2012.05.02 11:59


빅 데이터, 왜 떴을까

빅 데이터는 말 그대로 엄청나게 큰 데이터를 의미한다. 과거와는 차원이 다른 양의 데이터를 지칭하고, 최근엔 양적인 의미를 벗어나 대규모 데이터의 분석과 활용을 포괄하는 용어로도 사용된다.

데이터가 갑자기 폭증하게 된 주된 원인으로 스마트폰이 가장 먼저 꼽힌다. 스마트폰을 통해 언제 어디서나 온라인 접속이 가능해지면서 사용자의 위치정보, 온라인 사용기록 등이 어딘가에 저장되기 시작했다. 특히 스마트폰이 불을 지핀 소셜 네트워크 서비스SNS는 사용자들의 일상생활, 생활의 단상, 의견, 취향 등 깨알 같은 기록을 온라인에 남겼다. 자신의 기록을 남길 뿐 아니라 콘텐츠를 소비하는 주된 플랫폼으로도 활용된다. 이미 많은 사람들이 SNS를 통해 지인들의 소식과 뉴스, 음악, 동영상 등의 콘텐츠를 소비한다.

페이스북 가입자는 빠르게 늘면서 이미 8억 명을 돌파했고, 2012년엔 10억 명 돌파가 확실시되고 있다. 이 사람들이 하루에 하나씩만 메시지를 남겨도 하루 10억여 건의 메시지가 생성된다. 3000만 명의 가입자를 확보한 카카오톡에서 하루 동안 전송되는 메시지도 10억 건을 넘어섰다. SNS는 점차 메시지 전달에서 콘텐츠를 소비하는 플랫폼으로 발전하고 있기 때문에 축적되는 데이터양은 더욱 커질 전망이다.

SNS 외에 스마트폰으로 인터넷에 접속해 검색하는 내용도 어딘가에 기록된다. 구글, 네이버 등의 검색엔진에 특정 키워드를 입력한 횟수 등은 해당 업체의 서버에 저장된다. 스마트폰에 탑재된 GPS칩, NFC칩 등은 위치정보와 구매정보 등을 기록한다. 이젠 사용자의 허락만 받는다면 어디를 자주 돌아다니고 어떤 상품을 구매하는지도 알 수 있다. 이렇듯 스마트폰과 SNS는 이전에 수집되지 않던 엄청난 양의 정보를 모으는 도구가 됐다. 이는 빅 데이터라는 키워드가 부상하게 된 가장 중요한 요인이다.

스마트폰, SNS의 대중화 외에 데이터가 폭증하는 이유는 또 있다. 바로 모든 영역의 전산화가 가속화되고 있기 때문이다. 기업과 공공기관, 비정부기구 등 조직이 있는 모든 곳에서 전산시스템의 도입은 필수가 되고 있다. 하다못해 컴퓨터 한 대는 있어야 일을 할 수 있다. 특히 기업에서 재고와 공급망 관리 혹은 생산비용을 줄이기 위해 업종을 막론하고 전산장비를 적극적으로 도입했다. 오늘날 은행의 전산망이 마비된다면 예금, 대출 등 모든 업무가 마비될 정도로 크게 의존하고 있다. 패션 업체 자라는 판매처의 수요를 즉각적으로 파악해 재고관리, 생산주문에 활용한 결과 세계적인 업체로 성장했다. 심지어는 야구와 같은 스포츠에서도 기록과 팀 전력을 데이터로 만들어 관리하는 기법이 인기를 얻고 있다. 모든 업무가 전산화되는 트렌드는 정부도 예외는 아니다. 정부의 공공서비스는 물론 공공정보 역시 전산화된 시스템으로 수집, 관리되고 있다.

용량이 큰 멀티미디어 콘텐츠의 증가도 데이터가 늘어나는 원인이다. 구글의 유튜브에 업로드 되는 동영상은 2007년 1분에 6시간 분량이었지만, 2010년엔 1분에 24시간 분량이 됐다. 2012년 초에는 1분당 60시간 분량의 동영상이 업로드 되는 등 멀티미디어 콘텐츠가 폭증하고 있다. 향후 LTE 등 4세대 통신망이 대중화되면 동영상 서비스가 빠른 속도로 활성화될 것이라고 전망된다. 이렇게 되면 멀티미디어 콘텐츠의 양도 훨씬 늘어나게 된다.

빅 데이터가 부상하는 마지막 배경은 기기 간에 정보를 주고받는 사물지능통신M2M 센서의 증가다. CCTV, 기상관측기, 오염측정기 등 이미 전 세계에서 사용되는 M2M 센서만 3000만 개에 달한다. 고속도로 CCTV는 교통량을 측정하고, 인공위성의 관측 장비는 기상을 예측하는 용도로 활용된다. 향후 M2M 센서는 의료기기를 비롯해 가축, 차량 등에 부착·탑재될 예정이기 때문에 그 수가 폭발적으로 늘어날 전망이다. 빅 데이터의 특성은 스티브 밀스 IBM 총괄사장이 명쾌하게 설명했다. 그는 빅 데이터의 특성을 ‘3V’로 요약했다. ‘다양한Variety’ ‘다량의Volume’ 정보가 ‘실시간에 가까운 속도Velocity’로 흘러들어 온다는 의미다.

빅 데이터를 세는 단위도 이전과 다르다. 과거 데이터가 많다고 하면 기가바이트GB의 1000배인 테라바이트TB를 연상하는 것이 보통이었다. 하지만 최근에는 테라바이트를 넘어 페타Peta, 엑사Exa, 제타Zetta바이트까지 등장하고 있다. 제타바이트는 기가바이트보다 1조 배 큰 단위다. 2003년까지 생산된 정보가 5엑사바이트에 달하는데 반해 2010년에만 1.2제타바이트의 정보가 생산된 것으로 추정된다. 2020년에는 연간 생성되는 데이터가 35제타바이트로 늘어날 전망이다.



<이제는 빅 데이터 시대>.2012년 4월 출간.윤형중著.e비즈북스.