Big Data

1. 빅데이터란?


디지털 경제의 확산으로 우리 주변에는 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 ‘빅데이터(Big Data)’ 환경이 도래하고 있다. 빅데이터란 과거 아날로그 환경에서 생성되던 데이터에 비하면 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다.


PC와 인터넷, 모바일 기기 이용이 생활화되면서 사람들이 도처에 남긴 발자국(데이터)은 기하급수적으로 증가하고 있다(정용찬, 2012a). 쇼핑의 예를 들어 보자. 데이터의 관점에서 보면 과거에는 상점에서 물건을 살 때만 데이터가 기록되었다. 반면 인터넷쇼핑몰의 경우에는 구매를 하지 않더라도 방문자가 돌아다닌 기록이 자동적으로 데이터로 저장된다. 어떤 상품에 관심이 있는지, 얼마 동안 쇼핑몰에 머물렀는지를 알 수 있다. 쇼핑뿐 아니라 은행, 증권과 같은 금융 거래, 교육과 학습, 여가 활동, 자료 검색과 이메일 등 하루 대부분의 시간을 PC와 인터넷에 할애한다. 사람과 기계, 기계와 기계가 서로 정보를 주고받는 사물지능통신(M2M, Machine to Machine)의 확산도 디지털 정보가 폭발적으로 증가하게 되는 이유다.


사용자가 직접 제작하는 UCC를 비롯한 동영상 콘텐츠, 휴대전화와 SNS(Social Network Service)에서 생성되는 문자 등은 데이터의 증가 속도뿐 아니라, 형태와 질에서도 기존과 다른 양상을 보이고 있다. 특히 블로그나 SNS에서 유통되는 텍스트 정보는 내용을 통해 글을 쓴 사람의 성향뿐 아니라, 소통하는 상대방의 연결 관계까지도 분석이 가능하다. 게다가 사진이나 동영상 콘텐츠를 PC를 통해 이용하는 것은 이미 일반화되었고 방송 프로그램도 TV수상기를 통하지 않고 PC나 스마트폰으로 보는 세상이다.


트위터(tweeter)에서만 하루 평균 1 5500만 건이 생겨나고 유튜브(YouTube)의 하루 평균 동영상 재생 건수는 40억 회에 이른다. 글로벌 데이터 규모는 2012년에 2.7제타바이트(zettabyte), 2015년에는 7.9제타바이트로 증가할 것으로 예측하고 있다(IDC, 2011). 1제타바이트는 1000엑사바이트(exabyte)이고, 1엑사바이트는 미 의회 도서관 인쇄물의 10만 배에 해당하는 정보량이다(Lynman, P., & Varian, H., 2003).


주요 도로와 공공건물은 물론 심지어 아파트 엘리베이터 안에까지 설치된 CCTV가 촬영하고 있는 영상 정보의 양도 상상을 초월할 정도로 엄청나다. 그야말로 일상 생활의 행동 하나하나가 빠짐없이 데이터로 저장되고 있는 셈이다.


민간 분야뿐 아니라 공공 분야도 데이터를 양산 중이다. 센서스(Census)를 비롯한 다양한 사회 조사, 국세자료, 의료보험, 연금 등의 분야에서 데이터가 생산되고 있다. 스마트워크1)의 본격화도 데이터 증가를 가속화할 전망이다(방송통신위원회, 2011).


2. 산업별 빅데이터 적용 현황


매년 39%~60% 성장하여 빅데이터 시장 규모는 증가하고 있다. 향후 빅데이터 서비스 분야가 가장 큰 시작으로 형성될 것으로 예상된다. 빅데이터 분야가 차지하는 비중은 2013 0.6%에서 지속적으로 증가하고 주요 해외 기업들이 빅데이터 시장을 주도하고 있는 환경이므로 2020년에는 약 2.6%에 이를 것으로 전망된다


이와 더불어, 빅데이터를 전문적인 사업 영역으로 삼고 있는 기업들로서 매출액 및 시장 점유율이 높은 기업들로는 Vertica, AsterData, Splunk 등을 들 수 있으며, 해당 기업들 은 빅데이터 관련 정보 관리 및 분석 기술 면에서 새로운 시 도로 주목 받고 있는 업체로 거론되고 있다


비스프로컨설팅은 KT클라우드의 파트너로서 Olleh ucloud biz의 고품질의 클라우드 서버 자원(CPU, Memory, Disk, Network)을 신속하고 안정적으로 제공합니다.


3. 빅데이터의 특징


Volume /  Velocity / Variety



 


- Volume : 저장할 데이터의 양과 의미 분석과 데이터 가공해야 하는 처리 요구량



- Velocity : 데이터 처리 속도와 저장 속도를 말하며 수많은 사용자의 요청을 빠른 처리 결과를 보여 주는 기능




- Variety: 기존 정형화된 데이터 및 텍스트, 이미지 등의 비정형 데이터의 처리하는 기능