UPDATED. 2020-11-26 18:20 (목)
데이터는 내가 모을게, 분석은 누가 할래?
데이터는 내가 모을게, 분석은 누가 할래?
  • 이경락 (ragie77@bflysoft.com)
  • 승인 2020.10.21 13:53
  • 댓글 0
이 기사를 공유합니다

[이경락의 In Data]
빅데이터 활용시 세 가지 요소 결합돼야
전가의 보도≠도깨비 방망이

[더피알=이경락] ‘전가의 보도(傳家寶刀)’는 ‘가문에 내려오는 보물과 같은 칼’을 의미하는 것으로 ‘아주 중요한 순간에 효과적으로 사용할 수 있는 수단’을 말한다. 다만 우리 사회에서는 효과적인 대책이랍시고 함부로 사용할 때, ‘전가의 보도를 휘두른다’고 표현하는 경향이 있어 많은 이들이 부정적인 뉘앙스로 이해하기도 한다.

이는 빅데이터를 다루는 마음가짐에서도 크게 다르지 않다. 빅데이터는 새로운 비즈니스 모델을 창출하고 기존 사례들을 새롭게 분석해 인사이트를 도출하는 엄청난 방법론으로 인식되지만, 아무 데나 막무가내로 적용해도 되는 의미 없는 결과들만 추려주기 때문이다.

‘10년째 유망주’ 빅데이터

성공적으로 빅데이터를 활용하기 위해서는 일반적으로 자원, 기술, 인력의 세 가지 요소가 결합돼야 한다. 우선 자원 측면에서 볼 때, 거대한 데이터 그 자체로서 방대한 양(volume)이나 다양성(variety)뿐만 아니라 품질관리도 매우 중요하다.

그런데 현재 한국의 공공 영역이나 산업 분야에서 ‘구축되어 있다’고 표현하는 데이터를 보면, 바로 활용하기 매우 어려운 원석과도 같은 자원의 형태를 하고 있다. 구조화돼 있지 않은 경우가 많고, 비정형 데이터의 비중도 높다.

이런 데이터가 빅데이터 분석을 통해 활용되기 위해서는 많은 인력이 투입되는 정제 과정을 거쳐야 하는데, 여기에 투자하려는 기업들은 많지 않다. 공공을 통해 구축되는 데이터를 응용할 생각은 많지만, 그 기반을 만들고자 하는 경제 주체들은 그렇게 많지 않다.

이는 기술의 요소와도 연결돼 있는데, 빅데이터를 구축하고 싶어도 경제적 이유로 하지 못하는 기업 역시 많다. 애초에 하둡(Hadoop, 데이터 분산 저장 분산 처리 프레임워크)과 같은 대용량 데이터를 처리할 수 있는 기반이나 데이터 저장 및 관리 기술 확보에 투자하지 못했기 때문이다. 즉 수년에 걸쳐 분석에 사용할 수 있는 디지털 데이터를 보유하고 있지만, 관리하지 못하고 체계적으로 저장하지 못해 썩히고 있는 것이다.

데이터 분석과 시각화에 있어서도 마찬가지다. 최근 들어 한국어 자연어 처리 수준도 높아지고 데이터 마이닝 기법도 다양해졌으며 데이터 시각화 전문 기업들도 나타나고 있지만, 아직까지 다양한 분석 수요를 충족할 수준에 이르렀다고 보긴 어렵다.

빅데이터의 활용 가능성이 10년 전부터 예견됐음에도 빅데이터 플랫폼이 제대로 구축된 데이터 산업 분야는 많지 않다.

세 번째로 인력에 대한 부분을 짚어보자면, 데이터 사이언티스트에 대한 개념이 충분히 확산되지 못하고 체계적인 교육이 이뤄지지 못한 것이 아쉽다. 정형화된 빅데이터는 기존의 통계학 기반 분석을 통해 해석하는 것이 어렵지 않지만, 다른 빅데이터와 결합한 형태나 비정형 데이터의 경우에는 해석의 영역이 매우 중요하기 때문이다.

즉 어떤 경우에는 드러난 데이터 값들을 결합하는 상상력 덕분에 현상이 입체적으로 투영되기도 한다. 따라서 데이터 사이언티스트는 융합 인재로 체계적으로 교육돼야 하고, 대학을 비롯한 고등 교육기관의 학제간 연계 확대를 통해 육성돼야 한다. 세부적인 주력 분야에 대한 집중 교육 또한 필요하다.

어떤 데이터의 경우 수학이나 공학에 입각한 코딩이 중요하고, 다른 어떤 데이터는 비판적 관점의 해석이 요구되기도 한다. 또 때에 따라서는 데이터를 이해시킬 수 있는 스토리텔링과 시각화의 예술이 중요하다.

실무 현장의 흔한 착각

앞선 세 요소가 일반적인 빅데이터 활용에 있어서 주요하다면, 실제 분석을 담당하는 기업이나 실무자 입장에서 보면 무엇보다 전가의 보도를 휘두르는 클라이언트 관점이 몹시 중요하다. 빅데이터에 대한 담론이 과잉이라고 표현될 정도로 활성화돼 있는 현재 시점에서, 많은 클라이언트들은 빅데이터가 자사의 모든 문제점을 해결해 줄 것으로 믿는다.

주요 매장의 시간대별 판매량과 통신 데이터, 카드 이용 패턴을 분석하면 새로운 제품에 대한 니즈가 확인될 것 같고, 소비자 반응이 많은 커뮤니티에서 댓글을 모아 분석하면 상품 개발의 방향성이 보일 것 같다.

그러나 빅데이터는 그냥 던져놓고 분석해달라고 해서 답이 나오지는 않는다. 과학적 방법론에 따른 절차를 거쳐야 하고, 다양한 변수들을 체크해야 하며, 오류의 가능성도 일일이 확인해야 한다. AI만 학습시킨다고 뚝딱 결론이 나오는 것이 아니다.

또한 빅데이터 플랫폼도 제대로 구축되지 않은 환경에서 데이터에 대한 정제 과정 역시 매우 지난한 작업이 될 수밖에 없다. 데이터의 특성을 정확하게 이해하고, 필요한 요소들이 도출되는 과정을 협의해야 한다.

어쩌면 빅데이터 분석을 ‘데이터 많이 모아서 AI로 분석하면 나오는 것’으로 여기지 않는 것이 시작점일지도 모르겠다. 빅데이터가 전가의 보도는 될 수 있지만 ‘도깨비 방망이’는 아니기 때문이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.