비정형 데이터, 모으고 분석하고 관리하려면
비정형 데이터, 모으고 분석하고 관리하려면
  • 이경락 (ragie77@bflysoft.com)
  • 승인 2020.11.23 16:17
  • 댓글 0
이 기사를 공유합니다

[이경락의 In Data]
텍스트, 오디오, 이미지, 비디오 등 정의 어려워
데이터 정제 과정에서 결과 큰 차이

[더피알=이경락] 흔히들 빅데이터 분석이라고 하면 하나의 방법론을 이용하는 것처럼 생각하고 있지만, 빅데이터의 형태를 구분함에 있어서 정형(structured)과 비정형(unstructured) 데이터는 구축부터 큰 차이를 보인다.

우선 정형 데이터는 일반적으로 관계형 데이터베이스에 저장되도록 정제 및 구조화된다. 데이터베이스에서 데이터의 체계를 기반으로 예측 가능한 방식으로 검색할 수 있게끔 설계되는데, 이 때문에 대용량 처리를 목적으로 한 하둡(데이터 분산 저장 분산 처리 프레임워크)과 같은 시스템의 구축 여부가 빅데이터 회사로서의 자격 기준이 되기도 했다. 특히 정형 데이터는 행렬이나 필드에 질서정연하게 넣을 수 있고, 데이터의 저장 위치에 크게 구애받지 않고 접근할 수 있다.

하지만 텍스트, 오디오, 이미지, 비디오 같은 비정형 데이터에는 예측 또는 사전 정의가 가능한 포맷 또는 체계가 없다. 비정형 데이터는 정량적인 정형 데이터와 다르게 정성적이라고 할 수 있는데, 액세스 및 분석 툴을 사용할 수 없는 포맷으로 저장된다.

이는 어떠한 데이터가 들어올지 알 수 없기 때문인데, 텍스트 데이터만 하더라도 한 글자의 이모티콘 형식이 들어올지, 수백 바이트의 장문 메시지가 들어올지 알 수 없다. 그래서 비정형 데이터를 구축하고 처리하기 위해서는 비관계형 데이터 스토리지 플랫폼이 필요하다.

이미지 데이터에 담긴 의미

이러한 구축 구조의 차이는 자연스럽게 분석 방식의 차이로도 이어진다. 그냥 ‘빅데이터 분석 해주세요’라고 해서 해결되는 문제가 아니다. 정형 데이터와 비정형 데이터는 분석의 난이도, 특히 데이터의 정제 과정에서 큰 차이를 보인다.

숫자로 표현돼 주요 항목에 대한 서열이나 등간, 비율 척도 구분이 확실한 경우, 혹은 명목 척도라고 하더라도 디지털로 구축돼 구분이 뚜렷한 정형 데이터의 경우에는 비교적 분석이 수월하다.

하지만 실제 최근 빅데이터 분석의 90% 이상을 차지하는 비정형 데이터는 그 전처리에서 실제 분석에 이르는 과정이 매우 복잡하고 다단하다. 사진 이미지만 하더라도 데이터로 처리되어야 할 요소들을 세밀하게 처리해야 하고, 텍스트의 경우에도 단순한 어휘 추출을 위해서 띄어쓰기 등의 요소를 확인해야 한다.

전술한 것처럼 최근 새롭게 구축되고 분석되는 데이터들은 대체로 비정형의 형태를 띠고 있다. 구매한 물건에 대한 사용기가 커뮤니티 게시판에 텍스트로 올라오고, 가장 좋아하는 풍경이나 장소 등은 인스타에 이미지로 저장한다.

기업들은 이러한 소비자의 반응을 세밀하게 파악해 상품과 서비스를 개발하고, 공공영역 역시 포털 사이트 댓글에서 올라오는 날 것의 여론 반응을 주의 깊게 파악하고자 한다.

특히 인공지능(AI)이 발달하면서 과거에 사람이 일일이 정성적으로 분석해야 했던 과업들이 차츰 자동화되고 있다. 예를 들어 하나의 텍스트에서 수용자가 느끼는 긍정이나 부정의 감정들에 대해, 예전에는 학습을 통해 코더 간 일치도가 확보된 ‘사람’들이 감성을 평가했다면, 최근에는 수만 건 학습된 데이터의 딥러닝을 통해 AI가 텍스트 내용의 감성을 평가한다.

자동 수집된 데이터 저작권은

비정형 데이터 분석의 수요가 늘어나는 만큼 이를 활용한 AI 발전 역시 중요한 과업이 되고 있다. 엄청나게 많은 용량과 높은 분석 난도를 가지고 있는 데이터 처리에 있어서 정성 분석을 자동으로 할 수 있는 것만큼 매력적인 일은 없기 때문이다.

정부 역시 비정형 텍스트 데이터를 일종의 학습 데이터로 구축하여 AI 분석 기술 발전을 위한 토대 마련에 나서기도 했다. 현재 한국정보화진흥원 등을 통해 구축하고 있는 ‘데이터 댐’이 전형적인 사례다. 비정형 데이터 분석을 자동으로 할 수 있는 환경을 구축해 놓을 테니, 민간 영역에서 잘 개발해서 활용을 해달라는 것이다.

다만 이러한 텍스트 데이터 구축에 있어서 간과되고 있는 사실들도 있다. 바로 콘텐츠의 저작권 문제이다. 개인이 인스타그램에 올린 사진이나 태그 문자, 그리고 언론사가 취재를 통해서 만들어낸 뉴스 콘텐츠 등이 창작자 동의 없이 분석을 위한 원본데이터로 활용되고 있다.

실제로 정부부처들이 온라인 모니터링이나 빅데이터 분석을 과업으로 삼은 용역 과제 등에서 저작권 문제를 언급하는 경우를 찾아보기 어렵다. 포털 뉴스나 온라인 커뮤니티, 소셜미디어 등에서 특정한 반응들을 수집해서 보여주는 크롤링 방식 활용에 있어서 창작자의 동의는 쉽게 무시된다.

이러한 사안들이 데이터 관점에서 분석 결과만을 유도하는 것이라면 문제가 아닐 수도 있지만, 원본이 수집돼 게시되며 종종 개인정보도 개별 처리해야 함을 감안할 때 매우 유의할 필요가 있다.

제4차 산업혁명과 관련된 논의가 진행되면서 인식적 패러다임이 콘텐츠 중심에서 데이터 중심으로 옮겨가고 있다. 디지털화된 자산에 있어서 정성 분석 역시 더이상 지난한 시간과 비용을 소요하는 작업이 아니게 됐다.

하지만 이러한 기술 발전에 있어서 여전히 지켜야 할 원칙들은 있다. 개인이나 법인의 기본적인 이익으로서 저작권이나 개인정보의 보호 등이 그것이다. 현재 발 빠르게 전환 중인 데이터 사회 변화 과정에서 놓치고 있는 부분들은 없는지 살펴볼 시점이다. 위대한 항로는 앞만 보며 나아간다고 개척되는 것이 아니라, 지나온 길을 되짚어 새겨둠으로써 완성된다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.