UPDATED. 2020-07-10 22:29 (금)
일상에서 활용되는 데이터의 함정
일상에서 활용되는 데이터의 함정
  • 이경락 ragie77@bflysoft.com
  • 승인 2020.04.23 10:24
  • 댓글 0
이 기사를 공유합니다

[이경락의 In Data] ‘사짜’들이 제공하는 가짜뉴스
상관관계-인과관계 무시한 분석, 오류 투성이 조언으로

[더피알=이경락] 제4차 산업혁명시대를 준비하면서 이를 추동하는 원유로써 빅데이터에 대한 가치가 치솟고 있다. 그동안 쌓아놓기만 했던 데이터를 원유 정제하듯 가공하면, 금세 양질의 가솔린이나 디젤을 뽑아낼 것 같은 생각도 든다.

물론 이런 기대가 잘못된 것은 아니다. 수많은 데이터를 정제하고 가공하며, 다른 분야의 데이터들과 연결하면 충분히 새로운 서비스를 만들어낼 수 있다. 예를 들어 금융권에서 제공하는 카드 사용 정보와 통신사에서 제공하는 유동인구 위치 데이터를 활용하면, 특정 상권에 대한 마케팅 분석도 가능하다.

하지만 핑크빛 전망을 내놓는 곳마다 묘한 냄새를 잘 맡는 ‘사짜’들이 나타나곤 한다. 그들은 현란한 말발로 정부 과제를 노리기도 하고, 정체를 알 수 없는 협회를 만들어서 민간 자격증을 팔기도 한다. 어떤 경우에는 빅데이터라고 보기 어려운 데이터들을 가지고 분석 상품을 만들어 판매하기도 한다.

문제는 이러한 시도들이 꾸준히 빅데이터 산업의 발전을 준비해온 관련 연구자나 기업가들에게 피해를 준다는 것이다. 빅데이터에 대한 콘셉트가 왜곡돼 분석 알고리즘과 출처를 알 수 없는 정보들이 언론을 도배한다. 그리고 많은 이들이 이러한 정보를 신뢰하며, 그에 기반을 둔 채 현상을 오해한다. 일종의 ‘가짜뉴스’인 셈인데, 빅데이터 분석이라는 생소한 이름으로 신뢰성을 부여받는 셈이다.

브랜드 평판지수 어떻게 산출?

가짜 빅데이터 분석의 대표적인 사례 중 하나는 데이터의 수집과 분석 방법에 있어서 신뢰도나 타당도가 지극히 떨어지는 분석이다. 일부 언론에서 보도되고 있는 연예인이나 기업 브랜드의 평판지수 같은 형태가 대표적인 것인데, 데이터 출처나 분석 방법 등이 전혀 공개되지 않는다.

얼핏 보기에는 단순히 해당 키워드에 대한 버즈량을 채널별로 합산한 것이고 내용에 대한 정성적인 분석은 전무함에도 불구하고, 이를 마치 체계적인 지수인양 평가해 보도자료로 내보낸다.

물론 기삿거리가 없어서 부실한 내용도 전혀 검증 없이 뉴스로 기사화하는 언론도 책임이 있지만, 데이터 수집 방식이나 지수의 구성 요소 등에 대한 근거가 전혀 공개되지 않는 것을 ‘빅데이터 분석’이라고 이야기하는 것은 심각한 문제다.

다른 빅데이터 분석 오류 사례로는 상관관계와 인과관계를 제대로 구분하지 못하는 분석을 들 수 있다. 빅데이터 분석은 드러난 현상을 통해 상관관계를 도출해내는 작업이 우선이다. 매우 오랜 기간 축적된 시계열 데이터 속에서 반복적인 특성을 파악하거나, 이용자의 이동 정보나 소비 정보들을 대량으로 모아서 집합적인 특성을 파악한다.

텍스트와 같은 비정형 데이터에서도 특정 어휘의 반복, 함께 결합하는 어휘들의 조합 등을 파악해서 해당 텍스트가 어떠한 관점을 취하고 있는지 분석할 수 있다. 즉 빅데이터를 통해 어떤 현상의 특이점을 알고, 그 특이점과 상호 조응하는 요소들을 찾아내는 것이 빅데이터 분석의 우선적 과제다.

그런데 어떤 분석들을 살펴보면, ‘상호 조응하는 요소’를 마치 ‘요인(要因)’처럼 설명하거나 해석하려는 경향을 보인다.

예를 들어 5세부터 20세의 인구 10만 명의 평균키와 상식테스트 결과 데이터가 있다고 가정해 보자. 데이터를 보니 평균키와 상식테스트의 결과가 양의 상관관계가 나타났다. 이를 두고 분석가라는 사람이 ‘빅데이터 분석 결과, 키가 클수록 두뇌가 뛰어나다’라고 말한다면 어떨까? 신장이 두뇌 능력에 영향을 끼칠까?

너무 극단적인 예라서 이미 오류를 인식하고 있겠지만, 이는 상관관계를 인과관계로 오인한 경우다. 5세부터 20세 사이라면 아직 성장기의 사람들이고, 키가 큰 사람은 나이가 많고 교육 수준이 높은 어른에 가까운 사람들이기 때문이다. 10만 명의 빅데이터라고 하더라도 다양한 요소들을 체계적으로 분석하지 못하면 결과는 큰 오류가 나올 수밖에 없다.

입맛대로 골라 해석하는 ‘사기’

또 다른 분석 오류는 지나치게 인문학적 감수성이나 자신의 경험담이 개입하는 경우이다. 빅데이터 분석만큼이나 개별 소비자들의 스몰데이터의 가치도 높아지고 있지만, 그에 대한 인사이트가 빅데이터 분석에 개입하게 되면 오류를 만들어내기도 한다. 데이터 외적인 부분들에 대해서 해석을 잘못하면 인과관계를 잘못 제시할 수 있다. 데이터에 대한 설명을 들으면 그럴듯하지만, 실제 현상을 제대로 반영하지 않는 경우가 많다.

빅데이터나 스몰데이터 수치를 자기 마음대로 골라 의도된 결과를 유도하기도 한다.
빅데이터나 스몰데이터 수치를 자기 마음대로 골라 의도된 결과를 유도하기도 한다.

가령 월간 강수량 및 강수일수 데이터와 편의점의 우산 판매량, 택시 이용자 수, 테이크아웃 음료 매출 등의 데이터를 확보했다고 가정하자. 일반적으로 강수량이나 강수일수와 편의점 우산 매출이나 택시 이용자수와 양의 상관관계를 보일 것이고, 테이크아웃 음료 매출과는 음의 상관관계를 보일 것이다.

그런데 비 오는 날 테이크아웃이 줄어드는 이유에 대해서 분석자 자신의 감성을 근거로 ‘그 결과는 비 오는 날은 아늑한 카페에서 분위기를 만끽하고 싶기 때문이다. 그래서 따뜻한 느낌의 인테리어가 필요하다’고 조언한다면 어떨까?

이는 실패한 조언이다. 비 오는 날은 우산을 들고 다녀야 하기 때문에 테이크아웃이 오히려 불편하다. 이런 경우 전체적인 매출 추이도 살펴봐야 한다. 테이크아웃 뿐만 아니라, 매장 내 판매 매출도 줄었을 가능성이 높다.

심지어 편의점 우산 매출도 마찬가지이다. 특히 장마철은 아침부터 우산을 쓰고 나오는 경우가 많기에 편의점 우산 매출이 줄어들 수 있다. 택시 이용률도 휴일 여부나 겨울의 적설 여부에 따라 다를 수 있다.

빅데이터는 단순히 큰 데이터가 아니다. 얼핏 누적된 데이터 속에서 쉽게 인과관계를 유추할 수 있을 것으로 보이지만, 그 안에서 미세하게 영향을 끼치는 다양한 매개 변인과 조절 변인들을 찾아야 한다. 이런 과정 없이 자기 마음대로 데이터를 골라서 의도된 결과를 유도하는 것은 일종의 사기이다.

지금 유행하는 빅데이터를 보면, 데이터를 바탕으로 현상을 정확히 분석하고 효과적으로 전략을 구축하려는 목적이 퇴색해버린 듯하다. 사실 본인 역시 완전히 자유롭다고 보기 어렵다. 빅데이터를 제대로 활용하기 위해서 일단 가짜를 가려내야 한다는 것은 참 안타까운 일이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.