[기획 좌담회②] “정제된 데이터만이 파워가 있다”
[기획 좌담회②] “정제된 데이터만이 파워가 있다”
  • 김영순 편집장 (ys.kim@the-pr.co.kr)
  • 승인 2012.09.25 10:31
  • 댓글 0
이 기사를 공유합니다

다양한 빅데이터…분석도 각기 달라야

참석자(가나다순)
- 강정수 연세대 커뮤니케이션 연구소 박사(이하 강 박사)
- 김도훈 트리움 대표(이하 김 대표)
- 김은주 아이파트너즈 국장(이하 김 국장)
- 박준완 GS 칼텍스 부장(이하 박 부장)
- 배성호 SKT 부장(이하 배 부장)
- 이재국 미디컴 대표(이하 이 대표)

▲ 박준완 부장(사진 왼쪽부터), 김은주 국장, 강정수 박사가 열띤 토론을 하고 있다.

[The PR=김영순 편집장] *편집장 : 빅데이터 시대에 소셜 데이터 분석에 관해 놓치고 있는 것은 무엇일까요?

강 박사 : 글쎄요. 빅데이터 분석도 비슷하지만 결론은 어떤 인사이트를 줄 것인 가인데, 명확하게 빅데이터 분석이나 소셜 데이터 분석은 샘플링이에요. 샘플링을 왜곡시켜서는 안 된다는 점입니다. 그런데 한국의 데이터 분석업체들은 샘플링이 불가능한 트위터를 가지고 소셜 분석이라고 생각한다는 것입니다. 샘플링 해서 되는, 흔희 말하는 필터링할 수 있는 요소에 인구 사회학적 요소를 전혀 못 갖다 대고 있습니다.

그러다보니까 소셜 데이터 분석의 한계가 명확해져 버린다고 생각합니다. 그래서 기업은 자신들이 갖고 있는 데이터들을 인구 사회학적 요소로 반드시 필터링을 해서 매칭을 해줘야 올바른 결과물을 얻을 수 있다고 생각합니다. 이처럼 샘플링에 대한 성찰이 반드시 필요합니다.

▲ 강정수 연세대 커뮤니케이션연구소 박사.
그런 한 사례로 들자면 다음 소프트에서 서울 시장 선거 때 박원순 후보와 나경원 후보를 비교 했는데 맨션 비율로 지지율을 분석한 결과를 낸 거예요. 그 결과를 만들어 낸 다음이나 그걸 그대로 받아쓴 언론이나 거의 대중들에게 사기 친 거와 마찬가지예요. 왜냐하면 나경원 후보 쪽은 비판적인 글들이 훨씬 더 많은데 그런 식으로 지수화 한다는 건 샘플링에 대한 기본지식 조차 없는 거죠. 이처럼 분석 팀에서 반드시 해줘야 하는 것은 샘플링이고 대표성입니다.

그에 대한 끊임없는 시도가 바로 데이터의 머징입니다. 빅데이터가 이야기하는 것은 우리 회원들에게서 나오는 정보를 페이스북이나 트위터같은 것들을 통해 데이터들을 머징해줄 수 있는가에 대한 것입니다. ‘정제된 데이터가 되어야만 파워가 있다’라고 말씀드리고 싶습니다.

또 한 사례로 이번에 아마존에서 특허를 낸 것이 있는데, 모바일 사용자가 어떤 포인트에서 다음 포인트로 이동했었을 때 어떻게 행동하는가를 예측하는 것으로 특허를 냈어요. 하지만 아마존이 갖고 있는 데이터만으로는 그것이 어려운거죠. 예를 들면 이 사용자가 지금 주유소에서 기름을 넣고 있는데 이다음에 어디를 가서 어떤 구매가 이루어지는지를 사용자들이 갖고 있는 카드를 포함해 모든 데이터를 머징해서 예측해 내는 것인데, 여기에 소셜 데이터가 머징될 때 분석력과 파급력을 가질 수 있는 거죠.

배 부장 : 다른 분들이 11번가나 멜론을 사례로 말씀들을 하시는데, 이용자의 인구통계학적 특성이 맵핑된 조사랑 우리가 착각하면 안 되는 것이, 우리가 트위터를 본다면 조중동을 읽는 사람들의 인구통계학적 특성이 맵핑된다고 할 수는 없습니다.

즉 매체로서의 영향력과 그 메시지를 수용하는 사람, 그 실제 서비스를 사거나 이용하는 사람들의 맵핑은 다릅니다. 우선 그 관계성의 증명이 이루어져야 하고요. 또 양방향 이야기들이 많이 나오는데 먼저 양방향과 쌍방향의 정의부터 하고 넘어가야 할 것 같습니다.

상대방에게 ‘오늘 날씨 덥죠?’ 그랬더니 상대가 ‘여름이니까 덥지’ 이렇게 단지 둘이 대화가 오고 갔다는 행위로만 본다면 양방향이 되는 거고, ‘그러게, 입추도 지났는데, 내일은 어떻데?’ 식으로 질문이 들어오고 진행되는 형태가 바로 쌍방향이라고 생각합니다. 그런데 오늘 우리가 이야기하고 있는 것은 아웃 바운드 푸시 메시지 커뮤니케이션, 즉 현상에 대한 이야기만 하고 있는 것 같습니다. 그럼 메시지를 만드는 사람들은 인바운드로 들어온 인플리케이션을 어딜 통해서 얻는가를 지금 빼먹고 이야기하고 있는 것 같습니다. 왜? 분석할 수 있는, 노출되어 있는 것들은 현상적인 것 밖에 없기 때문이죠.

그런데 메시지를 만드는 사람들이 쌍방향 커뮤니케이션을 한다면 그 이야기들 속에서 무엇을 트래킹을 할 수 있냐하면, 우리가 마케팅을 할 때 우리 기업의 전달 가치 같은 키워드들의 수용, 그 회자율같은 반응들을 볼 수 있겠죠. 하지만 거기서 인구통계학적인 특성을 또 맵핑해서 찾을 수는 없습니다. 왜냐하면 기존의 데이터 분석가는 대체제가 아니라 양립을 해서 가게 됩니다. 왜냐하면 사람들이 갖고 있는 인식과 그 인식의 변화에 대한 소셜 트래킹은 어렵기 때문이죠. 

이 대표 : 저희야 말로 오늘 주제에 맞게 2년 동안 빛(성공)과 그림자(실패)를 다 맛 본 경우라고 할 수 있습니다. 예를 들어 트위터를 가지고 마이닝을 했을 때 내일 뜰 증권 투자 종목을 찾아줄 수 있을까? 안돼요! 없어요! 그러면 어디서 찾아야 하냐! 증권 사이트의 게시판을 뒤지는 것이 더 나아요. 그러니까 지금 현상들이 그렇게 일어나고 있다는 거죠. 다음 소프트가 소셜 매트릭스를 열어 놓았고, 코난(테크놀로지)에서도 펄스k를 오픈된 방식으로 내놓았는데 문제가 앞에 이야기한 방식으로 분석한다는 것이죠.

예를 들어 주식 투자자가 나는 마이닝 데이터를 쓰던 어떤 방식을 쓰던 내일 투자할 종목에 대해 고민하고 있는데 결과가 안 나와요. 그런데 오히려 안전투자, 장기투자라는 관점에서 보면 뉴스검색이 더 좋아요. 내일 것이 아닌 묵힐 수 있는 종목에 있어서는 소셜이 아니라 오히려 뉴스를 잘 분석을 해보면 투자가치가 높다고, 빈도수 높게 나온 뉴스가 훨씬 더 맞습니다. 예전에 팍스 넷이라고 하는 사이트가 갑자기 급부상하게 된 배경이 실제 주가의 내재가치와 상관없이 그들 안에서 만들어낸 소셜 여론이 실제로 주가를 움직였기 때문이에요. 그런 점에서 지금 데이터 분석에서 실수를 범하는 게 실제 기업이 필요로 하는 데이터에 이것들이 적합하냐는 것이죠.

수입 자동차 쪽을 예로 들면 그쪽에 막대한 영향력을 가진 보배드림, 혹은 다음이나 네이버 쪽의 수입차 마니아 카페에서 한번 안티세력이 발생하면 그 영향력이 대단합니다. 그렇기 때문에 실시간 모니터링을 할 정도죠. 이렇기 때문에 마이닝에서 중요한 것은 인사이트를 갖는 사람입니다. 그런 사람들이 필요한 데이터를 설계해야 되고, 또 데이터 마이닝을 하는 회사도 기업에서 담당하는 사람들이 애초에 기본적으로 자체 설계를 하게 해야 합니다. 그런데도 범용 데이터 마이닝 툴을 던져놓고 이걸 팔라고 한다면 안 팔릴게 뻔하죠. 

박 부장 : 동의합니다. 저는 인사이트를 가진 사람들이란 데이터를 비즈니스 밸류로 치환 해줄 수 있는 사람들이라고 생각해요. 사람들이 빅데이터에 관심이 있는 이유는 아마 이런 거라고 생각해요. 처음에 인터넷이 나왔을 때 인프라가 갖춰져야 한다고 이야기했고, 그 다음에는 하드웨어와 테크놀로지 이야기가 나왔다가, 소프트웨어 콘텐츠 이야기가 나오고, 앞으로는 빅데이터로 갈거다 식으로 이야기들을 하는데 인프라 이야기 이후의 상황은 외국하고 너무 비교가 날정도로 갭이 커져버렸습니다.

가장 대표적인 것이 우리나라에서 구글링을 하면 네이버 지식인에서 나오는 거 정도가 달라서 가져다 쓸 만한 게 정말 없죠. 근데 지금 빅데이터 쪽에 대한 미래상 같은 것들을 그린 책들을 보게 되면 너무 너무 멋진 게 많이 나오거든요. 심지어는 아까 강 박사님이 이야기하신 다음 소비예측이 가능한 리얼리티 마이닝 같은 이야기도 나오기도 하죠. 그런데 그렇게 까지 가려면 정부보다는 기업들의 힘이 필요합니다. 건강하게 돈을 태워주고 그리고 그 돈이 비즈니스 밸류로 치환되는 선순환이 일어나지 않으면 어렵죠.

그런 선순환이 일어나게 해줄 수 있는 가장 중요한 사람들이 바로 지금 논의 되었던 밸류 치환을 해줄 수 있는, 인사이트를 가진 사람들인 것이죠. 하지만 이 부분에 대해서는 학계나, 대행사, 특히나 기업 모두 어려워하는 부분입니다. 왜냐하면 기업에서는 그런 사람을 뽑지도 않고, 필요하다고 생각하지도 않기 때문입니다.

그래서 생각난 것이 90년대 중반 이었던가요. CRM 대세였던 시절이 있었습니다. 그 당시 사람들이 CRM에 대해 열광을 했었지만 실제로 그 데이터들을 가지고 기업들이 한 것은 기껏 해봐야 개인데이터 유출뿐이 아니었나 생각됩니다.(웃음) 결국 그 데이터를 가지고 돈을 만든 회사는 거의 없었다고 봅니다. 그 이유는 역시 그 데이터를 비즈니스 밸류로 연결시켜줄 사람이 없었기 때문이죠. 그리고 경영층들은 그런 사람이 돈을 만들어 주는 것을 본적이 없었기 때문에 당연히 그런 사람을 구하려 들지 않았고요.

▲ 김은주 아이파트너즈 국장.
김 국장 : 조금은 다른 이야기를 하나 해보고 싶은데, 우리나라에서 사실 데이터라고 부를 수 있는 것이 많지 않습니다. 그나마 빅데이터라는 관점에서 보면 많아지기는 합니다만. 예를 들어 브랜드 관점에서 보면, 실제적으로 저희도 브랜드에 대한 트래킹을 해보면 그 데이터양이 다양하거나 많지가 않습니다.

그래서 소셜 미디어 팀의 역할 중에 어떤 역할이 있냐하면 어떤 브랜드에 대해서 긍정적인 콘텐츠를 인터랙션을 통하던 자체개발을 하던 계속 만들어 소셜 사회에 계속 데이터로 커져나가도록 던져서, 일종의 촉매제 역할을 해야 하는 경우를 많이 볼 수 있죠. 그래서 사실 저희는 운영을 하거나 이야기를 하다보면 가장 많이 고민하는 것이 어떤 콘텐츠를 어떤 시점에 어떤 모양새로 만들어 낼 것이냐입니다.

그리고 나서 그 콘텐츠 중에 어떤 것들이 반응이 있는지 없는지 실제로 보면서 배우는 경우가 가장 많은 것 같아요. 그리고 이런 것들을 미리 겪은 사람도 기껏 해봐야 저희보다 2~3년 정도의 선행학습일 경우인 정도라 결국 수준들이 거의 비슷하다고 보죠.

김 대표 : 대기업들조차도 지금 당장 관건으로 여기는 것들은 소셜 미디어의 버즈부터 올리는 것입니다. 이것 자체가 기본적으로 안 되어 있습니다. 뭐 데이터들이 일단 많아야 분석을 하고 전략화 할 텐데 버즈자체가 낮다보니까 그 부분이 해결이 안 되고 있는 실정이죠.

저는 다시 빅데이터 이야기로 돌아가서, 빅데이터가 원 빅데이터가 아니라는 부분을 간과하면 안 될 거 같아요. 굉장히 다양한 층위의 데이터들이 있고 그것들이 연결이 돼서 빅데이터가 있는 것이죠. 다만 제가 소셜 분석의 문법이 조금 우려스러운 것들이 속속 출시되고 있는 툴들(아까 이야기한 다음이나 코난 같은)은 트위터만으로 안되니까 페이스북, 혹은 카페나 블로그 등 분석에 하나하나씩 추가를 해요.

그러고 난 다음에는 그 결론을 하나의 표로 뭉뚱그려서 보여주는 거죠. 각각의 데이터들이 다른 성격들을 가지고 있음에도 불구하고 말이죠. 이처럼 빅데이터라는 것도 굉장히 다양한 층위를 갖고 있기 때문에 그것에 대한 분석도 각기 달라야 한다는 것입니다. 아직 그 각각의 것을 분석하는 것도 쉽지 않은데 통합은 그 다음문제라고 봅니다.

이 대표 : 저희는 K기업을 수작업으로 분석할 수밖에 없었어요. 저희가 캠페인을 했는데 그에 따라서 인터넷 상에 수많은 콘텐츠(동영상, 만화, 블로그)들을 만들었었죠. 그러고 나니 K기업은 이렇게 6개월 동안 이 엄청난 예산을 들여 캠페인을 했는데 과연 우리는 어떻게 매니지먼트를 해야 할까에 대한 고민을 하게 된 거죠. 그래서 우리는 기존에 나와 있는 상용 분석 툴을 가지고 분석을 했는데 전혀 알 수가 없는거에요.

그래서 포기하고 담당했던 실무자 전원이 수작업으로 측정 지표를 새로 만들었어요. 마치 이런 거죠. 만든 콘텐츠가 블로그에 떴다가 이것이 트위터에 연동이 되고 다시 뉴스에 나오게 되면 점수에 가중치를 주자! 왜냐하면 그건 성공 케이스니까. 혹은 콘텐츠가 블로그에 똑같이 노출이 되더라도 영향력이 많은 경우와 적은 경우에 점수 차등을 둔다던지 하는 식이었는데 이 측정 지표를 만드는데 만 한 달이 걸렸습니다. 그만큼 이것이 어려운 일이라는 거죠.

강 박사 : 네이버나 다음 카페 그리고 블로그 들을 분석 하거나 가중치를 줄때는 패턴화 시키는 것이 중요하다고 생각해요. 제가 뮤지션 랭킹을 매길 때도 마찬가지인데. 제가 만약에 음원을 사더라도 열곡 중에 두곡만 듣고 나머지는 안들을 수 있잖아요. 하지만 그 10곡이 동일한 가중치로 음악차트에 반영이 되거든요. 또 똑같이 음악을 들었을 때 어떤 상황에 따라 짜증날 때가 있고 기분이 좋을 때가 있을 수도 있죠. 즉 동일한 음악을 가지고 소비에 노출되어도 나의 행동은 상황에 따라 달라질 수 있잖아요.

그래서 소셜 미디어에서 저희가 제안한 방법은 유튜브나 트위터나 페이스북에서 할 수 있는 인간의 행위란 무엇인가를 대략 30여개 정도로 정의를 해보고 그 패턴을 카테고리로 3가지로 묶어서 액티브, 패시브, 밸류 로 나누었습니다. 액티브한 행위란 유튜브의 동영상을 페이스북이나 트위터에 링크를 하는 행위 같은 거죠. 그처럼 라이크를 누르는지, 댓글만 다는지 등등 그러한 모든 행위들을 패턴화 시켜 분류해 가중치를 부여하고 알고리즘을 만드는 거죠.

이처럼 온라인상에서 일어나는 수많은 행위들을 패턴화 시키고 상대적인 중요도를 매기고 분류를 해야만 밸류에이션이 가능하다고 생각합니다. 그리고 그래야만 기업의 최종목적인 소비자극에 맞닿을 수 있다고 생각합니다.

미국의 W대형마트에서 분석한 바에 따르면 금요일 저녁에는 기저귀를 사는 사람이 반드시 맥주를 사더라라는 데이터 마이닝이 만들어낸 밸류에이션을 사례로 들 수 있을 것 같은데. 그 다음 주에 마트는 기저귀와 맥주를 번들링 상품으로 만들어내는, 이런 식으로 기업이 데이터 마이닝을 하는 이유는 소비의 분석이 아니라 소비를 자극하기 위한 분석이기 때문에 이런 분석 작업들을 하는데 있어서 소셜 데이터가 중요한 역할을 할 수 있습니다. 

<계속>



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.