빅데이터 읽어주는 남자

화제성지수에선 대선후보 1, 2위 ‘박빙’

여론조사 허점 매울 수 있는 지수, 문재인 독주 속 안철수 유승민은 하락

등록 : 2017-03-02 16:05

크게 작게

선거철에 우리가 가장 많이 만나게 되는 수치는 무엇일까? 아마도 ‘여론조사’ 결과일 것이다. 무수한 기관에서 여론조사 결과를 쏟아낸다.

하지만 현재 여론조사의 신뢰성은 지난 총선, 미국 대선, 영국의 브렉시트 등의 결과에서 볼 수 있듯 여러 가지 한계점이 드러나고 있다. 무작위 전화를 통한 여론조사 방식은 전반적인 유권자들의 표심을 알아내는 데 한계가 있다는 지적이다.

전통적인 여론조사의 문제점은, 굉장히 사소한 이유인 ‘귀찮아서’부터, 자신의 정치적 성향을 드러내기 싫어서 등으로 충실한 답변을 얻기 어렵기 때문에 여론조사의 결과가 좋지 않게 나타나는 것이다. 이러한 문제점을 대체할 방안으로 ‘빅데이터’가 떠오르고 있다.

정치와 관련된 이야기는 민감할 수 있다. 그렇기 때문에 많은 사람들은 익명성이 보장되는 온라인 매체에서 진솔한 자신의 정치적 견해를 드러내는 것이다. 따라서 정치 분야에서 소셜 빅데이터 분석은 진실성 있는 정보를 얻어낼 통로가 된다.

대선 후보 빅데이터 화제성지수

온라인에서 대선 후보자들의 영향력을 평가할 수 있는 지표인 ‘빅인덱스’(화제성지수)는 대선 후보자들에 관해 사회관계망서비스(SNS)에서 어떤 사람들이 어떻게 말하고 있는지 글을 수집해 새로운 형태의 지표를 제시한다.

언뜻 보면 여론조사에서 말하고 있는 지지율과 비슷한 개념으로 보일 수 있다. 하지만 여론조사는 사람들의 ‘선호도’에 초점을 맞춘 것이라면, 빅인덱스는 사람들이 에스엔에스에서 언급하고 있는 ‘화제성’에 초점이 맞춰져 있다. 그렇기 때문에 여론조사 결과와 상반되는 결과가 나타날 수도 있다.

빅인덱스를 산출하는 근거는, 크게 버즈량 기반과 조회량 기반으로 구성된다. 먼저 조회량 기반 영역은 후보자들에 대한 사람들의 관심도를 네이버 검색량과 유튜브 조회 수로 산정한다.


다음으로 버즈량 기반은 트위터, 블로그, 커뮤니티에서 긍정적으로 언급하는 양을 가지고 산정하며, 뉴스의 언급량을 통해 구성된다. 최종적으로 네이버 검색량과 유튜브 조회 수는 관심도로, 에스엔에스 매체(블로그, 트위터, 커뮤니티)의 긍정언급량을 호감도로, 뉴스의 언급량을 주목도로 계산해 전체 빅인덱스를 산출해낸다.

한 달 동안 산출된 빅인덱스 지수

빅인덱스는 현재 후보자들의 지지율이 아니라 어느 정도 화제가 됐는지 알 수 있는 지표다. 현재 대선 후보자로 언급되며 일반 여론조사 결과 지지율이 높은 상위 6명을 선정해 2월 한 달간 지표를 뽑아보면, 전반적으로 후보자들에 대한 관심도는 계속 높아지다 김정남 암살사건 이후 2월 3주차부터 잠시 주춤하는 형태를 보인다.

여전히 문재인 전 대표의 독주가 이어지면서 안희정 도지사와 격차가 조금씩 줄어드는 것을 알 수 있다.

이재명 시장은 관심도가 조금 올랐으나 다시 줄어드는 형태를 보이고 있다. 2월은 전반적으로 정치적 소강상태가 이뤄진 것으로 보인다.

변동 폭이 크게 나타나는 후보자는 ‘황교안’ 총리대행으로 나타났다. 사람들의 관심도가 탄핵정국에 쏠린 만큼 다른 후보들에 비해 변동 폭이 크기 때문이다. 안철수 후보자는 미세하지만 계속해서 하락하고 있고, 관심도 하락 폭이 가장 큰 사람은 유승민 후보자임을 알 수 있었다.

기존의 빅데이터를 통한 선거 분석이 반대 의견을 가지고 글을 올리는 시끄러운 소수의 의견을 분석했다면, 이제는 포털 사이트에서 정보 검색을 하거나 관심 있는 동영상을 조회하는 조용한 다수의 의견을 파악하는 데 더 집중할 필요가 있다.

최재원 다음소프트 이사·빅데이터 전문가

서울살이 길라잡이 서울앤(www.seouland.com) 취재팀 편집

맨위로