커버스토리

촛불시민 빅데이터, 남녀 52% 대 48%

김보근 기자 빅데이터 분석 도전기 20대는 여성 많아…42% 대 58%

등록 : 2017-09-21 14:54 수정 : 2017-09-21 14:58

크게 작게

2016년 11월 토요일(5·12·19·26일) 오후 6시 서울 시내 유동인구를 지리정보체계 응용 프로그램인 큐지아이에스(QGIS)의 ‘온도지도’로 표현한 그래픽 자료를 다시 서울시 지도와 결합했다. 이번 분석은 이 빅데이터를 이용해 최초로 촛불시민 인구 구성을 알아본 결과물 중 하나다. 붉은색으로 짙게 표시된 부분일수록 사람들의 밀집도가 높은 곳을 나타낸다. 촛불집회가 열린 오후 6시 광화문 일대의 인구 밀집도가 서울시의 다른 지역에 비해 높게 나타나는 것을 확인할 수 있다. 데이터출처=서울시 빅데이터캠퍼스, 2016년 11월 SKT 월별 유동인구 데이터

‘남성 : 여성52% : 48%, 20대 남성 : 20대 여성42% : 58%.’

지난 9월12일 서울 상암동 서울시빅데이터캠퍼스에 설치된 컴퓨터에서 나온 ‘빅데이터를 이용한 촛불집회 참가자 분석’ 결과다.

기자는 지난 8월 중순부터 빅데이터를 이용해 촛불집회 참가자를 성별과 나이별로 구분하는 프로젝트에 ‘도전’했다. 약 한달 가까이 진된, 어쩌면 무모해 보이는 도전. 그러나 마침내 손에 쥔 아래의 결과는 제법 흥미로웠다.

‘2016년 11월 매주 토요일 저녁 6~8시 광화문광장에서 열린 촛불집회 참가자를 성별로 구분해보면 남성이 52%로 여성보다 4%포인트 많지만, 20대는 여성 참여율이 58%로 남성보다 무려 16%포인트 높다.’

이는 ‘세계사에 기록될 시민혁명’인 촛불집회 참가자들을 성별·연령별로 파악한 최초의 분석이다. 지난해 10월27일 약 3만명의 인원으로 청계광장에서 시작된 촛불집회 1주년이 한달가량 앞으로 다가왔다. 그러나 현시점까지 이 시민혁명은 많은 학자들의 연구 대상이다. 그런데 통계 전문가가 아니라 ‘일반 시민’인 기자가 제한적이지만 촛불집회 구성원들의 특징을 일부 밝혀낸 것이다. 이는 모두 ‘빅데이터’ 덕분이다.

미국 온라인서점인 ‘아마존’이 회원들의 구매기록이라는 빅데이터를 이용해 ‘추천목록’ 특허를 낸 것이 지금으로부터 19년 전인 1998년의 일이다. 아마존의 맞춤형 추천목록은 이 새로운 서점이 세계적 기업으로 급성장하는 데 크게 기여했고, 그 뒤 빅데이터 열풍은 전 세계에 퍼져나갔다.


우리나라의 경우 행정안전부가 2012년 ‘스마트 국가 구현을 위한 빅데이터 마스터플랜’을 마련했고, 1년 뒤인 2013년에는 서울시가 ‘빅데이터 활용 기본계획’을 수립했다. 서울시는 빅데이터 분석 기반을 갖춘 뒤 2014년과 2015년 ‘신촌 크리스마스 축제 분석’(서대문구), ‘마을버스 노선 운행시간 조정 방안’(관악구) 등 자치구의 여러 현안을 빅데이터로 풀어주는 사업을 했다. 하지만 강동구와 성북구 등 서울의 자치구들은 2015년 자체적으로 빅데이터 사업 계획을 세운 뒤 2016년부터는 자치구 단독으로도 빅데이터 분석 사업을 하고 있다. 빅데이터의 실행 주체가 빠르게 좀 더 작은 행정 단위로 옮아가고 있는 것이다.

2016년 7월 서울 마포구 상암동에 문을 연 서울시빅데이터캠퍼스는 더 나아가 ‘시가 직면한 문제를 대학·시민과 함께 분석·연구하는 공간’을 표방하고 있다. 시민들도 빅데이터 연구 주체가 될 수 있다는 말이다.

기자는 지난 8월14일 빅데이터캠퍼스를 처음 방문한 뒤, 캠퍼스의 빅데이터 전문가인 이원재 주무관의 도움으로 분석을 진행했다. 이 주무관에게서 우선 빅데이터캠퍼스에서 활용할 수 있는 4500여개의 데이터세트(데이터 모음, 자료 집합)에 대한 설명을 듣고, 분석 주제를 잡아나갔다.

이런 과정을 거쳐 주제로 정한 것이 ‘촛불시민 분석’이다. 이는 ‘SKT 월별 유동인구’라는 한개의 데이터세트만 이용해도 분석이 가능했기에 초보자인 기자에게 적합한 측면도 있었지만, 무엇보다 촛불시민의 구성이 궁금했다. 거대한 시민혁명인 촛불혁명은 우리 현대사의 흐름을 크게 바꾸었고, 지금도 모두가 촛불정신 계승을 얘기한다. 그러나 ‘그들은 누구인가’ 하는 실체 분석은 아직 더딘 상황이기 때문이다.

분석에 이용한 ‘SKT 월별 유동인구’ 데이터세트는 ‘통화나 문자 등 통신 횟수 자료를, 서울시를 50m×50m 단위로 나눈 좌표에 맞춰 집계한 월 단위 데이터세트’이다. 즉 시민들이 어떤 장소에서 전화나 문자를 주고받은 자료를 기초로 해당 지역의 유동인구를 성별·연령별·시간대별·요일별로 추정한 데이터인 것이다.

‘SKT 월별 유동인구’ 데이터세트의 구성을 구체적으로 살펴본 뒤, 빅데이터 분석 목표를 최종적으로 ‘시간상으로는 2016년 11월 매주 토요일 저녁 6~8시, 공간은 광화문광장 일대 550m×350m 범위에 있는 시민들의 성별·연령별 분포’로 잡았다. 월별 자료지만 다행히 매주 토요일 특정 시간대 유동인구를 합산할 수 있었기에 가능한 분석 목표였다.

분석을 위해 모두 여섯 차례 빅데이터캠퍼스를 방문했다. 방문 때마다 스스로 학습했던 것을 실행하고 이 주무관으로부터 새로 배워야 할 것에 대해 설명을 들으면서 조금씩 진도를 나갔다. 분석에는 ‘토드 포 마이에스큐엘’(Toad for MySQL)과 ‘큐지아이에스’(QGIS)라는 프로그램을 이용했다. 데이터베이스 관리프로그램인 ‘토드 포…’는 해당 데이터세트에서 목표 시간대의 유동인구를 뽑아내는 데 필요했다. 또 지리정보체계 응용 프로그램인 ‘큐지아이에스’는 그렇게 뽑아낸 데이터에서 다시 분석의 공간적 범위인 ‘광화문 일대 550m×350m의 유동인구’를 추출해내는 데 쓰는 것이었다.

이런 과정을 통해서 마침내 촛불시민들의 특성 중 작은 부분이 세상에 드러났다. 분석 결과, 2016년 11월 매주 토요일 오후 6~8시 광화문에 모인 시민들은 남녀가 52 대 48로 거의 비슷한 비율을 보였다.

30대와 40대는 남녀 비율이 각각 53 대 47, 50대 이상은 64 대 36으로 남성 비율이 높았다. 그러나 20대와 10대의 경우 여성 비율이 각각 58%와 57%로 남자들보다 높았다. 결과를 보면서 ‘10대와 20대 여성들의 변화 욕구가 이렇게 강했구나’ 하는 생각이 들었다.

더욱이 분석 결과에 따르면 20대 참가자들이 전체 참석자 중 19%를 차지했는데, 이는 서울시 전체인구 중 20대의 비율 15%를 뛰어넘는 것이었다. 물론 촛불집회의 주력은 40대였다. 40대는 서울시 전체인구 중 17% 정도를 차지했지만, 기자가 분석한 촛불집회 참석자 분석에서는 무려 4분의 1이 넘는 28%를 차지하는 것으로 나타났다. 하지만 기자에게 그것보다 더 눈에 띄는 것은 20대, 그중에서도 여성들이었다. ‘젊은층의 정치무관심’이라는 말은 더 이상 사실이 아닐 수 있겠다 싶었다.

기자가 빅데이터를 이용해 찾은 이런 사실은 지난 5월9일 치른 제19대 대통령 선거 투표율과도 일치하는 것이다.

지난 6일 중앙선거관리위원회가 발표한 제19대 대통령 선거 투표율에서도 20대의 투표율은 76.1%로, 30대(74.2%)와 40대(74.9%)보다 높게 나타났다. 앞으로 20대 여성들의 정치 참여 프로그램에 대한 수요가 늘어날 수도 있겠다는 예측도 조심스럽게 해본다.

물론 기자가 분석한 결과는 촛불시민 전체를 규명한 것은 아니다. 촛불집회는 2016년 10월27일부터 2017년 4월27일까지 모두 23차에 걸쳐 매주 토요일 거의 빠짐없이 열렸으며, 광화문을 넘어 서울 전역, 더 나아가 대한민국의 많은 도시에서 동시에 열렸다. 하지만 이번 분석은 2016년 11월에 열린 네번의 촛불집회를, 그것도 광화문 일대 550m×350m라는 제한된 공간을 대상으로 분석한 것일 뿐이다.

다만 이번 분석의 의미를 굳이 찾자면, ‘일반 시민도 빅데이터를 이용해 우리 시대의 가장 큰 화두 중 하나인 촛불정신의 실체에 접근할 수 있다’는 것을 보여준 것 아닐까? 그런 시도가 가능할 정도로 빅데이터는 이미 우리들 가까이 다가와 있었다.

김보근 선임기자 tree21@hani.co.kr

서울살이 길라잡이 서울앤(www.seouland.com) 취재팀 편집

맨위로