‘시각화’로 하는 데이터 분석(visualization analysis)은 텍스트 형태로 된 방대한 양의 데이터를 일일이 보지 않고도, 시각화 결과물의 시각적 패턴을 바탕으로 인사이트를 도출하는 것입니다. 이는 ‘시각적으로 아름답게 디자인’하는 것을 목표로 하는 예술적 관점의 데이터 시각화(Artistic Data Visualization)와는 달리, ‘데이터가 가진 인사이트’를 찾는 것을 최우선의 목표로 합니다. 즉, 예뻐 보이는 차트보다 데이터와 분석 목적에 적합한 시각화 유형을 활용해 인사이트를 도출하는 것입니다. |
‘데이터 시각화’ 하면 여러분의 머릿속에 떠오르는 이미지는 무엇인가요? 보고서, 발표 자료 등에서 본 막대그래프? 파이 그래프? 데이터 시각화는 데이터 분석 결과를 사람들에게 보여주기 위한 수단이라고 생각하는 분들이 많을 거라 생각됩니다. 그러나 데이터 시각화의 유용함은 데이터 분석 과정에서 더 큰 빛을 발합니다.
데이터에 근거한 마케팅, 데이터를 활용한 콘텐츠 제작 등 실무에서 데이터를 접하고 분석해야 하는 경우는 다양하고, 또 그 중요성을 이야기하는 사람들도 많습니다. 그러나 우리가 궁금한 이야기는 ‘데이터를 써야 한다!’ 혹은 ‘데이터로 해봤다!’라는 것보다 ‘데이터를 활용하는 방법은 이런 것이다! 이렇게 했더니 데이터에서 유의미한 인사이트를 도출할 수 있었다!’ 일 것입니다.
앞으로의 연재 글은 이런 궁금증을 갖고 있었던 분들에게 도움이 될만한 내용을 다뤄보고자 합니다. 마케팅 분야에서 관심 있을 만한 산업·업종의 데이터를 바탕으로 도출한 인사이트, 그 과정에서의 데이터 시각화의 역할에 대해 이야기할 예정입니다.
. . . . .
첫 번째 사례로 살펴볼 업종은 ‘콜택시’입니다. 각종 모임이 많아지는 연말이면 택시 승차난에 대한 이슈가 크게 대두되곤 합니다. 연말의 콜택시 이용 트렌드를 분석하기 위해 SK 텔레콤 데이터 허브에서 공개한 2016년 12월의 콜택시 이용 현황 데이터를 살펴보았습니다. 분석 대상 도시는 7개로 광주, 대구, 대전, 부산, 서울, 울산, 인천입니다.
지역별 기준에 따라 2016년 12월 콜택시 통화량을 비교해본 결과, 가장 많은 콜택시 통화량을 기록한 도시는 ‘부산’으로 나타났습니다. 반면 구 단위로 비교해보면, 부산에 있는 지역이 아닌 ‘울산 남구’가 1위를 차지한 것을 확인할 수 있습니다.
⊙ 지역별 데이터를 분석할 때에는 분석 기준이 되는 지역 단위의 수준에 따라 새로운 인사이트를 도출할 수 있습니다. 도시별 콜택시 통화량을 비교해보는 방법 이외에도 각 도시 내에서 구별, 동별 데이터를 비교해 볼 수 있습니다.
요일별 통화량 선 그래프를 통해 대부분의 도시의 경우 ‘불금’과 ‘불토’의 통화량이 최대치를 기록한 것을 한눈에 알 수 있습니다. 최대치를 기록한 요일을 기준으로 도시를 묶어보면, 부산, 울산, 대전은 금요일, 대구, 인천, 광주는 토요일입니다. 예외적으로 서울은 목요일의 통화량이 가장 많았습니다.
⊙ 시계열(time series) 기준의 데이터를 선 그래프로 시각화하고, 가장 많은 통화량을 기록한 요일을 확인합니다. 공통되는 인사이트를 기준으로 지역들을 묶어보고, 예외적인 패턴을 보이는 지역이 있는지 찾아봅니다.
요일별 통화량 변화의 폭이 가장 큰 도시는 부산으로 나타났습니다. 그다음으로는 울산, 대전, 대구, 서울, 광주, 인천 순으로 나타났습니다. 12월 전체 콜택시 통화량이 많을수록 요일별 변화도 큰 경향을 보입니다. 예외적으로 대전의 경우 대구보다 12월 전체 콜택시 통화량은 적으나, 요일별 변화량은 더 큰 것으로 나타났습니다.
⊙ 12월 전체 콜택시 통화량을 기준으로 한 도시별 비교 결과가 요일별 변화의 폭(최댓값-최솟값)을 기준으로 한 분석 결과에서도 동일하게 나타나는지 확인합니다. 시각화 차트 영역 중 최댓값과 최솟값 사이의 영역에 회색 음영 색을 넣으니 요일별 통화량 변화의 폭을 쉽게 확인할 수 있습니다. 예외적인 패턴을 보이는 지역이 있는지 찾아봅니다.
일별 통화량 변화 추이를 살펴보면, 요일별 통화량 추이 패턴이 반복적으로 나타나는 것을 확인할 수 있습니다. 12월 중 가장 많은 통화량을 기록한 날은 언제였을까요? 인천과 광주를 제외한 5개 도시에서 12월 21일(수)의 통화량이 가장 많았습니다. 혹시 월말로 갈수록 콜택시 이용이 더 증가하지는 않았을까요? 일별 통화량의 추세를 살펴본 결과, 대구를 제외한 6개 도시에서 월말로 갈수록 통화량이 증가하는 추세를 확인할 수 있습니다.
⊙ 시계열 데이터의 분석 기준을 무엇으로 하느냐에 따라 도출 가능한 인사이트가 달라집니다. 일별, 요일별 통화량 변화뿐만 아니라 주중과 주말을 기준으로 나눠서 분석할 수 있습니다.
⊙ 일별 통화량을 시각화 한 선 그래프를 보면, 추세선이 그려져 있음을 알 수 있습니다. 추세선을 시각화 기반의 인사이트 도출을 위한 요소로 활용하여, 월초보다 월말에 통화량이 증가했다(대구 제외)는 사실을 쉽게 발견할 수 있습니다.
⊙ 분석 범위 내에서 떠오르는 궁금증을 데이터로 확인해보는 과정을 통해 인사이트를 도출합니다.
각 도시의 1시간대별 콜택시 통화량 추이를 살펴본 결과, 서울을 제외한 6개 도시에서 통화량이 많았던 시간대는 오전 8~9시와 오후 6시였습니다. 대중교통 이용이 어려운 시간대에 콜택시 이용이 증가하지 않을까?라는 예상을 빗나가는 지점입니다. 반면, 서울의 경우 이들 도시와 뚜렷이 구별되는 시각적 패턴을 보이는데, 서울의 경우 하루 중 밤 11~12시의 통화량이 가장 많았습니다.
한 단계 더 나아가 사실상 콜택시를 이용하는 승객 입장에서는 전날 밤 11시나 당일 새벽 1시에 이용하는 것을 같은 시간 범주로 여길 것을 감안하여 데이터의 시간 범위를 임의로 나눠 분석해보았습니다. 아침(4~9), 낮(10~15), 저녁(16~21), 밤(22~3)의 항목별 통화량을 비교해본 결과에서도 타 지역과 구별되는 서울의 특징을 바로 확인할 수 있습니다.
⊙ 시계열 데이터의 분석 기준을 무엇으로 하느냐에 따라 도출 가능한 인사이트가 달라집니다. 1시간 별로 기록된 데이터를 오전과 오후로 나눠 각 시간 범위별 통화량 데이터를 비교할 수 있습니다. 그뿐만 아니라 데이터를 분석하는 사람이 주관적으로 정의 내린 개념을 기준 삼아 인사이트 도출을 시도해볼 수 있습니다.
. . . . .
지금까지 SK텔레콤 데이터 허브를 통해 공개된 2016년 12월 콜택시 이용 데이터를 기반으로 지난 연말의 콜택시 이용 트렌드를 알아보았습니다. 지역별 통화량, 일별, 요일별, 시간대별 통화량을 시각화 차트로 만들었고, 이를 바탕으로 인사이트를 도출하였습니다.
사실 데이터 시각화 및 분석 과정 이전에 꼭 확인해야 하는 점이 있습니다. 무엇일까요? 바로 데이터에 대해서 제대로 이해하는 것입니다. 이번에 활용한 데이터는 SK 텔레콤의 통화량 데이터와 업종 데이터를 기반으로 추출한 것으로 전체 콜택시/대리운전 서비스 이용 현황이 반영되어 있지 않은 데이터입니다. 통화량은 T고객(발신) 기준 이용자의 콜택시 통화 건수를 기준으로 하며, 5건 미만의 값도 5건으로 표시되었습니다. 따라서 일정 부분 데이터 자체의 한계가 있음을 감안하여 분석해야 하고, 도출한 인사이트를 의사결정 과정의 근거로 활용한다면 더욱이 이를 고려해야 합니다.
그럼에도 불구하고 해당 데이터를 활용한 분석을 의미 있다고 보는 이유는, 콜택시 이용 현황이라는 구체적인 데이터 지표를 공공데이터로 확보하기 어렵고, 콜택시 업체가 자체적으로 보유한 데이터가 일반에 공개되지 않은 상황에서 해당 업종의 트렌드를 경향적으로 볼 수 있기 때문입니다.
. . . . .
⊙ ‘데이터로 보는 연말 콜택시 이용 트렌드’의 더 자세한 이야기가 궁금하신 분은 데이터 시각화 기반의 스토리텔링 콘텐츠인 ‘콜? 콜! 지난 겨울 우리가 부른 콜택시’를 확인해보세요. 인터랙티브 데이터 시각화 대시보드를 통해 직접 데이터를 탐색, 인사이트를 도출해 볼 수 있습니다.
⊙ 데이터 시각화와 관련된 다양한 이야기가 궁금하신 분은 ‘뉴스젤리의 데이터 시각화로 보는 세상’ 블로그를 방문해보세요.
By 브랜드팀 강원양