“시각화만 가지고 어떻게… 분석이 좀 돼야 하지 않나요?”
그렇죠. 틀린 말은 아니네요. 근데 100% 맞는 말도 아닙니다. ‘시각화 분석(visualization analysis)’이란 말이 있습니다. 사실의 나열에 불과했던 텍스트들을 시각화 작업을 통해 그 의미를 분석할 수 있도록 하는 것을 말합니다. 일례로 시각화를 통해 우리는 데이터 속의 비교, 변화, 분포 등과 같은 상관관계들을 한눈에 보고 좀 더 쉽고 빠르게 그 가치를 알 수 있게 되는 것이죠. 그래서 데이터 시각화의 목적은 단순히 데이터를 ‘시각적으로 아름답게 디자인’하는 것보다 ‘시각적인 분석을 통해 의미를 찾을 수 있도록’ 만드는 것에 좀 더 의의를 두어야 할 필요가 있습니다.
사실 시각화 분석 작업만 제대로 해도 봐야할 데이터의 십중팔구는 충분히 인사이트를 찾을 수 있습니다. 정녕 모두의 데이터가 반드시 머신러닝이나 인공지능, 혹은 고도화된 분석도구가 필요한 것만은 아닐 테니까요. 그런데 왜 많은 사람들은 여전히 시각화만으로는 인사이트를 찾기 어려울 것이라고 생각하는 걸까요? 어쩌면 제대로 된 시각화 방법을 모르고 있기 때문은 아닐까요?
목적에 맞는 차트 유형만 잘 사용해도 팔할은 성공
제대로 된 시각화 분석을 위해서는 그만큼 데이터의 종류에 따라 목적에 맞는 차트 유형을 잘 사용하는 것이 중요합니다. 그런데 이 차트 유형이라는 것이 생각보다 다양합니다. 일반적으로 알려진 막대나 선, 파이 차트 외에도 트리맵, 버블, 평행좌표, 지도 시각화, 산점도 등 생각보다 다양한 차트 유형이 있습니다.
다양한 차트가 있는 이유는 무엇일까요? 사실 각각의 차트는 그 유형마다 표현할 수 있는 것에 차이가 있습니다. 따라서 사용 목적에 맞는 차트 유형을 잘 선택해야만, 담고자 하는 메시지도 정확하게 전달할 수 있고 유의미한 분석도 가능한 것입니다. 이를 위해 지금부터 차트를 사용하는 주요 목적이 무엇인지, 그 목적에 맞는 차트 유형은 무엇이 있는지 알아보도록 하겠습니다.
차트 유형은 사용 목적에 따라 ① 비교, ② 변화, ③ 구성(비율/비중), ④ 관계, ⑤ 위치 총 5가지로 나눌 수 있습니다. 지금부터 통계청의 ‘2016년 인구주택총조사’ 데이터를 바탕으로 하여 목적에 맞는 차트는 무엇인지 이야기해보고자 합니다.
1) 비교
개별 데이터는 혼자 있을 때에는 의미가 없지만, 다른 데이터와 ‘비교’를 통해 유의미한 인사이트를 발견할 수 있습니다. 예를 들어 우리나라 2016년 총 가구수가 1984만이라는 사실을 데이터로 확인했다고 해봅시다. 1984만 가구수는 많은 것일까요, 적은 것일까요? 이와 같은 판단을 위해서는 전년도 데이터, 다른 나라 데이터 등 여타 데이터와 ‘비교’가 필수적입니다.
비교를 쉽게 할 수 있는 시각화 방법 중 가장 대표적인 것은 항목별 측정값을 시각화 요소의 크기로 표현하는 것입니다. 시각화 유형으로 막대 차트, 그룹 막대 차트, 버블 차트 등이 있습니다.
데이터 사례로 알아볼까요? 통계청이 발표한 ‘시도별 장래가구추계’ 자료에 따르면 1인 가구가 지속적으로 증가하면서 2026년에는 1인 가구 비율이 전국 모든 시도에서 가장 높아질 것으로 예상된다고 합니다. 그렇다면 1인 가구 수는 어느 연령대에서 가장 큰 비중을 차지하고 있을까요? 이를 알아보고자 그룹 막대 차트로 시각화했습니다.
막대차트에서 항목별 막대의 길이를 통해 가구주의 연령대마다 가구원수별 가구수를 비교해볼 수 있습니다. 가구주의 연령이 30대 이하인 경우 1인 가구가 가장 많고, 40대는 4인 가구, 50대는 3인 가구, 60대 이상은 2인 가구수가 가장 많은 것을 알 수 있습니다.
이번에는 전체 연령대 중에서도 1인 가구 비중이 가장 높은 20대의 데이터로 버블 차트를 만들어보았습니다. 이 차트에서 원의 크기와 색의 짙고 옅음을 통해 각 가구원수별 가구수 차이를 쉽게 확인할 수 있습니다.
2) 변화
시간에 따라 전체 가구 중 가구원수별 비중이 어떻게 변화했는지는 어떤 유형의 차트로 알 수 있을까요? 오랜 기간 동안 축적된 데이터는 시간에 따른 수치값의 변화를 확인할 수 있는데요. 이 경우 선 차트, 영역 차트, 타임라인 차트로 시각화할 수 있습니다. 이번에는 선 차트를 이용해 데이터 변화 추이를 나타냈습니다.
지난 20년간 가구원수별 구성 비율 변화를 선 차트를 통해 한번에 확인할 수 있습니다. 4인 가구와 5인 이상 가구 비율이 확연히 줄어들고 1인 가구와 2인 가구 비율이 크게 상승한 것을 볼 수 있습니다.
3) 구성(비율/비중)
다음으로 전체 인구 중 유소년, 생산연령, 고령인구가 차지하는 비중에 대해 알아보겠습니다. 전체 데이터의 범위에서 특정 항목이 차지하는 비중이 얼마나 되는지 보고 싶다면 어떤 차트 유형을 사용해야 할까요? 전체 영역을 각 항목별 측정값 크기에 비례해 나눠서 시각화하는 파이 차트, 도넛 차트, 트리맵 차트, 와플 차트 등을 사용해야 합니다.
1990년과 2016년 두 시점의 연령그룹별 인구 비율을 트리맵 차트로 시각화해보았습니다. 차트를 통해 각 연령그룹이 어느 정도의 비중을 차지하는지 한눈에 볼 수 있습니다. 뿐만 아니라 두 시점의 데이터를 시각화한 각 차트에서 항목별 면적을 비교해 어떻게 변화했는지 알 수 있습니다. 1990년에는 65세 이상의 비율이 5%로 굉장히 낮았던 것에 비해, 2016년에는 0-14세 비율이 25.7%에서 13.6%로 낮아지는 동시에 65세 이상의 비율이 13.6%로 증가한 것을 알 수 있습니다. 이를 통해 지난 약 25년 사이 고령화가 심해졌다는 인사이트를 확인할 수 있습니다.
4) 관계
앞서 살펴본 3가지 분류별 사례는 주로 하나의 수치 데이터를 기준으로 시각화한 것입니다. 그렇다면 2개 이상의 수치 데이터를 분석해 이들의 관계를 보고 싶을 때는 어떻게 해야 할까요?
이를 발견하고자 할 때 사용할 수 있는 대표적인 시각화 유형으로는 산점도, 평행좌표, 네트워크 시각화 등이 있습니다. 산점도는 상관분석 결과를 시각적으로 보여줄 때 주로 활용되고, 네트워크 시각화는 인물 간 관계 등을 보여주는 데 유용합니다.
국내에 거주하고 있는 외국인 수와 다문화 대상자(결혼이민자, 귀화자) 수가 2015년 대비 2016년 각각 3.7%, 8.6% 증가한 가운데, 다문화 대상자 수의 증가가 해당 국적의 외국인 거주자 수의 증가에 영향을 받는지 알아보기 위해 산점도 차트를 활용해 보았습니다.
국내에 거주하는 20개국의 외국인을 대상으로 시각화한 결과 중국(한국계)이 국내 거주수와 다문화 대상자수에서 가장 많은 인구 수를 차지하고있는 것을 보이고 있으며, 중국과 베트남이 뒤따르고 있습니다. 전체적으로 양의 상관관계를 보여주고 있는 것 같아 보이지만, 낮은 수치를 가지고 있는 국가들은 한 곳에 몰려있어 정확한 판단을 하기는 어렵습니다.
그래서 중국(한국계), 중국, 베트남을 제외한 국가를 대상으로 산점도 차트를 다시 그려보았습니다. 앞서 보았던 전체 차트가 0.93으로 강한 양의 상관도(+0.7 과 +1.0 사이 값)를 보인 것에 비하면 그보다 낮은 0.41로 상관도를 보이고 있습니다. 하지만 이 역시 뚜렷한 양의 상관도(+0.3과 +0.7 사이 값)에 해당하기 때문에 두 지표는 양적 상관관계를 보인다고 할 수 있습니다.
5) 위치
데이터에 위치 정보가 있을 경우에는 지도 시각화로 표현하는 것이 효과적입니다. 지도를 사용한 데이터 시각화에도 다양한 유형이 존재합니다. 도트 밀도(Dot density)는 지도 위에 데이터의 분포를 점으로 표시하는 것이고, 필드 맵(Filled map)과 심볼 맵(Symbol map)은 각각 지역별 데이터 수치값을 색과 심볼의 크기로 나타낸 것입니다. 지역 간 흐름 혹은 경로를 표현할 때에는 플로우 맵(Flow map)을 사용합니다. 전국에서 1인 가구가 어느 지역에 많이 분포해있는지 심볼 맵(Symbol map)을 통해 알아보았습니다.
데이터를 시각화한 위 지도에서 원의 크기를 확인해보면 서울특별시(1,138,860명)와 경기도(1,067,916명)에 1인 가구가 가장 많이 분포하고 있는 것을 파악할 수 있습니다. 그 다음으로 부산광역시(372,412명)와 경상남도(358,430명)가 뒤따르고 있는 것을 알 수 있습니다.
* 한 줄 요약: 잘 알아둔 데이터 시각화 역량 하나, 열 분석도구 안 부럽다.
By 사업개발팀 김효진