데이터 시각화만으로 인사이트 도출이 가능할까요? 가능하다면 어디까지 할 수 있을까요? 얼마 전 블로그에 발행한 ‘데이터 속 인사이트 찾기, ‘시각화’로 충분하다’라는 글에 대한 반응이 뜨거웠던 점을 생각해보면, 아마 많은 분들이 이 질문을 갖고 계셨던 것 같습니다!
‘시각화’로 하는 데이터 분석(visualization analysis)은 텍스트 형태로 된 방대한 양의 데이터를 일일이 보지 않고도, 시각화 결과물의 시각적 패턴을 바탕으로 인사이트를 도출하는 것입니다. 이는 ‘시각적으로 아름답게 디자인’하는 것을 목표로 하는 예술적 관점의 데이터 시각화(Artistic Data Visualization)와는 달리, ‘데이터가 갖고 있는 인사이트’를 찾는 것을 최우선의 목표로 합니다. 즉, 예뻐 보이는 차트 보다 데이터와 분석 목적에 적합한 시각화 유형을 활용해 인사이트를 도출하는 것입니다. 그러므로 누군가 막대 차트가 지겨워 파이 차트를 그렸다고 이야기하면, 데이터가 제대로 시각화되었는지, 시각적 패턴이 보는 사람으로 하여금 오해를 하게 만들지 않는지 등을 주의 깊게 살펴봐야 합니다!
(사실 데이터 시각화 콘텐츠 제작자 입장에선, 예뻐 보이는 것을 포기하기란 쉽지 않습니다… 예뻐 보여야 사람들의 호기심과 관심을 한눈에 끌 수 있으니까요..! 그러나 저희가 이야기하는 데이터 시각화는 예술이 아니므로, 정확한 데이터 인사이트 전달을 최우선의 목표로 작업하고 있고, 동시에 예뻐 보이기 위한 방법도 고민하고 있습니다. 그러니 다소 투박해 보이거나, 많이 봐왔던 형태의 시각화 자료라도 그것이 담고 있는 이야기가 무엇인지 관심을 가져주세요! 데이터 시각화에서도 얼굴보다 마음…! 사족이 길었네요, 이 주제에 대한 논의에 관심이 있으신 분은 데이터 시각화 관련 해외 블로그 Storytelling with data의 포스팅 ‘the use case for less common graphs’를 읽어보시길 추천합니다!)
그렇다면 예뻐 보이는 차트 말고 데이터와 데이터 분석 목적에 적합한 차트는 무엇일까요? 시각화를 바탕으로 데이터 인사이트를 도출하는 방법은 도대체 무엇이고, 어떻게 하는 것일까요? 그리하여 이번 포스팅의 주제는 여러 유형의 데이터 중에서도 시계열 정보를 포함한 데이터 분석 사례를 바탕으로 ‘시각화로 하는 데이터 분석’에 알아보는 것입니다. 포스팅은 2회차로 발행될 예정이며, 내용은 각각 ① 데이터 시각화 콘텐츠 사례로 보는 시계열 데이터의 시각화 분석과 ② 시계열 데이터의 시각적 분석 및 인사이트 도출의 실제 사례입니다.
여기서 잠깐! 데이터 시각화 콘텐츠 사례를 바탕으로 데이터 분석 케이스를 알아보는 이유는 무엇일까요? 그 이유는 이러합니다..!
내가 데이터에서 어떤 의미를 찾을 수 있을지, 뭐를 먼저 봐야 할지… 백지상태에서 시작하는 것보다, 남이 만든 결과물을 보는 것이 ‘시도 가능한 영역’에 대한 ‘빠른 접근’을 가능하게 하니까요…!
1. 시계열에 따른 데이터의 추이 변화, 기본은 선(line) 차트로!
시계열 데이터의 시각화 방법으로 가장 일반적인 형태는 선(line) 차트입니다. 시계열의 의미 기준별로 데이터 수치값이 어떤 변화를 보였는지 선 차트로 시각화하고, 오르락내리락하는 선의 시각적 패턴을 통해 인사이트를 도출하는 것이 시각적 분석의 가장 기본적인 예입니다.
위 이미지와 같이 2차원 선 차트에 연도별 변화를 애니메이션 효과로 보여주면, 데이터의 의미를 좀 더 역동적으로 확인할 수 있습니다.
<뉴욕 타임스>(The New York Times)의 ‘It’s not your imagination summers are getting hotter’는 연도별 데이터 변화 데이터를 10년 단위로 묶어(시계열 데이터에서 파생 변수를 만든 예 중 하나) 보여주되, 애니메이션 효과를 활용해 하나의 차트 안에서 그 변화를 한눈에 확인할 수 있도록 해줍니다.
여기서 ‘시계열 데이터의 의미 기준'(필자가 설명을 위해 지칭한 개념)에 대해 간략히 집고 넘어가겠습니다. 시계열 데이터는 -‘시계열’이라는 고유한 특성에 따라 여러 의미 기준의 파생 변수를 만들 수 있습니다. 예를 들어 ‘날짜’를 생각해봅시다. ‘2017년 12월 15일’이라는 특정 날짜에서 우리가 추출할 수 있는 의미 정보는 무엇이 있을까요? ‘이 날은 무슨 요일이었을까?’, ‘이 날은 주 중이었을까? 주말이었을까?’ 등을 생각해볼 수 있습니다. 즉, 일단 위로 작성된 날짜 형태의 시계열 데이터에서 우리는 ‘요일’, ‘주 중/주말’이라는 파생 변수를 만들 수 있고, 이를 기준으로 데이터를 분석할 수 있습니다.
2. 색다른 형태로 시계열 데이터를 활용한 시각화!
앞서 살펴보았듯이 시계열 데이터를 활용한 일반적인 시각화 유형은 선(line) 차트입니다. 그러나 이외에도 색다른 형태로 시각화된 시계열 데이터가 또 다른 인사이트를 도출하게끔 하는 사례도 있습니다.
첫 번째 사례는 시각화 유형 중 하나인 캘린더 차트(Calendar chart)입니다.
캘린더 차트는 일 단위의 날짜 데이터의 수치값을 마치 달력과 같은 형태로 시각화 한 것입니다. 수치값을 나타내는 변수를 컬러 인코딩의 기준으로 활용합니다. (마치 히트맵(heat map)처럼 보이기도 하지요?) 따라서 수치값이 높은 날의 영역은 짙은 색, 반대의 경우 옅은 색이 칠해져 있는 것을 시각적 패턴 분석의 기준으로 삼아 데이터 인사이트 도출이 가능합니다. 선 차트의 경우 선의 등락을 기준으로 인사이트를 도출하는 것과 다른 방식임을 알 수 있습니다.
두 번째 사례는 하나의 시계열 데이터에서 추출한 2개의 파생 변수를 분석의 기준으로 삼아 시각화 한 것입니다.
Bloomberg의 ‘2014 Was the Hottest Year on Record’는 각 연도의 월별 데이터 변화를 각각의 선으로 그린 뒤 하나의 차트 안에서 애니메이션 효과를 활용해 보여줍니다. 월별 데이터 변화와 연도별 데이터 변화를 하나의 차트 안에서 종합적으로 확인할 수 있다는 것이 장점입니다. 이와 같은 형태의 시각화는 ‘지구의 온도 변화’를 주제로 이야기하는 경우가 많습니다.
‘지구의 온도 변화’를 이야기 한 또 다른 데이터 시각화 사례로 위 영상을 볼까요? 이는 앞서 보았던 ‘2014 Was the Hottest Year on Record’의 선(line)을 동그랗게 말아서 원(circle)의 형태로 만들어졌음을 알 수 있습니다. 흡사 다트 판처럼 보이는 차트 영역 내 각 연도별 X 월별 선(line)이 차례로 그려집니다. 각 월별 데이터가 연도 변화에 따라 어떻게 달라졌는지는 다소 파악하기 어렵지만, 연도별 X 월별 데이터 수치값의 개별 위치(온도가 높을수록 반지름이 큰 원의 선에 표기)와 컬러를 달리 표현해 과거에 비해 최근으로 올수록 지구의 온도가 상승했음을 직관적으로 알 수 있습니다.
동일한 형태의 자료를 3D로 만든 사례도 있습니다. 위 동영상을 보면 연도별 X 월별 지구 온도 수치 값의 변화를 선으로 표현하되, 연도별로 선을 나누지 않고 ‘연도-월’을 기준으로 시간에 따른 데이터의 변화를 이어서 그렸음을 알 수 있습니다. 앞서 살펴본 2가지 사례는 각 연도별 데이터의 선을 개별적으로 나눠서 시각화하였는데, 이와 차이를 보입니다. 나아가 3D로 제작된 시각화 결과물을 동영상으로 확인할 수 있어, 지구의 온도가 상승하고 있다는 데이터 인사이트를 직관적으로 이해할 수 있도록 하면서 또 흥미를 갖게 합니다.
지금까지 시계열 데이터를 활용한 데이터 시각화 콘텐츠를 사례를 살펴보았습니다. ‘시계열 데이터를 활용한 시각화’라고 할 때 여러분 머릿속에 떠오른 이미지와 어떤 점이 비슷했고, 또 달랐나요? 저는 사례를 살펴보면서 “시계열 데이터를 다양한 형태로 시각화하면서 여러 관점의 인사이트를 도출할 수 있겠구나!”라는 점을 생각하게 되었는데요! 이어질 다음 포스팅에서는 얼마 전 저희가 시각화 콘텐츠로 발행한 ‘콜? 콜! 지난 겨울 우리가 부른 콜택시 – 데이터로 보는 연말 콜택시 트렌드’ 제작 작업에서 시계열 데이터를 어떻게 활용하였고, 어떤 인사이트를 도출할 수 있었는지 등의 이야기를 들려드리고자 합니다. 이번 연재 포스팅을 통해 ‘데이터 시각화’의 중요성과 필요성에 대해 더 많은 분들이 공감하실 수 있길 바라며 글을 마무리합니다:)
By 브랜드팀 강원양