데이터의 의미를 과장하지 않는 방법
‘데이터 시각화의 재구성’은 기사나 뉴스레터 등에서 볼 수 있는 잘못된 데이터 시각화 사례를 바탕으로 만드는 콘텐츠입니다. 기존 데이터 시각화의 잘못된 점을 살펴보고 올바른 데이터 시각화 차트를 제작하기 위해 고민하였습니다. 차트를 만드는 사람에 따라 디자인이 조금씩 달라질 수는 있지만, 데이터의 의미를 정확하게 전달하기 위해 지켜야 할 요소를 적용하여 재구성하였음을 알려드립니다.
“모든 차트는 0(영)점에서 시작해야 한다” 「새빨간 거짓말, 통계」라는 책의 저자 대럴 허프가 한 말입니다. 1954년 출간된 이 책은 ‘정부나 언론에서 보여주는 통계 수치에 속지 않기 위해 읽어야 하는 책’이라는 빌 게이츠의 추천과 함께, 반세기가 지난 지금까지도 꾸준히 사랑 받고 있습니다.
여러분은 ‘0에서 시작해야 한다’는 대럴 허프의 말에 동의하시나요? 동의한다면, 왜 0부터 시작해야한다고 생각하세요? y축의 시작점이 0이 아니면 어떻게 될까요?
이번 콘텐츠는 y축의 시작점에 관한 이야기입니다. 기사에 삽입된 데이터 시각화 사례를 통해 y축의 시작점에 따라 차트의 형태가 어떻게 달라지는지, “모든 차트는 0점에서 시작해야 한다”는 이야기가 나온 이유는 무엇인지 함께 살펴보겠습니다.
서울 빌라 중위매매가, 얼마나 오른 걸까?
A일보 기사에 삽입된 차트부터 함께볼까요? 서울 빌라의 3.3㎡당 중위매매가 추이를 나타내는 이 차트는 2017년부터 꾸준한 오름세를 보여줍니다.
차트를 보면 2017년 데이터는 x축에 가깝고 2021년 데이터는 가장 위쪽 그리드에 가까이 놓여 있어요. 라인의 추세만 보면 마치 0에서 시작하여 가장 높은 수치에 도달한 것 같은 느낌이 들지 않나요? 실제 y축 값은 1,400부터 시작하는데도 말이에요.
y축이 0부터 시작하면 라인의 각도는 어떻게 달라질까요? 같은 데이터를 가지고 차트를 다시 그려보겠습니다.
y축의 시작점을 0으로 두니 완만한 각도의 라인차트가 나타납니다. 매매가가 가파르게 상승한 듯한 느낌을 주는 기존의 데이터 시각화와 달리 라인의 각도가 완만해지니 가격이 그리 많이 오른 것처럼 느껴지지는 않습니다.
제작자는 ‘2017년부터 2021년까지 매매가가 크게 증가했다’는 내용을 강조하기 위해 y축의 시작을 1,400으로 설정한 것으로 보입니다. 라인의 각도가 가파르면 증가폭도 크게 느껴지기 때문이에요. 기존 데이터를 왜곡한 것은 아니지만 데이터의 의미를 과장해서 전달했다고 볼 수 있지 않을까요?
서울 주택 재산세, 폭발적으로 증가했을까?
다음은 B일보의 사례입니다. 서울 주택의 재산세 증가 추이를 나타내는 데이터 시각화인데요, 이 차트만 보면 재산세가 급격하게 늘어난 것 같아요.
앞선 사례처럼 2016년 데이터는 x축에 가깝고 2021년 데이터는 차트의 가장 높은 곳에 위치합니다. 라인이 가파른 상승세를 보여 재산세가 큰 폭으로 증가했다는 느낌을 줍니다.
y축의 시작점을 0으로 두고 라인차트를 다시 그려보겠습니다. 어떤 형태의 데이터 시각화가 나타날까요?
기사에 삽입된 차트가 폭발적인 증가세를 보이는 느낌을 준다면, 재구성한 차트는 라인의 경사각이 완만해져 그리 많이 오른 것처럼 느껴지지는 않습니다. 데이터를 살펴보면 해마다 1~2만 원 정도 늘어났다는 사실을 알 수 있어요.
기사에 삽입된 차트는 ‘재산세가 크게 늘어났다’는 이야기를 하고 싶은 제작자의 의도가 담긴 것으로 보입니다. 데이터를 왜곡한 것은 아니지만 데이터를 과장했다고 할 수 있지 않을까요?
LG이노텍 광학솔루션 사업부의 가동률, 변화가 클까?
C일보는 LG이노텍 광학솔루션 사업부의 가동률을 라인차트로 나타냅니다. 이 차트만 보면 2018년부터 2021년 상반기 사이 가동률의 큰 변화가 있는 것 같아요. 2019년 데이터는 x축에 가깝고, 2021년 상반기 데이터는 가장 위쪽 그리드에 가깝기 때문에 거의 0부터 시작해서 큰 폭의 상승세를 보였다고 느껴지거든요.
제작자는 2019년 잠시 주춤했던 가동률이 2021년 상반기가 되면서 큰 폭으로 증가했다는 내용을 전하고 싶었던 것으로 보여요. 로우 데이터를 살펴보면 어떨까요? 정말 가동률의 변화가 클까요?
y축의 시작점을 0으로 바꾸어보면 앞선 차트보다 완만한 각도를 나타냅니다. 같은 데이터인데 라인의 기울기에 따라 확연히 다른 인상을 줍니다.
기사에 삽입된 차트에서는 2019년과 2020년, 2021년 상반기의 가동률이 엄청난 차이를 나타내는 것처럼 보이지만 로우 데이터 값을 살펴보면 그렇게 큰 차이가 나지는 않아요. 2018년은 45.7%, 2019년은 41.9%, 2020년은 54.3%의 가동률을 나타냈거든요.
데이터를 왜곡한 것은 아니지만 차트 제작자의 의도를 강조하기 위해 데이터의 의미를 과장한 것처럼 보입니다.
1%의 예외도 있습니다
앞서 본 사례처럼 y축의 시작점을 0으로 두지 않으면 사용자가 잘못된 의미를 전달받을 수 있습니다. 극적인 기울기가 과장된 이미지를 주기 때문이에요. 그렇다면, 모든 라인차트가 0부터 시작해야 하는 걸까요?
1%정도 예외도 있습니다. 기온이나 출생성비처럼 소수점 이하의 작은 차이가 큰 의미를 나타내는 경우에는 y축의 시작점을 조절해야 데이터의 의미가 정확하게 나타납니다.
1990년부터 2020년까지 전국의 출생 성비 추이를 나타낸 데이터 시각화입니다. 출생 성비는 여아가 100명일 때 남아가 몇 명인지로 나타내는데요, 2020년 기준 출생성비는 104.8로 여아가 100명 태어났을 때 남아는 104.8명 태어났다는 의미입니다.
0부터 시작하는 데이터 시각화 차트를 그려보면 거의 직선에 가까운 모습을 보이는데요, 이런 형태의 차트로 인사이트를 얻을 수 있을까요?
원본 데이터의 상세 값을 살펴보면 30년 동안 거의 비슷한 추이를 보인다는 사실을 알 수 있습니다. 대부분 소수점 이하의 근소한 차이를 보이고, 가장 높은 값인 116.5(1990년)와 가장 낮은 값인 104.8(2020년)은 11.7의 차이가 납니다.
이렇게 근소한 차이를 나타내는 데이터는 시작점을 조정해야 인사이트를 발견할 수 있습니다. 아래의 사례처럼 말이죠.
전체 데이터에서 100이하의 값이 나타나지 않기 때문에 데이터의 시작점을 100으로 설정하였습니다. 이 차트를 보니 30년 간 출생 성비 추이가 한눈에 들어옵니다.
이처럼 데이터의 특징에 따라 시작점을 조절할 수 있는데요, 데이터의 의미를 정확하게 보여줄 수 있을 때만 0이 아닌 다른 숫자를 사용할 수 있습니다. 앞선 사례들처럼 제작자의 의견을 어필하기 위해 시작점을 조절해서는 안 된다는 거죠. 기울기를 과장하면 데이터도 과장될 수 있기 때문입니다.
y축의 시작점을 임의로 지정한 차트는 잘못된 의미를 전달할 위험성이 있습니다. 사용자는 시각적 요인으로 인해 데이터가 가진 본래의 의미가 아닌, 데이터 시각화를 만든 사람의 의도가 담긴 의미로 이해할 수 있거든요.
데이터의 의미를 쉽게 전달하기 위해 데이터 시각화를 사용하는 만큼, 제작자는 차트를 만드는 과정에서 데이터를 과장하지 않도록 신경을 써야하고, 사용자는 이를 그대로 받아들이는 것이 아니라 한번 더 생각하는 자세가 필요합니다.
데이터와 데이터 시각화에 관해 궁금한 사항이 있거나, 잘못된 시각화 사례를 발견하셨다면 언제든 뉴스젤리에 알려주세요. 여러분의 적극적인 피드백을 기다리고 있겠습니다. 우리 다음 콘텐츠에서 또 만나요!
참고 자료
대럴 허프, 「새빨간 거짓말, 통계」
Editor. 브랜드 마케팅팀 귤젤리