여론을 혼란스럽게 하는 데이터 시각화의 오류
언론 매체에서는 민심을 반영하기 위해 많은 여론조사를 진행하고 이를 기사화합니다. 여기서 빠질 수 없는 것이 바로 데이터 시각화입니다. 데이터의 의미를 직관적으로 전달할 수 있으니까요. 하지만 언론 매체의 잘못된 데이터 시각화는 꾸준히 논란거리입니다. 파급력이 크기에 여론을 좌지우지할 수 있는 만큼 특히 주의가 필요합니다.
지난 20대 대선 시즌 당신도 속지 않았나요? 데이터 시각화의 함정에 빠지지 않는 법’을 통해 정치⋅선거에 관한 데이터 시각화의 오류를 짚은 적이 있는데요, 이번에는 윤석열 대통령 국정평가 결과를 바탕으로 한 다섯 가지 데이터 시각화 사례에서 발생한 오류를 확인해보겠습니다.
1. 적절한 컬러를 사용하세요.
첫 번째는 윤석열 대통령 국정운영 평가 결과를 게이지 차트(Gauge Chart)로 나타낸 사례입니다. 게이지 차트는 조각의 크기를 기준으로 데이터의 의미를 파악하는데요, 조각이 크면 전체 데이터에서 차지하는 비율이 크다는 의미입니다.
아래쪽 게이지 차트를 살펴보면, 긍정적인 평가는 붉은색 계열로, 부정적인 평가는 검은색 계열로 표시하고 중간에는 밝은 회색 영역이 보입니다.
왼쪽에 ‘매우 잘하고 있다’로 시작해 ‘매우 잘못하고 있다’로 끝나는 것으로 보아 긍정 → 부정 데이터를 순차적으로 보여주는 형태로 구성한 데이터 시각화 같아요. 보통 설문조사에는 긍정과 부정 답변은 물론 ‘잘 모르겠다’나 ‘무응답’도 포함되는데요, 그렇다면 가운데 연한 회색 부분은 ‘잘 모르겠다/무응답’이라고 답변한 비율로 추측할 수 있습니다.
원 데이터를 확인해볼까요? 중앙선거여론조사심의위원회에 등록된 여론조사 결과를 보면 ‘잘 모르겠다’는 답변이 4.4%라고 나오네요. 해당 게이지 차트가 긍정에서 부정으로 이어지는 답변을 시각화하는 거라면 ‘잘 모르겠다’는 답변을 제외한 이유를 파악하기 어렵습니다.
차트에 사용하는 컬러에는 어느 정도 규칙이 있어요. 일반적으로 빨간색은 부정적인 데이터를 나타낼 때, 녹색이나 파란색은 긍정적인 데이터를 나타낼 때 사용합니다. 위의 게이지 차트는 긍정적인 답변을 붉은 계열의 색으로 나타내 혼동할 여지가 있습니다. 데이터 시각화를 볼 때 숫자보다는 색이 주는 이미지를 더 먼저 인지하게 되니까요.
또 한 가지, 부정적인 데이터를 나타낼 때 회색 계열을 사용했는데요, 회색은 주로 덜 중요한 데이터에 사용하는 컬러입니다. 해당 게이지 차트에서 빨간색이 눈에 확 띄어서 혹시 긍정적인 평가 결과만을 강조하려는 의도가 있는 것은 아니었는지 궁금해지네요.
해당 기사의 게이지 차트를 막대 차트(Bar Chart)로 재구성해 보았습니다. 막대 차트는 막대의 길이로 데이터의 크기를 비교할 수 있는 유형인데요, 막대의 길이가 길수록 데이터의 크기가 크다는 의미입니다.
설문조사에도 보통 ‘긍정-부정-모름/무응답’ 순서로 답변이 나열되어 있죠? 그래서 이 데이터 시각화도 위쪽부터 ‘매우 잘하고 있다’ – ‘잘하는 편이다’ – ‘매우 잘못하고 있다’ – ‘잘못하는 편이다’ – ‘모름/무응답’을 배치하고, 긍정적인 답변은 녹색 계열, 부정적인 답변은 붉은색 계열을 사용해서 색의 상징성을 통해 의미를 전달하고자 했습니다.
막대 차트를 보니 붉은색의 ‘매우 잘못하고 있다’가 가장 높은 비율을 차지하고 있다는 사실을 한눈에 확인할 수 있네요.
2. 3D 차트는 지양하세요.
두 번째는 제주 지역민을 대상으로 윤석열 대통령의 국정수행 평가에 대해 조사하고 이를 시각화한 사례인데요, 아래쪽 데이터 시각화 왼쪽에는 가로형 막대 차트, 오른쪽에는 3D 파이 차트(Pie Chart)를 확인할 수 있어요. 막대 차트는 막대의 길이, 파이 차트는 조각의 크기를 가지고 데이터의 크기를 가늠할 수 있습니다.
언뜻 보면 다른 데이터를 가지고 제작한 차트인 것 같은데, 자세히 보니 막대 차트와 3D 파이 차트 모두 같은 데이터를 사용했네요. 가로형 막대 차트는 답변을 ‘매우 잘함’, ‘잘하는 편’ 등으로 세분화한 데이터를 보여주고, 3D 파이 차트는 ‘잘함’, ‘잘못함’, ‘모름/무응답’으로 합쳐서 보여주고 있습니다. 같은 데이터를 가지고 두 가지 차트를 제작한 이유는 무엇일까요? 긍정적인 답변과 부정적인 답변을 모두 나타내면서 세분화된 비율도 보여주고 싶었다면, 누적 막대 차트가 더 효과적이지 않을까요?
3D 파이 차트를 보면 오른쪽으로 틀어져 있는 것을 볼 수 있는데요, 왜 이렇게 만든 걸까요? 조각의 크기를 정확하게 볼 수도 없고, 레이블도 기울어져 있어 보기가 불편합니다. 파이 차트는 조각의 크기로 데이터의 크기를 파악하는 데이터 시각화 유형인데 3D 차트는 조각의 크기를 왜곡할 위험성이 있습니다. 이처럼 3D 차트는 가독성이 떨어지고 차트를 이해하는 데 부정적인 영향을 미칠 수 있는 만큼 사용하지 않는 것이 좋습니다.
3D 파이 차트의 ‘잘함’ 레이블 수치도 잘못 표시돼 있습니다. 3D 파이 차트에는 ‘잘함’의 레이블이 46.6%라고 표기돼 있는데 ‘매우 잘함(22.5%)’과 ‘잘하는 편(24.2%)’ 데이터를 합치면 46.7%가 됩니다. 사소한 것 같지만 이런 부분도 신경을 써야 합니다.
가로형 막대차트와 3D 파이 차트 두 가지로 표현한 해당 기사의 데이터 시각화는 100% 누적 막대 차트(Proportional Stacked Bar Chart)로 재구성했습니다.
100% 누적 막대 차트는 막대 하나가 전체 데이터 100%를 의미하고 조각의 크기를 기준으로 전체 데이터에서 차지하는 비율을 직관적으로 파악할 수 있습니다. 아래쪽부터 긍정 → 부정 데이터를 순차적으로 배치하고 긍정적인 답변은 파란색 계열, 부정적인 답변은 붉은색 계열을 사용했습니다.
100% 누적 막대 차트를 보면 푸른색 계열의 ‘잘함’이 붉은색 계열의 ‘잘못함’보다 더 크죠? 이 여론조사에서는 긍정적인 반응이 더 많이 나왔다는 사실을 직관적으로 알 수 있습니다.
3. 도넛 차트의 조각을 제거하지 마세요.
세 번째 사례는 도넛 차트(Donut Chart)로 시각화한 인천광역시와 경기도 지역민을 대상으로 윤석열 대통령의 국정운영 평가 조사 결과입니다. 도넛 차트는 파이 차트처럼 조각별 면적의 크기에 따라 전체 데이터 중 차지하는 비율을 파악할 수 있는데요, 데이터가 크면 조각의 면적도 넓게 나타납니다.
도넛 차트를 보면 도넛의 한 조각이 빠진 것을 확인할 수 있어요. 조각이 빠져 있으니 어색하고 불안정해 보입니다.
설문조사에는 보통 긍정과 부정 답변 이외에 ‘모르겠다’나 ‘무응답’ 같은 답변이 나타나는데요, 이 파이 차트에 빠진 조각도 모르겠다는 답변이 아닐까 해서 해당 기사의 데이터 출처를 토대로 중앙선거여론조사심의위원회 홈페이지를 확인했습니다. 확인 결과 빠진 조각의 크기만큼 ‘잘 모르겠다’는 응답이 있었어요.
도넛 차트로 각 답변의 비율을 보여주고 싶었다면 ‘잘 모르겠다’는 응답을 넣거나, 긍정적인 답변과 부정적인 답변만을 비교해서 어떤 반응이 더 우세한지를 보여주고 싶었다면 막대차트를 사용해서 직관적으로 나타내는 편이 더 낫습니다.
또한, 도넛 차트의 조각을 배치할 때는 12시 정각을 기준으로 오른쪽에 가장 큰 조각을 배치하고 시계방향으로 나열해야 직관적인데요! 해당 도넛 차트는 흐름이 자연스럽게 이어지지 않고 순서가 뒤섞여 있어 보기에 불편합니다
아래쪽에 보이는 데이터 시각화가 잘못 제작된 부분을 개선해서 재구성한 차트입니다. 도넛 차트와 막대 차트 두 가지 유형을 사용했습니다. 부채꼴 모양의 도넛 조각보다 사각형 형태의 막대가 더욱 직관적으로 크기를 비교할 수 있기 때문입니다.
상단의 윤석열 대통령 직무수행 평가를 시각화한 도넛 차트를 보면 경기와 인천 두 지역 모두 긍정적인 반응이 더 높게 나타납니다. 하단의 1기 내각 인선 평가도 마찬가지로 파란색 막대가 가장 긴 것으로 보아 긍정적인 반응이 우세하네요.
여러분은 어떻게 생각하시나요? 직무수행 평가 설문조사 결과를 시각화한 파이 차트(상)와 1기 내각 인선 평가 설문조사 결과를 시각화한 막대 차트(하) 중 어느 쪽이 더 데이터의 의미를 효과적으로 전달하는 것 같나요?
4. 레이블과 y축을 정확하게 표시하세요.
네 번째는 윤석열 대통령의 국정운영 평가 결과를 보여주는 경사 차트(Slop Chart)입니다. 경사 차트는 두 시점의 데이터 변화를 직관적으로 보여주는 차트입니다. 데이터를 연결한 선의 방향과 기울기를 가지고 데이터의 변화를 파악할 수 있어요. 기울어진 정도가 크다면 데이터의 변화도 큰 것을 의미합니다.
경사 차트 왼쪽에 5월 3주를 보면 ‘긍정’과 ‘부정’의 y축 기준 데이터값의 위치는 다른데 레이블은 모두 48%입니다. 두 가지를 추측해볼 수 있는데요, 한 가지는 레이블 수치를 잘못 표시한 경우 다른 한 가지는 차트의 각도를 왜곡한 경우입니다. y축이 있었다면 레이블을 잘못 표시한 것인지, 각도가 잘못된 것인지 확인할 수 있었을 텐데요, y축이 없어서 어떤 오류가 발생한 것인지 살펴봐야겠습니다.
경사 차트는 라인의 각도로 데이터의 변화를 파악할 수 있는데요, 경사각이 크면 클수록 데이터의 변화도 크다는 의미입니다. 5월 3주의 부정 평가 비율이 48%라면 경사각이 훨씬 커지겠죠. 데이터 시각화에 표기된 출처를 토대로 전국지표조사 원 데이터를 살펴보니 ‘부정적 평가 29%’라는 수치를 확인할 수 있습니다. 경사각의 오류가 아니라 레이블을 잘못 표시한 거였네요.
해당 기사에 삽입된 경사 차트 유형을 활용해서 재구성한 데이터 시각화입니다. 레이블을 바르게 넣고, y축도 표시해 차트의 가독성을 높였습니다. y축이 없는 차트는 사용자가 데이터를 해석하는 과정에서 데이터 시각화를 제작한 사람의 의도에 영향을 받을 수도 있어 주의가 필요합니다. (y축이 있어야 하는 이유는 y축이 없는 차트의 위험성을 보면 더 자세히 알 수 있습니다.)
긍정적인 반응을 나타내는 파란색 선의 각도가 더 큰 것으로 보아 해당 조사 기간 긍정적인 반응이 더 많이 나타났음을 알 수 있습니다.
5. 시계열 간격을 일정하게 맞추세요.
마지막 다섯 번째 사례는 대통령 직무수행 평가 결과를 나타낸 라인 차트(Line Chart)입니다. 라인 차트는 시간의 흐름에 따라 달라지는 데이터 추이 변화를 나타내는데요, 선의 높낮이 변화에 따라 경향을 파악할 수 있습니다.
라인 차트는 시간의 경과에 따라 연속적으로 관측된 데이터를 나타내기 때문에 날짜의 주기가 일정해야 하는데, 이 기사에 삽입된 차트는 x축의 시간 간격이 일정하지 않고 5월 4주, 6월 1주, 6월 3주 데이터가 빠져 있습니다.
한국갤럽에서 원 데이터를 살펴보니 6월 1주와 6월 3주의 데이터가 있었고, 5월 4주는 일명 깜깜이 기간이라 부르는 여론조사 결과 발표 금지 기간이라 데이터가 없습니다. 이때는 여론조사 결과를 공표하거나 인용해 보도하는 것이 금지되어 있기에 이때를 제외하고 나머지는 모두 차트에 표기해야 합니다.
시계열의 간격 이외에도 차트를 보면 6월 2주의 ‘잘못하고 있다’와 7월 1주~3주의 ‘잘하고 있다’ 등 여기저기 라인이 끊어진 것을 볼 수 있는데요, 자세히 보면 데이터가 없어서 그런 게 아니라 지워진 것 같은 흔적이 보여요. 완성도가 떨어지는 차트를 그대로 기사에 내보내다니! 이런 기본적인 실수는 없어야겠습니다.
빠진 데이터를 포함해서 라인 차트를 재구성했습니다. 1주 단위로 간격을 맞추고 깜깜이 기간이라 데이터가 없는 부분도 그대로 남겨두었습니다. 중간에 라인이 이어지지 않아 어색할 수도 있지만 데이터의 의미를 정확하게 나타내는 방법입니다.
라인 차트를 보면 6월까지 파란색 선으로 나타나는 ‘잘하고 있다’는 반응이 우세하다가 7월 1주를 기점으로 빨간색 선인 ‘잘못하고 있다’가 더 높게 나타나기 시작해 격차가 점점 벌어지고 있습니다.
에디터의 한마디
지금까지 윤석열 대통령 국정평가 설문조사 결과를 시각화한 차트에서 발생한 오류들을 살펴보았습니다. 레이블을 잘못 작성하거나 라인이 지워지는 등 주의 깊게 살피지 않아 발생한 실수들도 있지만, 게이지 차트나 3D 파이 차트처럼 데이터의 정확한 의미 전달보다 디자인적 요소를 더 중요하게 고려해서 생긴 오류도 있었습니다.
데이터를 시각화하는 이유를 고려하지 않고 그냥 기사에 삽입할 이미지가 필요했던 것은 아닐까 하는 생각이 들었어요. 올바른 데이터 시각화를 제작하는 일은 언론 매체의 신뢰 문제와도 깊은 관련이 있을 텐데요, 데이터를 시각화하는 이유가 데이터의 의미를 정확하게 전달하는 것이니만큼 데이터를 시각화하는 사람이 먼저 신경을 쓰고, 사용자는 이를 비판적인 시각으로 바라봐야 데이터의 의미를 올바르게 받아들일 수 있을 것 같습니다.
데이터와 데이터 시각화에 관해 궁금한 사항이 있거나, 잘못된 시각화 사례를 발견하셨다면 언제든 뉴스젤리에 알려주세요. 여러분의 적극적인 피드백을 기다리고 있겠습니다. 우리 다음 콘텐츠에서 또 만나요!
*참고
– 이태윤, [국정수행평가 조사] 제주도민 “윤석열 잘한다” 긍정 우세, 2022.05.26, 한라일보
– 박훈상, 尹국정운영 긍정평가, 경기-인천 54%로 절반 넘어, 2022.05.27, 동아일보
– 이승배, 尹 국정수행 “잘한다” 54%…국힘 지지율 48%로 민주 21%P 앞서, 2022.06.02, 서울경제
– 김명일, 尹 국정운영 평가, 긍정 42.7% 부정 52.9% [여론조사공정], 2022.07.07, 조선일보
– 장관석, 국정지지율 하락 6주만에 멈춰… 부정평가는 첫 60%, 2022.07.23, 동아일보
– The Data Visualization Catalogu
Editor. 브랜드 마케팅팀 귤젤리