‘데이터 시각화의 재구성’은 기사나 뉴스레터 등에서 볼 수 있는 잘못된 데이터 시각화 사례를 바탕으로 만드는 콘텐츠입니다. 기존 데이터 시각화의 잘못된 점을 살펴보고 올바른 데이터 시각화 차트를 제작하기 위해 고민하였습니다. 차트를 만드는 사람에 따라 디자인이 조금씩 달라질 수는 있지만, 데이터의 의미를 정확하게 전달하기 위해 지켜야 할 요소를 적용하여 재구성하였음을 알려드립니다.
여러분은 콤보차트(혼합차트) 또는 이중축차트라고 불리는 데이터 시각화 유형을 아시나요? 콤보차트는 하나의 차트에 두 가지의 지표를 담으려고 할 때 사용하는 데이터 시각화 유형인데요! 막대와 라인이 함께 사용된 차트를 본 적 있으실 거예요.
위에 보이는 유형의 차트가 바로 콤보차트인데요! 해당 데이터 시각화에서 막대는 전월대비 소비자 물가지수를, 라인은 전년동월비 물가지수를 나타내고 있어요.
콤보차트는 하나의 차트에 여러개의 지표가 들어가는 만큼 주의해야 합니다. 차트를 제작할 때도, 차트를 읽을 때도요! 이번 콘텐츠를 통해 그 이유를 설명드리고자 합니다.
지금부터 하나의 차트에 여러 가지 지표를 담으려면 어떻게 전달해야 효과적인지 함께 살펴보도록 하겠습니다.
콤보차트인 듯 콤보차트 아닌 차트의 정체
아래 이미지는 A일보에 삽입된 <주요 배터리 제조사의 2021년 성장률>이라는 제목의 차트입니다. 제목대로라면 성장률을 시각화한 것일 텐데요. 당연히 노란색 말풍선과 수치가 막대의 수치를 나타내는 레이블이라 판단하고 “CATL은 167.5%, LG에너지솔루션은 75.5%, 파나소닉은 33.5% 등의 성장률을 나타내고 있구나”라고 해석했습니다.
그런데 가만 보니 뭔가 이상합니다. y축의 가장 위쪽 수치는 120인데 CATL의 노란색 말풍선의 값은 167.5%를 가리키고 있어요. 단위도 기가와트시(GWh)라고 표시되어 있습니다. 성장률이면 퍼센트(%)로 나타날텐데 말이죠. x축에서 네 번째 위치한 BYD의 수치는 더 의아합니다. 노란색 말풍선의 값은 167.7%인데 막대는 바로 왼쪽에 있는 파나소닉(33.5%)보다 더 짧습니다.
어떻게 된 일일까요? 차트가 담고 있는 지표는 많은데 제목, 축과 연결이 되지 않아 혼란을 주고 있습니다. 제목은 <주요 배터리 제조사의 2021년 성장률>이지만 이 차트에 나타난 지표는 하나가 아닙니다. 각각 연두색 막대와 보라색 막대로 나타낸 2020년과 2021년의 어떤 수치, 노란색 말풍선과 퍼센트(%)로 표현한 수치까지 총 세 가지 지표를 담고 있습니다.
막대로 표현한 수치가 어떤 지표인지 출처를 토대로 원데이터를 찾아가보겠습니다. 해당 사이트에서 통계표(데이터 표)를 발견할 수 있었어요.
이를 토대로 막대는 2020년과 2021년의 전기차용 배터리 사용량을 나타내고 있다는 사실을 확인했고, A일보에서 삽입한 차트가 배터리 사용량과 주요 제조사의 성장률 두 가지를 담고 있다는 사실을 확인할 수 있었습니다.
하나의 차트에 두 가지 지표를 나타내는 법은?
이렇게 많은 지표를 한 차트에 담으려면 어떻게 해야할까요? 어떤 데이터 시각화 유형이 데이터의 의미를 정확히 전달할 수 있을까요?
여러 가지 지표를 하나의 차트에 나타내고 싶을 때는 두 가지 y축을 표시하는 방법이 있어요. 왼쪽과 오른쪽에 각기 다른 지표를 넣는 거죠. A일보에 삽입된 차트도 하나의 차트에 ‘배터리 사용량’과 ‘기업의 성장률’을 두 가지 데이터를 나타내려고 하는 거니까 왼쪽 y축에 점유율, 오른쪽 y축에 성장률을 배치하면 됩니다.
이런 유형의 차트를 콤보차트, 이중축차트, 혼합차트라고 부릅니다. 콤보차트는 데이터 값이 개별 항목으로 구분되는 범주형 변수(데이터 열)를 하나의 차트에 나타낼 때 사용하는데요, 변수 하나는 막대, 다른 하나는 라인으로 시각화하고 왼쪽과 오른쪽에 각각 y축을 표시합니다. 막대 길이와 라인의 높낮이를 기준으로 데이터의 크기와 변화를 비교할 수 있어요.
앞서 확인한 원데이터를 바탕으로 콤보차트를 만들어보았어요. 위 데이터 시각화에서 막대는 2021년의 배터리 사용량을, 라인은 2020년 대비 2021년의 성장률을 나타냅니다. 양쪽에 y축이 보이죠? 왼쪽은 2021년 배터리 사용량, 오른쪽은 2020년 대비 2021년의 성장률을 의미합니다.
콤보차트를 보면 CATL는 전기차용 배터리 사용량이 가장 많았고 두 번째로 높은 성장률을 나타냈네요. 반면 BYD는 전기차용 배터리 사용량은 낮은 편이나 가장 높은 성장률을 보인다는 사실을 확인할 수 있습니다.
재구성한 콤보차트에서는 x축의 값이 명확하게 나타나고, A일보 기사에 삽입된 차트와 달리 2021년 배터리 사용량 데이터만을 사용했습니다. 2020년의 배터리 사용량이 빠진 이유는 무엇일까요? 그 이유는 2020년의 배터리 사용량을 제외하고 차트를 그려야 정확한 데이터 시각화이기 때문입니다.
이런 형태의 콤보차트를 많이 보셨을 거예요. 이 차트는 엑셀을 가지고 만든 차트인데요, 역시나 두 개의 축을 가지고 있으며 배터리 사용량은 막대, 2020년 대비 2021년의 성장률은 라인으로 나타내는데 무엇이 다를까요?
자세히보면 각 배터리 제조사별로 막대가 두 개씩 있죠? 두 개의 막대는 각각 2020년과 2021년을 의미하는 그룹 막대차트입니다. 막대에서는 x축이 기간을 나타내는데 라인에는 기간이 없어요. 2020년대비 2021년의 성장률이기 때문이죠. 그래서 중간에 값이 찍히게 된 것입니다.
보기에는 그럴듯 하지만 오히려 헷갈리게만 하니 지양해야 할 시각화입니다. 우리가 데이터를 시각화하는 이유는 데이터의 정확한 의미를 쉽게 전달하기 위함이니까요.
이처럼 하나의 차트에 여러 가지 지표를 담으려고 하면 오류가 발생하기 쉽기 때문에 조금 더 신경써서 만들어야 합니다.
꼭 하나의 차트에 표현해야 할까?
앞서 콤보차트를 만들 때는 2020년 배터리 사용량을 제외했는데요. 2020년과 2021년의 배터리 사용량, 2020년 대비 2021년의 성장률 모두를 시각화해야만 한다면, 각각 따로 그린 다음 나란히 놓으면 어떨까요? 그렇게 해도 충분히 인사이트를 얻을 수 있어요.
왼쪽 막대차트는 주요 배터리 제조사의 점유율을, 오른쪽 막대차트는 주요 배터리 제조사의 성장률을 나타냅니다. 막대차트로 보니 어떤 회사가 점유율이 높은지, 어떤 회사가 성장률이 높은지 한눈에 들어오지 않나요? 이처럼 하나의 차트에 넣지 않아도 인사이트를 얻을 수 있는 방법이 많습니다.
거듭 강조하자면, 데이터의 의미를 잘 나타낼 수 있는 데이터 시각화 유형을 선택하는 것이 중요합니다.
데이터를 시각화하는 이유를 기억하자!
이번 콘텐츠를 통해 콤보차트가 무엇인지, 하나의 차트에 두 가지 지표를 담으려면 어떻게 해야하는지, 그리고 지표가 많아지면 어떻게 해야하는지를 알아보았습니다.
두 가지 지표를 하나의 차트에 나타낼 때는 내가 말하고자 하는 내용을 충실히 전달하고 있는지, 이 차트로 인해 오해의 소지가 발생하지는 않는지 등을 꼼꼼히 확인해야 합니다. 다른 데이터 시각화 차트를 그릴 때도 마찬가지겠지만 혼합차트는 특히 여러 정보가 들어가다보니 더욱 주의가 필요하죠.
꼭 두 가지 지표를 하나에 차트에 다 담지 않아도 괜찮습니다. 우리가 데이터를 시각화하는 이유는 데이터의 의미를 쉽게 전달하기 위함이니까요. 여러 개의 차트가 인사이트를 잘 전달한다면 그 방법을 선택하는 것이 좋습니다. 하나의 차트에 너무 많은 것을 넣으려고 욕심내지 말고 정확하게 표현하도록 함께 노력해보아요!
*데이터와 데이터 시각화에 관한 궁금증이나 잘못된 시각화 사례를 발견하신다면 언제든 뉴스젤리에 알려주세요. 여러분의 적극적인 피드백을 기다리고 있겠습니다. 우리 다음 <데이터 시각화의 재구성>에서 또 만나요!
Editor. 귤젤리