이렇게 했다면, 더 좋았을 텐데..! 아쉬웠던 2024년 시각화 사례 리뷰 모음
데이터를 활용하기 위해 차트를 만들거나 다른 사람이 만든 차트를 인용할 때, 누구나 한 번쯤은 ‘이렇게 만들어도 되나?’, ‘제대로 만들어진 게 맞을까?’라는 생각을 떠올려본 적이 있을 것입니다. 그도 그럴 것이, 차트의 종류는 많이 알려졌지만, 어떻게 만드는 것이 더 효과적이고 적합한지에 대해 알 수 있는 방법을 찾기는 쉽지 않기 때문입니다. 이를 알기 위해서는 많은 시각화 차트를 만들어보고, 활용 목적에 적합한 형태였는지를 스스로 되물어보며 개선해 보는 경험이 필요한데요. 현대 사회의 직장인으로 각자의 바쁜 하루를 보내면서, 이런 경험을 위해 따로 시간과 노력을 투자하기는 쉽지 않습니다. 그래서 오늘은 저희의 오랜 경험을 통해 얻은 노하우로 ‘어떻게 하면, 더 나은 시각화를 만들 수 있는지’에 대해서 이야기해 보려고 합니다.
뉴스젤리 기획팀은 매주 시각화 콘텐츠 기획 회의를 진행하며, 독자에게 소개할 시각화 사례 리서치 결과를 리뷰하고 선별하는 시간을 갖습니다. 사례를 리뷰하다 보면 ‘시각화는 기발하고 아름다운데 인사이트는 아쉬운’, 또 ‘‘인사이트는 재미있지만, 시각화는 아쉬운’ 등 여러 유형의 사례를 마주하게 되는데요. 그중 시각화 자체의 완성도와 흥미로움을 갖추면서도 의미 있는 인사이트를 전하는 사례들을 독자에게 전하고 나면, 저희에게는 자연스럽게 저마다의 이유로 아쉽게 소개하지 못한 사례들이 더 많이 남아 있게 됩니다. 올해 1월부터 10월까지 리서치를 통해 수집한 사례 중 소개하지 못한 사례는 100개나 됩니다.
나름의 이유로 소개하지 못한 사례들을 보고 있자니, 문득 이 사례들을 통해 ‘더 나은 시각화를 만드는 저희의 노하우’를 전해드릴 수 있겠다는 생각이 들었습니다. 개별 사례의 아쉬운 이유를 이해하는 것은 더 나은 시각화를 만드는 방법을 알게 되는 시작점이 될 것이기 때문입니다. 따라서 시각화 사례를 보며 아쉬웠던 점을 나열하고, 이 중 여러분에게 전해드릴 만한 내용을 골라 ‘사례가 아쉬웠던 이유 3가지’를 정리해 보았습니다. 지금부터 하나씩 살펴보며, 아쉬웠던 이유는 무엇이었는지 그래서 더 나은 시각화에 필요한 것은 무엇인지 알아보도록 하겠습니다.
1. 이런 것까지 챙겨야 하나? 사소한 디테일을 놓쳐서 아쉬웠던 사례
시각화 차트를 만들 때 고려해야 하는 것은 차트 유형을 선택하는 것 이외에도 다양한 것들이 있습니다. 차트 도형의 색은 무엇으로 할 것인지, 보조선을 사용할 것인지, 축 이름을 넣을 것인지, 범례는 어디에 배치할 것인지 등 챙길 수 있는 디테일이 많습니다. 하나씩 보면, ‘이런 것까지 챙겨야 하나?’라는 생각이 들 수도 있지만, 시각화 완성도의 차이는 디테일에서 만들어집니다. 아래 사례들로 시각화에 디테일을 더하는 방법을 알아보겠습니다.
1.1 축의 정보를 정확히 명시하지 않은 사례
시각화 차트의 축을 구성하는 요소는 크게 2가지가 있습니다. 축 이름은 차트에 표현한 데이터가 무엇인지 표기하는 것으로, 독자가 데이터의 종류와 단위를 파악할 수 있도록 합니다. 나머지 하나는 숫자 레이블입니다. 축의 줄 간격마다 의미하는 수치를 표기하여 시각화 요소로 요약된 데이터의 크기를 가늠할 수 있도록 합니다. 차트를 해석하기 위해 필요한 기본 중의 기본 요소라고 할 수 있는데요. 이를 제대로 챙기지 못해서 혼란을 야기한 사례를 하나씩 살펴보도록 하겠습니다.
위 사례는 Georgios Karamanis가 1960년과 2016년 올림픽 선수들의 몸무게, 키 데이터를 시각화한 것입니다. 차트를 해석하기 위해 축을 볼까요? 축 이름 덕에 가로축은 몸무게, 세로축은 키를 의미하는 것을 쉽게 알 수 있습니다. 이때까지만 해도 차트를 해석하는 데 어려움이 있을 것이라고 예상치 못했는데요. 이어서 차트 영역 내 4개의 사각형을 얼핏 보고선 ‘데이터 범위에 따라 사사분면으로 나누어 표현한 것일까?’라는 생각이 들었습니다. 하지만 아무리 봐도 도통 이 차트가 무엇을 의미하는지 해석하기 어려웠는데요. 한참을 보고 나서야 축에 문제가 있다는 것을 알게 되었습니다.
사실 이 차트는 4개의 사각형 전체를 아우르는 2개의 축이 있는 게 아니라, 각각의 사각형마다 가로축과 세로축이 따로 있었습니다. 각 축의 숫자는 동일한 범위가 2번 나열되어 있었는데, 축 이름이 가로와 세로에 한 번 작성되어 있다 보니 4개의 사각형이 하나의 차트라고 착각하게 된 것이죠. 동일한 축을 가진 4개의 차트를 나열하는 방식은 ‘스몰 멀티플즈’라는 이름으로 시각화에서 심심치 않게 사용되는 방법인데요. 축 이름을 잘못 표현해서 오히려 독자의 혼란을 야기했습니다.
이 시각화는 어떻게 개선할 수 있을까요? 4개의 사각형마다 가로축, 세로축을 배치해 4개의 차트로 보이도록 하고, 각 차트 상단에 성별, 연도 정보를 표시했습니다. 시각화로 표현된 데이터가 무엇인지 이전보다 직관적으로 알 수 있습니다. 특히 이 사례에 활용된 스몰멀티플즈 방식은 개별 차트를 어떤 순서로 나열하느냐에 따라서 독자가 파악하길 바라는 인사이트를 서로 다르게 유도할 수 있는데요. 위 이미지 중 왼쪽은 세로를 성별로 나눈 뒤 연도별 차트를 가로로 배치한 것입니다. 성별마다 시점별로 어떤 데이터 차이가 있는지 파악하는데 용이합니다. 반대로 오른쪽은 세로를 연도로 나누고, 성별 차트를 가로로 배치했습니다. 시점별로 성별 데이터 분포가 어떻게 다른지 쉽게 비교할 수 있습니다. 개별 차트 그 자체의 개선뿐만 아니라 차트 상단 타이틀 표기, 배치 순서와 같은 디테일에 따라서 도출할 수 있는 인사이트가 달라짐을 이해할 수 있습니다.
다음으로 알아볼 사례는 축의 시작점 0에 대한 사례입니다. 차트의 Y축 시작점을 0으로 해야 한다는 이야기는 많이 들어보셨을 텐데요. 데이터의 변화가 매우 미미하여 그 변화를 보기 위해 불가피하게 Y축의 시작을 0이 아닌 숫자로 설정하는 일부 경우를 제외하고는 Y축의 시작점은 0이어야 하고, 축에 0을 표시해야 합니다. 비교적 많이 알려진 이 내용 때문에, 자연스럽게 우리는 Y축의 시작은 0이라고 생각하게 되는데요.
아쉽게도 위 차트에서는 0을 찾는 것이 쉽지 않았어요. Blomberg는 채용을 위한 오픈 API 활용과 AI의 인종적 편견을 주제로 다룬 기사에 위 차트를 활용했습니다. 인종 및 성별 조건에 따라 나눈 8개 인구 통계 그룹별로 재무분석가에 적합한 정도를 시각화한 것인데요! 차트를 보자마자 막대의 방향이 양쪽을 향해 있어 ‘양방향 가로 막대 차트’라는 점을 쉽게 알 수 있습니다. 당연히 중앙의 세로선도 0을 의미한다고 생각하게 되었는데요. 그러고 나서 차트 양쪽 영역에 큰 글자로 표시된 숫자 7.6%, 17.2%를 보니, 뭔가 이상하다는 생각이 들었습니다. 일반적인 양방향 차트라면 중앙의 세로선이 0을 의미하고 왼쪽은 음수, 오른쪽은 양수를 나타내는데, 7.6%는 음수가 아니었기 때문이죠. 그제야 세로선의 아래쪽 끝을 자세히 보게 되었고, 곧 세로선은 0이 아닌 12.5%를 의미한다는 것을 알게 되었습니다.
시각화 사례를 리서치하다 보면 이처럼 양방향 막대 차트의 세로선을 0이 아닌 데이터의 평균값 등으로 사용하는 경우를 종종 발견할 수 있는데요. 독자의 직관적인 이해를 돕기 위해, 위 이미지처럼 12.5%라는 숫자를 강조해 표현했다면 더 좋았을 것이라는 아쉬움이 들었습니다.
한편, 기사 원문에서 위 차트는 오픈 API의 GPT-3.5를 활용한 결과 아시아 여성이 흑인 남성보다 재무 분석가에 2배 이상 더 적합한 것으로 나타났다는 인사이트를 강조하기 위해 활용되었는데요. 사실 그 인사이트를 차트에서 발견하기까지 시간이 꽤 걸려서, ‘더 직관적으로 만들 방법이 없을까?’라는 생각이 들었습니다.
내친김에 인사이트에 적합한 형태의 시각화 차트를 만들어보았는데요! 양방향 막대 차트 대신 가로 막대 차트로 시각화 유형을 바꾸었습니다. Y축의 시작점이 0인 가로 막대 차트로 값을 시각화하기 때문에, 크기에 따라 막대의 길이가 비례해서 길어지는 것을 볼 수 있는데요. 기사에서 강조했던 ‘2배 차이’를 막대의 길이 차이로 바로 확인할 수 있습니다.
1.2 회색 선을 사용해 직관성이 떨어진 사례
데이터 시각화 차트에서 색은 크게 2가지 방법으로 활용할 수 있습니다. 서로 다른 색으로 데이터의 항목을 구분할 수도 있고, 데이터의 크기에 따라 색의 짙고 옅음을 달리할 수도 있는데요. 혹시 대부분의 차트에서 항상 사용되는 색이 있다는 것을 아시나요? 바로 회색입니다. 보조선, 참조선 등의 색으로 많이 활용되는데, 이를 간과하고 시각화 차트의 색을 사용할 경우 가독성이 떨어지는 문제가 발생할 수 있습니다.
위 이미지의 2가지 사례가 이에 해당하는데요. 왼쪽 사례는 유럽 연합 국가별로 일주일 중 절반 이상을 가사에 참여한다고 응답한 사람의 비중을 성별로 시각화한 덤벨 차트입니다. 노란색 점은 남성을 보라색 점은 여성을 의미합니다. 두 점 사이에 회색 선을 그어 성별 데이터의 격차를 표현했는데요. 배경에 얇은 회색 보조선이 이미 있는데, 그 위에 회색 선으로 표현하다 보니 격차의 정도가 잘 보이지 않는 점이 아쉬웠습니다.
오른쪽 사례도 살펴볼까요? 이 라인 차트는 2023년과 평년의 사과 가격 데이터를 월별로 표현했습니다. 차트의 가장 왼쪽과 오른쪽 영역을 자세히 보면 회색 도형이 있음을 알 수 있는데요! 2023년과 평년의 데이터 차이를 강조하기 위해 양 끝에 도형을 추가한 것으로 보입니다. 이 역시 배경의 회색 보조선과 동일한 색으로 표현되어 있어서 쉽게 알아차리기 쉽지 않습니다. 두 사례에서 활용된 회색을 다른 색으로 바꾼다면, 차트는 어떻게 달라질 수 있을까요?
각 사례를 개선해 보았습니다. 왼쪽 사례에서 성별 격차를 표현했던 회색 선은 검은색 선으로 바꿔보았어요! 앞서 보았던 차트보다 훨씬 직관적으로 성별 데이터의 차이를 알 수 있습니다. 또 오른쪽 차트의 양 끝에 있던 회색 동그라미는 빨간색 동그라미로 선 색을 바꾸고, 그 안은 같은 색으로 채우되 투명도를 줄여서 표현해 봤어요. 2023년 2월 20일에 비해 2024년 2월 19일 데이터 간의 격차가 확 증가했다는 것을 바로 알 수 있습니다.
1.3 독자의 인지 경향을 고려하지 못한 사례
우리가 시각 자료를 볼 때 나도 모르게 작동되는 인지 경향이 있다는 것을 아시나요? 인지 경향은 사람들이 눈으로 본 정보를 뇌로 처리할 때 특정 방향으로 생각하거나 해석하려는 자연스러운 패턴이나 습성을 의미하는데요. 시각화 차트를 만들 때도 독자의 인지 경향을 고려해 만들어야 효과적으로 데이터 인사이트를 전달할 수 있습니다.
위 사례는 Tanya Lomskaya가 국가별 요리에 가장 많이 사용되는 식재료 100가지를 시각화한 대시보드입니다. 대시보드 왼쪽 영역에는 클릭 가능한 국가명이 나열되어 있고, 하단에는 차트에 활용된 색이 무엇인지를 알려주는 컬러 범례가 있습니다. 우리는 컬러 범례를 위에서 아래로, 순차적으로 보며 정보를 인지하는데요! 예로 녹색은 야채나 버섯 및 과일, 주황색은 곡물, 씨앗, 콩 및 견과류를 의미함을 파악합니다. 이후 본격적인 데이터 탐색을 위해 국가명을 클릭하면, 대시보드 오른쪽 영역의 방사형 레인골드-틸포트 트리(Radial Reingold–Tilford Tree) 시각화의 데이터가 변경되면서 시각적 패턴이 달라지는 것을 볼 수 있는데요. 혹시 어떤 점이 우리를 헷갈리게 하는지 눈치채셨나요?
앞서 설명한 대로 컬러 범례에 표현된 항목 순서에 따라 정보를 익힌 우리는 자연스럽게 차트에서도 녹색 다음에는 주황색이 순서대로 나오리라 기대하게 됩니다. 또 방사형 형태의 시각화이니, 자연스레 12시 방향을 시작점으로 해서 시계 방향으로 정보가 나열될 것이라고도 예상합니다. 그러나 이런 우리의 인지적 기대와 달리 국가를 클릭할 때마다 원의 테두리에 나열된 노드의 시작점과 컬러 순서가 달라집니다. 중국을 클릭하면 7시 방향부터 컬러 범례의 순서와 동일하게 노드가 나열되지만, 멕시코를 클릭하면 4시 방향부터 컬러 범례의 순서와 다른 순서대로 노드가 나열됩니다.
서로 다른 시작점과 다른 순서의 컬러 노드 나열로 우리는 혼란스러움을 겪게 되는데요. 그때그때 달라지는 차트의 시각적 패턴을 해석하기 위해 우리는 차트에서 컬러 범례로, 컬러 범례에서 차트로 시선을 좌우로 옮기며 차트와 컬러 정보를 맞춰봐야 합니다. 만약 우리가 녹색 노드를 의미하는 야채나 버섯 및 과일이 중국과 멕시코 중 어느 나라에서 더 많이 사용되는지 비교하고 싶다면 어떨까요? 각 원에서 녹색 노드의 시작점이 달라, 원의 테두리 길이나 영역의 면적을 기준으로 파악할 수 없고, 일일이 노드의 개수를 세어봐야 할 것입니다.
이처럼 시각 자료에서 주어진 맥락 정보가 이후에 정보를 인지, 해석, 기억하는 과정에 영향을 미치는 현상을 문맥 효과(Context Effect)라고 하는데요. 시각화 제작자는 데이터의 직관적인 이해를 위해 아름다운 시각화를 만들었으나, 미처 고려하지 못한 사람들의 인지 경향 때문에 시각화 제작의 궁극적인 목적을 달성하지 못하게 되었습니다. 데이터를 탐색하고 인사이트를 도출하는데 번거로움이 늘어 직관성이 떨어졌기 때문이죠!
다음으로 알아볼 사례는 우리의 또 다른 인지 경향인 시각 인지 흐름과 관련되어 있습니다. 우리는 시각 자료를 볼 때, 주로 왼쪽에서 오른쪽으로 시선을 옮겨가며 정보를 인지하는 흐름을 갖고 있는데요. (문화나 언어에 따라 반대인 경우도 있어요.) 이는 시각화 차트를 볼 때도 동일하게 적용됩니다. 따라서 우리에게 자연스러운 시각적 흐름에 맞춰서 시각화 차트의 요소를 배치해야 효과적으로 정보를 전달할 수 있는데요! 아쉽게도 Alexandra Mayette가 만든 생키다이어그램은 이를 고려하지 못해 독자가 데이터를 파악하는데 한참의 시간을 들이게 했어요. 아래 생키다이어그램을 자세히 살펴볼까요?
생키 다이어그램의 가장 왼쪽 막대는 고래의 종류(수염고래, 이빨고래)를 나타냅니다. 중앙의 막대는 캐나다가 접하고 있는 세 개의 대양(북극해, 대서양, 태평양)을 의미하고요. 오른쪽의 막대는 고래가 처한 위험 정도에 대한 4가지 분류(위험 없음, 특별 관심, 위협, 멸종위기)를 보여줍니다. 앞서 언급했던 대로 우리는 시각 인지 흐름에 따라 자연히 왼쪽 막대부터 오른쪽 막대로 시선을 이동하면서 정보를 탐색하게 되는데요. 막대별 조각의 크기로 각 항목의 비중이 어떻게 다른지는 알 수 있지만, 왼쪽 막대에서 중앙의 막대로, 중앙의 막대에서 오른쪽 막대로 이어지는 곡선을 통해서는 뚜렷한 인사이트를 파악하기 어렵습니다.
왜일까요? 그 이유는 이 생키 다이어그램의 시작점은 가장 오른쪽 막대이기 때문입니다. 각 막대 사이의 데이터 흐름을 표현한 곡선 색도 가장 오른쪽 막대 정보를 기준으로 하고 있어요. 오른쪽 막대부터 왼쪽으로 차트를 읽어보면 자연스럽게 인사이트를 도출할 수 있는데요. 예로 멸종위기 고래를 의미하는 빨간색 선을 따라 오른쪽에서 왼쪽으로 차트를 읽어보겠습니다. 멸종위기 고래들은 태평양에 가장 많이 서식하고 있고, 그중에서도 수염고래가 많다는 사실을 쉽게 알 수 있습니다. 차트를 읽는 막대의 순서만 바꿨을 뿐인데, 보다 직관적으로 데이터 인사이트를 발견할 수 있습니다.
2. 너무 욕심을 낸 건 아닐까? 많은 정보를 한 차트에 넣어서 아쉬웠던 사례
한편, 독자를 너무 생각하다가 오히려 또 다른 혼란스러움을 야기한 사례도 있습니다. 이들의 공통점은 차트 안에 너무 많은 정보를 넣었다는 것인데요. ‘이 시각 자료를 넣으면 더 직관적이지 않을까?’, ‘이 인사이트도 함께 전달하면 좋을 것 같은데?’라는 생각의 표현 방식이 잘못된 사례를 통해 차트를 만들 때 유의해야 할 또 다른 점들을 알아보겠습니다.
2.1 일러스트나 이미지를 잘못 활용한 사례
때때로 일러스트나 이미지가 함께 사용된 시각화 차트를 볼 수 있는데요. 주로 차트에서 표현한 데이터의 주제를 강조하기 위해 사용됩니다. 하지만 데이터를 직관적으로 전달해야 하는 차트 본연의 목적을 흐리게 하는 일러스트나 이미지의 사용은 자제해야 합니다.
첫 번째 사례는 시대별 공룡의 길이를 표현한 시각화 차트입니다. 세로축은 시대를 의미하는데, 아래에서 위로 갈수록 현재로부터 더 오래된 시점을 뜻합니다. 가로축은 공룡의 길이를 의미합니다. 차트 영역 내 막대는 개별 공룡을 나타내고, 막대의 세로 길이로 공룡이 얼마나 오랫동안 서식했는지 알 수 있습니다. 시각화 차트의 형태가 일반적이지는 않기 때문에, 차트의 구조를 이해하는 데도 짧지 않은 시간이 걸리는데요! 이 와중에 차트 안에 흰색 선으로 그려진 공룡 모양 그림 보이시나요? 특히 청록색 막대가 밀집하여 분포하고 있는 차트 아래쪽을 보면, 공룡 모양 그림뿐만 아니라 텍스트 레이블까지 표기되어 있어 차트를 해석하는 데 방해가 됩니다. 막대가 의미하는 공룡의 형태를 함께 보여주고 싶은 제작자의 마음은 이해되지만, 차트에 그림을 덧붙임으로써 오히려 차트의 가독성이 떨어져 아쉽게 느껴졌습니다.
두 번째 사례의 위 도넛 차트는 조각마다 붙어있는 동물 사진으로 차트에 활용된 데이터가 무엇인지 자세히 살펴보지 않아도, 동물을 주제로 한 시각화라는 것을 바로 알 수 있는데요! 무엇이 문제일까요? 이 도넛 차트는 미국에서 애완동물을 기르는 가구 수를 동물 종류에 따라 비중으로 계산해 표현한 것인데요. 각 조각이 의미하는 동물 사진을 의도적으로 배치하려고 하다 보니, 원형의 도넛 차트에서 조각을 나열할 때 12시를 시작점으로 데이터가 큰 조각부터 크기에 따라 순서대로 배치해야 한다는 점에서 어긋나게 되었습니다. 강아지, 고양이 조각까지는 해당 규칙에 따랐지만, 그다음 조각들은 동물 사진을 함께 배치하는 디자인을 우선해 데이터의 크기와 상관없이 배치되었습니다. 2백만 가구를 의미하는 말, 바닷물고기의 조각보다 6백만 가구를 의미하는 새의 조각이 나중에 배치되어 있죠! 더군다나 원형의 차트에서 사람들은 조각의 크기나 중심점의 각도를 기준으로 데이터의 크기를 비교하는데, 가운데 원은 뚫려있어 각도를 가늠할 수 없고, 동물 사진이 조각을 가려서 영역의 크기를 비교하기도 어려워졌습니다.
마지막으로 살펴볼 사례는 앞서 살펴본 2가지 사례와 조금 다릅니다. 앞의 사례가 차트에 일러스트나 이미지를 덧붙인 경우였다면, 이번에는 차트 도형 요소 자체에 이미지를 활용한 사례를 이야기하고자 합니다. 위 랭킹 차트는 1990년부터 2022년까지 전 세계 국가 중 천연가스 Top 10 생산국 데이터를 표현했는데요! 연도별 순위를 의미하는 행마다 동그란 원 형태의 국기 이미지로 국가를 표현했습니다. 랭킹 차트에서 우리는 왼쪽부터 오른쪽으로 시선을 옮겨가면서 국가별 순위 변화를 확인할 수 있는데요. 아쉽게도 국가별로 국기에 사용된 색이 비슷해서 개별 국기 모양의 차이에 집중하지 않으면 순위 변화를 파악하기 어렵습니다. 그 예로 차트 중앙의 불투명한 흰색 타원을 볼까요? 4개의 원 모두 3개의 색으로 국기가 표현되어 있어서 얼핏 보면 한 국가의 순위가 4위에서 1위로 변한 것 같지만, 자세히 보면 아래 2개의 원은 네덜란드이고, 위의 2개 원은 러시아입니다. 랭킹 차트의 데이터가 국가를 의미한다는 점을 직관적으로 표현하기 위해 국기를 사용했지만, 오히려 차트에서 국가별 데이터의 변화를 인지하기 어렵습니다.
만약, 국기가 아닌 색으로 국가를 구분해 표현했다면 어땠을까요? 위 이미지는 앞선 사례의 국기 이미지 대신 국가별로 구별되는 색으로 원을 그리고, 그 안에 ISO 2자리 국가 코드를 텍스트로 표기한 랭킹 차트입니다. 각 컬러가 어느 국가를 의미하는지 알 수 있도록 왼쪽 하단에 컬러 범례도 함께 표시했습니다. 어떤가요? 국기 이미지를 활용했을 때보다 ‘국가 데이터’라는 점을 인지하기까지의 시각적 임팩트는 조금 줄어들었다고 볼 수 있지만, 복잡한 국기 모양보다 단순한 색과 텍스트 표기로 국가별 데이터 변화를 더욱 직관적으로 파악할 수 있다는 사실을 알 수 있습니다.
2.2 하나의 차트에 너무 많은 인사이트를 표현하려 한 사례
데이터를 분석하며 인사이트를 도출하다 보면, 의미 있다고 판단되는 여러 인사이트를 발견하게 됩니다. 깊이 있는 데이터 분석을 하면 할수록, 사람들에게 전달하고 싶은 이야기가 많아지기 마련이죠. 그런 마음에 하게 되는 실수가 바로 하나의 차트에 너무 많은 인사이트를 표현하고자 하는 것입니다. 개별 차트는 그 형태에 따라 가장 적합한 목적과 쓰임새가 있기 때문에, 그 이상을 담았을 때 본래의 장점을 잃게 됩니다.
위 생키 다이어그램은 테일러 스위프트의 오랜 팬인 Emily De Padua가 그녀의 앨범 10장에 수록된 곡을 ‘사랑’이라는 주제로 분석한 결과를 표현한 것입니다. 가장 왼쪽부터 곡을 분류한 기준을 하나씩 알 수 있는데요! 첫 번째와 두 번째 막대는 개별 곡이 ‘사랑에 관한 노래인지’, ‘노래 가사 중 ‘사랑(love)’이란 단어가 직접적으로 언급되는지’ 여부에 따라 막대의 길이를 다르게 표현했습니다. 다음 기준은 개별 노래를 앨범 발매 순에 따라서 위에서 아래로, 순차적으로 나열한 것입니다. 마지막으로 가장 오른쪽 막대는 곡의 유형을 ‘사랑’, ‘이별’, ‘기타’로 구분해 표현했습니다.
가장 왼쪽 막대부터 오른쪽으로 시선을 옮기며 차트를 읽어볼까요? 테일러 스위프트의 205곡 중 사랑에 관한 노래는 전체 중 87%로 179곡이 해당합니다. 이들 중 118곡은 ‘사랑’이란 단어를 직접 언급하고, 나머지 67곡은 그렇지 않다는 것을 알 수 있습니다. 그다음 기준인 앨범 발매 순서에 따른 곡의 나열 막대에서는 무엇을 알 수 있을까요? ‘사랑’이란 단어를 언급하거나 언급하지 않은 곡이 앨범 발매 순서에 크게 영향을 받지 않고 고루 분포한다는 것 이외에 특별한 인사이트를 찾기 어렵습니다. 마지막 막대에서는 곡 유형이 ‘사랑’, ‘이별’, ‘기타’ 순으로 많다는 것을 알 수 있습니다. 막상 차트를 읽어보니, 차트 중간에 있는 ‘앨범 발매 순서에 따른 곡 나열 기준’이 꼭 필요했을까?’라는 생각이 들었습니다. 오히려 이 기준이 중간에 있어서 왼쪽의 2개의 막대로 알 수 있는 인사이트와 가장 오른쪽 막대로 알 수 있는 인사이트의 연결성이 끊긴 것처럼 느껴졌어요!
만약, 이 생키 다이어그램에 ‘앨범 발매 순서에 따른 곡 나열 기준’이 없었다면 어땠을까요? 그렇다면 왼쪽에서 두 번째 막대 기준인 사랑이란 단어 언급 여부에 따른 곡들의 유형이 어떻게 다른지 오른쪽 막대로 파악할 수 있습니다. 구체적인 인사이트를 상상해 보자면, ‘‘사랑’이란 단어가 언급된 118곡은 실제로 사랑 유형보다 이별 유형에 속하는 것들이 많았다.’와 같은 재미있는 인사이트를 얻을 수 있을 것 같아요! 어떤가요? 차트에서 정보를 뺐더니 오히려 인사이트가 더 쉽고 명확해졌습니다.
한 가지 사례를 더 알아볼까요? 위 사례는 일본 내 편의점 분포 데이터를 인터랙티브 지도 시각화로 만든 것입니다. 지도에 활용된 색은 편의점 브랜드를 의미하는데요! 빨간색은 세븐일레븐, 초록색은 패밀리마트 등을 나타냅니다. 이 지도 시각화로 알 수 있는 정보는 2가지인데요! 먼저 지역마다 칠해진 배경 색을 기준으로 지역에 가장 많이 분포한 편의점 브랜드를 알 수 있습니다. 또 지도 위의 도넛 차트로 편의점 수와 브랜드별 비중을 알 수 있습니다. 이를 종합하면 어떤 인사이트를 알 수 있을까요? 지역마다 표현된 도넛 차트에서 조각의 크기가 가장 큰 브랜드가 결국 해당 지역의 배경 색으로 표현되기 때문에, 새로운 인사이트를 발견할 수 있다기보다는 동일한 인사이트가 반복되는 느낌이 들었습니다.
또 개별 도넛 차트가 의미하는 지역이 고정된 것도 아니었는데요. 지도의 확대, 축소에 따라 도넛 차트의 수가 달라지고, 개별 도넛 차트가 표현하는 지역 범위가 매번 달라졌습니다. 그런데도 불구하고 도넛 차트별 지역 정보를 알 수 있는 방법이 없어서, 인사이트를 발견하는 데 활용하기 어려웠습니다.
그렇다면, 이 사례는 어떻게 개선할 수 있을까요? 가장 먼저 지도 시각화 위에 함께 표현된 도넛 차트를 제외할 수 있습니다. 앞서 언급한 대로 도넛 차트는 지도 시각화와 동일한 맥락의 세부 정보를 제공하는 요소이므로, 최초 화면에서 제외하고 지도 자체만으로도 데이터 인사이트를 파악할 수 있도록 하는 것이죠! (위 사례에서도 이 점을 고려한 것인지, 우측 상단 레이어 아이콘을 클릭하면 도넛 차트를 숨길 수 있는 기능을 제공합니다.)
막상 도넛 차트를 화면에서 제외하면 직관성을 얻기는 했지만, 세부 정보를 보여줄 수 없다는 아쉬움이 동시에 들기도 할 텐데요! 이럴 때는 인터랙티브 시각화의 특징을 살려 세부 정보를 팝업 등으로 제공해 아쉬움을 달랠 수 있습니다. 예를 들어 특정 지역을 클릭했을 때, 해당 지역의 데이터를 요약한 화면을 별도의 팝업으로 노출하는 것입니다. 이는 인터랙티브 시각화 대시보드에서 종종 사용하는 방식인데요! 처음부터 세부 정보를 모두 다 제공하지는 않기 때문에, 시각화 자체의 직관성은 가져가면서도 인터랙션을 통해 세부 정보를 탐색할 수 있도록 해 독자가 깊이 있는 인사이트를 발견하도록 합니다.
3. 더 괜찮아질 수 있으려나? 더 나아질 기회를 놓쳐서 아쉬웠던 사례
모든 일이 그렇듯 시각화 차트 만들기도, 고민과 경험을 더할수록 ‘더 나은 시각화’를 만들 수 있는 확률이 높아집니다. 하지만 앞서 살펴보았듯이 챙길 수 있는 사소한 디테일은 무엇인지, 차트에 정보를 효과적으로 더하는 방법은 무엇인지, 하나의 차트로 표현할 수 있는 정보의 적정 수준은 무엇인지 등 시각화에 대한 이해와 경험이 있어야 기회도 보이기 마련입니다. 이런 기회를 잡으려는 시도는 무엇보다도 더 나아지기 위한 개선의 목적에 있으니, 목적에 부합하는 적절한 방향성을 따라야 할 텐데요! 다음의 사례들을 통해 더 나은 시각화를 만들기 위한 개선 방향은 무엇이 있는지 알아보도록 하겠습니다.
3.1 목적에 적합한 시각화 유형을 활용했다면 더 좋았을 사례
각기 다른 형태의 시각화 차트들은 저마다 고유한 장점을 갖고 있습니다. 그 예로 라인 차트는 시간 흐름에 따른 데이터의 변화를 시각화하는 데 효과적이고, 파이 차트는 전체 중 개별 항목이 차지하는 비중을 직관적으로 표현합니다. 이처럼 개별 차트에 대한 장점을 알고 있다면, 사람들에게 전달하려는 데이터 인사이트를 가장 효과적으로 표현할 수 있는 시각화 유형을 선택할 수 있습니다.
위 사례는 AI 기반 이미지 생성 모델인 Stable Diffusion이 인종과 성별에 대한 편향성을 갖고 있음을 이야기하는 Bloomberg 기사의 시각 자료입니다. Stable Diffusion이 생성한 직업별 사람 이미지 60장을 사진으로 확인할 수 있습니다. 고소득 직종은 밝은 톤의 남성이 주를 이루고, 저소득 직종은 어두운 피부 톤의 사람들이 많이 등장한다는 의미를 전하는 시각 자료 상단에는 피부 톤과 성별을 의미하는 막대가 있습니다. 길이가 같은 컬러 막대는 얼핏 보면 컬러 범례처럼 보이기도 하는데요! 실제로는 컬러 범례를 의미하는 것은 아니고, 나열된 사진의 피부색 및 성별 비중 정보를 제공하는 요소입니다. 개별 막대 하단에 비중을 의미하는 수치가 표기되어 있어, 이를 금방 파악할 수 있습니다.
그런데 왜 이 콘텐츠 제작자는 비중 데이터를 제공하면서도 막대의 길이를 동일하게 표현했을까요? 이 방식은 Stable Diffusion이 생산한 이미지에 직업별로 다수를 이루는 피부색과 성별이 있다는 인사이트를 강조하는 데 효과적이라고 볼 수 있을까요? 비중 데이터를 효과적으로 표현하는 시각화 유형을 활용했다면 어땠을까요? 위 이미지는 동일한 길이의 가로 막대 대신 100% 누적 가로 막대 차트로 표현한 예시인데요. 60장의 사진을 일일이 보며 요약된 정보를 찾으려 하지 않아도 차트만으로도 가장 큰 비중을 차지하는 피부색과 성별이 무엇인지 바로 알 수 있습니다. 이 경우 60장의 사진은 구체적 예를 보여주는 용도로, 시각화 차트는 데이터를 요약하는 용도로, 시각 자료를 구성하는 개별 요소의 목적이 구분되면서도 분명해져 시각 자료 전체의 활용 의미가 높아집니다.
3.2 시각화에 필요한 차별성과 일관성을 적용했다면 더 좋았을 사례
보통 우리가 시각화 차트를 활용할 때는 차트 1개를 만들어 단독으로 쓰기보다는 하나의 문서, 대시보드 등의 콘텐츠 안에 여러 개의 차트를 구성하는 경우가 훨씬 더 많습니다. 따라서 우리는 차트 1개를 잘 만드는 것뿐만 아니라, 여러 개의 차트를 함께 활용할 때도 문제가 없는지 신경 써야 합니다. 또 콘텐츠에는 차트뿐만 아니라 글이나 사진 등도 함께 활용되니 이들을 함께 활용함에 있어서도 문제가 없는지 검토해야 합니다. 이를 위해 우리는 무엇을 이해하고, 고려해야 할까요?
앞서 본론의 첫 번째 파트에서 독자의 인지 경향을 고려해 차트를 만들어야 한다고 언급했는데요. 이는 하나의 콘텐츠에서 다수의 차트를 만들어 활용할 때도 동일하게 적용됩니다. 독자는 먼저 주어진 차트의 맥락 정보를 바탕으로 이후 차트의 정보를 해석합니다. 따라서 독자가 차트를 해석할 때 혼란이 없도록 때로 차별성 있게, 때로 일관성 있게 시각화 차트를 만들어야 합니다. 사례로 이해를 더해볼까요?
위 이미지는 파리의 열섬 현상(건물 재료, 도시 밀집도, 좁은 거리 등이 열을 가두어 도심 지역의 온도가 주변 농촌 지역보다 더 높아지는 현상)을 주제로 한 기사에 포함된 지도시각화입니다. 파리 지역의 건물별 지붕 자재를 색으로 구분하여 표현하였습니다. 지도 시각화 상단의 컬러 범례는 색별 자재 정보를 제공합니다. 보라색은 아연, 분홍색은 광물(콘크리트 등), 노란색은 타일, 녹색은 초목을 의미합니다. 이 정보를 바탕으로 지도를 보면, 대다수 지역의 건물 지붕 자재가 아연이라는 사실을 알 수 있습니다. 기사는 이 지도 시각화로 파리 건물 지붕의 약 80%가 아연으로 만들어져있어 열섬 현상이 발생하기 쉽다는 내용을 언급하는데요. 뒤이어 같은 스타일의 지도 시각화를 제공하며 기사의 내용을 이어 갑니다. 함께 보겠습니다.
얼핏 보면 앞서 보았던 지도 시각화와 동일한 정보를 제공하는 것으로 보입니다. 보라색은 아연이고, 분홍색은 콘크리트, 노란색은 타일인 것 같죠. 혹시 뭔가 다른 점을 알아채셨나요? 가장 먼저 알아차릴 수 있는 점은 앞의 지도 시각화에서는 초록색이 같이 사용되었는데, 이 지도 시각화에는 없다는 점입니다. 시각화 상단의 컬러 범례를 보면 무엇이 달라졌는지 정확히 알 수 있는데요. 위 지도 시각화에서 색은 지붕 자재가 아닌 열섬현상의 위험 수준을 표현합니다.
콘텐츠 제작자는 왜 이렇게 차트를 만들었을까요? 제작자의 입장에서 의도를 유추해 보았는데요. 기사에 직접적으로 언급되지는 않았지만, 만약 아연, 콘크리트, 타일 순으로 열섬 현상을 야기하는 정도가 달라진다면 ‘아연’을 표현하는 데 활용한 보라색을 ‘가장 높은 수준의 열섬 현상 위험 정도’를 표현하는 것으로 맞춰서 사용하고자 한 것 같습니다. 의도를 유추해 보았을 때 그 시도가 아예 이해되지 않는 것은 아니지만, 결과적으로는 시각화 차트의 데이터를 파악하고 이해하는데 혼란을 주었다는 점에서 아쉽게 여겨졌습니다.
바로 이럴 때 필요한 것이 개별 차트 간의 차별성과 일관성입니다. 서로 다른 데이터를 표현한다면 하나의 문서에 활용되는 여러 차트이더라도 시각적으로 분명하게 구분해 표현해야 합니다. 반대로 같은 데이터를 활용한다면 일관성 있게 색을 활용하여 개별 차트마다 데이터 해석을 위해 컬러 범례를 확인해야 하는 번거로움을 줄여 시각화의 직관성을 높여야 합니다.
이와 관련된 가장 흔한 실수가 위 사례처럼 데이터가 다름에도 불구하고 같은 색을 여러 차트에 활용하는 것인데요. 콘텐츠 전체를 보았을 때 여러 차트에 비슷한 색이 활용되어 예뻐 보일 수 있지만, 결과적으로 데이터를 해석하는데 혼란을 야기하므로 주의해야 합니다. 만약 열섬 현상 위험 수준 데이터를 위험 정도를 표현할 때 일반적으로 사용하는 빨강(위험), 노랑(주의), 초록(이상 없음)으로 표현했다면 어땠을까요? 독자는 어렵지 않게 ‘다른 데이터가 제공되는구나!’, ‘빨강, 노랑, 초록색을 보니 뭔가 단계를 의미하는 데, 빨간색이 부정적인 의미일까?’라는 자연스러운 생각과 함께 보다 쉽고 빠르게 데이터의 의미를 찾아나갈 수 있었을 것입니다.
한편, 차별성과 일관성에 대한 고려는 차트와 차트 간의 관계뿐만 아니라 차트와 글을 함께 사용할 때도 필요한데요. 2024년 5월 16일 마부뉴스 뉴스레터의 일부분을 사례로 알아보겠습니다. 위 이미지의 2024년 사과 가격 폭등을 주제로 한 글을 읽어보면, 가격이 올랐다는 의미의 문구마다 청록색으로 강조되어 있음을 볼 수 있습니다. 은연중에 청록색의 의미가 데이터 증가 혹은 양수를 의미하는 것 같다고도 느꼈는데요. 이어서 등장하는 차트에는 전년동월대비 물가상승률이 마이너스일 때 청록색, 플러스일 때 빨간색으로 표현되었습니다. 물가상승률이 증가하는 것은 소비자 입장에서 부정적인 의미이니, 그 수치가 플러스일 때 빨간색으로 표현한 것으로 해석할 수 있습니다.
혹시 무언가 아쉬운 부분을 발견하셨나요? 저는 글의 강조 색과 차트에 활용된 색의 부족한 연결성이 아쉬웠습니다. 데이터 증가의 의미를 글에서는 청록색으로, 차트에서는 빨간색으로 강조해, 시각적으로 어긋나 보였어요. 사실 마부뉴스 뉴스레터를 꾸준히 읽어오던 저로서는 제작자가 콘텐츠마다 글에 표시한 강조 색이 차트와 직접적으로 연관되어 있지 않다는 것을 알고 있었는데요. 아마 제작자는 디자인의 관점에서 콘텐츠 톤앤매너의 일관성을 가져가기 위한 용도로 글의 강조 색과 차트의 색을 비슷한 계열로 사용했을 것 같아요. 시각화 관점에서 깊이 있게 생각해 보지 않는다면 발견하기 어려운 문제인데요. 이 사례는 어떻게 개선할 수 있을까요?
먼저 데이터의 의미에 적합한 색이 차트에 활용되었는지 검토할 수 있습니다. 물가상승률의 상승은 소비자에게 부정적인 의미이므로 빨간색으로 표현하고, 반대의 경우에는 보편적으로 긍정의 의미를 갖는 초록색으로 표현하는 것이 좋습니다. 따라서 위 차트에 사용된 색을 바꿀 필요는 없습니다. 대신 물가상승률 증가를 의미하는 문구의 강조 색은 차트와 동일한 빨간색 계열로 바꾸어 색의 의미를 일관되게 표현할 필요가 있습니다.
검토한 내용을 바탕으로 개선한 이미지를 함께 볼까요? 먼저 위에서부터 순차적으로 글을 읽으며, 물가상승률 증가의 의미 문구마다 빨간색이 활용되었다는 것을 인지할 수 있습니다. 이어서 차트를 보면 자연히 빨간색 도형과 102.9% 숫자 쪽으로 시선이 향한다는 것을 알 수 있는데요. 글에서 강조하는 의미의 내용과 차트에서 강조하는 내용이 같은 색으로 표현되어 콘텐츠의 핵심 메시지가 더 뚜렷하게 보이는 것을 확인할 수 있습니다.
3.3 적절한 인터랙션 기능을 함께 활용했다면 더 좋았을 사례
시각화 차트를 만들기 위해 BI를 활용한 경험이 있다면, 인터랙티브 시각화 차트에 대해 알고 계실 텐데요. 2D 이미지 형태의 차트에서 나아가 사용자가 인터랙션할 수 있는 기능이 제공되어 하나의 차트만으로도 다양한 데이터 인사이트를 도출할 수 있다는 장점이 있습니다. 차트의 데이터 범위를 조정하는 데이터 필터, 차트의 도형에 마우스 오버했을 때 노출되는 툴팁이나 하이라이팅 효과 등을 인터랙션 제공 기능으로 설명할 수 있는데요. 어떤 기능을 설계하느냐에 따라서 차트로 전달하고자 하는 데이터 인사이트를 달리할 수 있습니다.
사례로 위에서 개선해 보았던 Arshi Saleh의 랭킹 차트에 하이라이팅 효과를 적용해 보면서 그 의미를 알아보겠습니다. 차트에서 하이라이팅 효과는 사용자가 차트 영역 내 특정 요소에 마우스 오버 혹은 클릭했을 때 해당 요소만 시각적으로 강조되어 보이도록 하는 것인데요. 어떻게 적용해 볼 수 있을까요?
가장 먼저 국가별 원 모양의 도형 위치나, 컬러 범례의 특정 국가 위치에서 마우스 오버했을 때 해당하는 국가의 요소를 강조되어 보이도록 하이라이팅 효과를 적용할 수 있습니다. 이때 하이라이팅 대상이 되는 국가의 도형을 그 외의 도형보다 크게 표현하거나, 선을 굵게 표현하는 등의 방식으로 표현할 수 있는데요. 하이라이팅 대상이 아닌 국가의 요소는 상대적으로 흐릿하게 표현하거나 보이지 않도록 해 시각적 강조 효과를 극대화할 수 있습니다. 이 경우 인터랙티브 시각화 차트에서 독자는 국가별로 시간 흐름에 따라 달라지는 데이터의 변화를 직관적으로 파악할 수 있습니다.
만약, 시기별로 1위 국가가 어떻게 달라졌는지의 데이터 인사이트를 강조해서 전달하고 싶다면, 어떤 하이라이팅 효과를 적용할 수 있을까요? 위 이미지의 예는 차트 가장 오른쪽의 숫자, 순위를 의미하는 숫자 위에 마우스 오버하거나 클릭했을 때, 해당 순위의 국가 도형이 강조되도록 한 것입니다. 1900년부터 2022년까지 1위 국가가 어떻게 달라졌는지 쉽게 파악할 수 있습니다.
마지막으로 연도를 의미하는 숫자 위에 마우스 오버하거나 클릭했을 때 해당 연도의 국가 도형이 모두 강조되도록 해보았습니다. 이제 이 효과는 언제 사용하는 것이 좋을지 예상 되시나요? 이는 독자가 특정 연도를 기준으로 국가 순위를 파악하는 데 효과적입니다. 예를 들어 ‘1990년의 5위 국가는 어느 국가일까?’라는 궁금증을 가진 독자에게는 다른 효과보다 위의 효과가 데이터 탐색을 하는 데 가장 효율적입니다.
앞서 소개한 Arshi Saleh의 랭킹 차트에는 어떤 하이라이팅 효과도 적용되어 있지 않았기 때문에, 차트를 보았을 때 ‘제작자는 어떤 데이터 인사이트를 전달하고 싶은 걸까?’라는 궁금증을 갖고 살펴볼 수밖에 없었는데요! 위에서 설명한 것과 같이 제작자가 전달하고자 하는 데이터 인사이트이자 독자가 파악하길 바라는 인사이트가 무엇인지에 대한 구체적인 정의와 목적에 적합한 시각화 차트를 만듦에 있어서 적절한 인터랙션 기능을 활용한다면 보다 직관적인 시각화를 만들 수 있습니다.
에디터의 한마디
지금까지 긴 글을 통해 올해 저희가 찾았던 시각화 사례 중 이런저런 이유로 아쉬웠던 사례들을 소개했습니다. 사소한 디테일을 놓쳐서 아쉬웠던 사례, 너무 많은 정보를 넣어서 아쉬워진 사례, 더 나은 시각화가 될 기회를 놓쳐서 아쉬운 사례들을 소개하면서 동시에 시각화를 잘 만들기 위해 알아두면 좋을 노하우를 하나씩 풀어냈습니다. 저마다의 아쉬운 점과 개선 방법을 노하우로 이야기했지만, 요약하자면 차트를 보는 ‘사람’에 대한 이해와 배려, ‘적합한 시각화’의 활용이 필요하다고 정리할 수 있습니다.
2025년 새해에도 뉴스젤리 기획팀은 꾸준히 국내외 다양한 시각화 사례를 찾고 리뷰할 예정입니다. 앞서 언급한 대로 저희 역시 ‘사람’에 대한 이해와 배려가 있는지, ‘적합한 시각화’로서 최선의 모습을 갖추고 있는지를 기준으로 삼아 사례를 리뷰할 것입니다. 그 결과로 시각화 자체의 완성도와 흥미로움을 갖추면서도 의미 있는 인사이트를 전달하는 사례들은 지금껏 그래왔던 것처럼 꾸준히 전하겠습니다. 올 한 해도 저희와 함께 다양한 시각화 사례들을 접하다 보면, 자연스레 ‘더 나은 시각화를 만들 기회’를 발견하고 시도할 수 있다고 생각합니다.
한편, 여기까지 글을 읽어주신 분 중에는 어쩌면 ‘괜찮은 시각화 만들기, 참 쉽지 않다!’라는 생각이 드신 분도 있을 것 같습니다. 하지만 차트의 작은 변화로 인해 그 효과가 달라진다는 것을 충분히 이해했기 때문에 들 수 있는 생각으로 보는 게 좋을 것 같습니다. 때문에 이 글이 ‘완벽한’ 시각화 제작을 목표로 했을 때의 어려움보다는 ‘최소한’ 데이터 해석에 오류가 없는, 데이터와 목적에 적합한 시각화 제작을 위한 방법들의 모음으로서 도움이 되길 바랍니다. 때로, 혼자서 답을 찾기 어려울 때는 언제라도 저희를 찾아 주세요! 그간 쌓아온 시각화 전문 기업의 경험과 노하우로, 최적의 시각화 방안을 제안해 드리겠습니다. 🙂
Editor. 기획팀 강젤리