익숙하지 않은 데이터 시각화 유형, 생키 다이어그램
데이터 시각화 유형은 몇 가지나 될까요? 막대차트, 라인차트, 파이차트는 우리가 자주 접하고 많이 사용하는 데이터 시각화 유형이라 익숙할 것 같은데요! 이외에 이름을 들어도 어떤 의미인지 쉽게 짐작하기 어려운 여러 가지 데이터 시각화 유형이 있습니다.
오늘은 여러 데이터 시각화 유형 중에서도 흐름을 보여주는 데이터 시각화 유형 중 하나인 생키 다이어그램(Sankey Diagram)에 관한 이야기를 해보겠습니다. 생키 다이어그램이 무엇인지부터 이 차트를 활용한 예시까지 함께 살펴보아요!
생키 다이어그램이란 무엇일까?
생키 차트(Sankey Chart)라고도 부르는 생키 다이어그램은 데이터의 흐름을 나타내는 데이터 시각화 유형의 하나입니다. 데이터의 이동이나 흐름을 시각적으로 강조하며 어떤 항목의 기여도가 높은지 파악하는 데 효과적이에요.
생키 다이어그램은 노드(Node)와 링크(Link)를 바탕으로 데이터를 해석하는데요, 노드는 하나의 데이터 항목을 의미하며 링크는 노드와 노드를 연결해 데이터의 이동 경로를 보여주는 요소입니다.
생키 다이어그램의 구성 요소를 나타낸 위의 이미지에서 네모 박스는 노드, 곡선은 링크를 나타냅니다. 링크의 경로와 두께를 가지고 데이터의 의미를 파악할 수 있는데요! 링크가 어떤 노드와 연결되는지로 흐름을 알 수 있고, 링크의 두께로 어떤 데이터의 크기가 큰지를 알 수 있습니다. 여기서는 소스 A(Source A)와 타깃 B(Target B)를 연결하는 베이지 컬러 링크의 두께가 제일 두꺼운 것으로 보아, 해당 데이터가 가장 크다는 사실을 확인할 수 있습니다.
특히, 생키 다이어그램은 복잡한 프로세스를 단순화해서 보여주는 데 효과적입니다. 그래서 에너지의 흐름을 파악하기 위한 에너지 분야나 자금 흐름을 파악하기 위한 경제 분야 등에서 자주 사용되고, 이외에도 데이터의 흐름을 보여주기 위해 널리 사용됩니다.
하지만, 첫 부분에서 이야기했던 것처럼 데이터 시각화에 익숙하지 않은 사용자의 경우 생키 다이어그램을 해석하는 데 어려움을 겪을수도 있습니다. 데이터의 의미를 보다 쉽게 전달하기 위해 설명을 포함하는 것이 효과적일 것 같아요.
데이터의 항목이 여러 개라서 노드가 많아질 때도 주의가 필요한데요, 노드의 간격이 좁아지면 링크가 겹쳐 경로를 구분하기 어려워질 수 있기 때문이에요. 또한, 데이터의 크기가 비슷해서 링크의 두께(너비)가 비슷한 경우에도 어떤 데이터가 더 큰지 확연하게 비교하기 힘들다는 한계도 있습니다.
위의 데이터 시각화는 노드의 간격이 좁아 링크가 겹치고, 링크의 두께도 비슷해서 데이터의 의미를 구분하기 어려운 생키 다이어그램의 한계를 잘 보여주는 사례입니다. 1948년부터 2018년까지 70년(개)의 항목 데이터를 모두 담으려다 보니 노드가 상당히 많고, 링크를 구분하기도 어려워졌네요. 이런 경우에는 데이터의 의미를 잘 나타낼 수 있는 다른 데이터 시각화 유형을 활용하거나, 여러 개의 생키 다이어그램으로 나타내는 것이 효과적입니다.
생키 다이어그램을 어떻게 활용할까?
앞서 생키 다이어그램에 관한 기본적인 내용을 알아봤으니, 직접 생키 다이어그램을 읽어보겠습니다. 생키 다이어그램을 사용한 세 가지 예시를 통해 실제로 어떻게 쓰이는지 자세히 살펴보도록 하겠습니다.
1. 누가 총격 사건의 범인을 멈추었나?(Who Stops a ‘Bad Guy With a Gun’?)
첫 번째 사례는 ‘누가 총격 사건의 범인을 멈추었나?(Who Stops a ‘Bad Guy With a Gun’?)’라는 제목의 뉴욕타임즈(The New York Times) 기사에 활용된 생키 다이어그램입니다.
위쪽 생키 다이어그램을 보면 왼쪽 노드는 2000년부터 2021년까지 미국에서 발생한 433건의 총격 사건 전체를 나타내고, 경찰이 범인의 공격이 끝나기 전(249건)과 끝나고 난 후(184건) 어느 시점에 도착했는지, 그 경찰은 범인을 공격했는지(185건) 아니면 방관했는지(64건) 등 ‘누가 어떻게 행동했느냐’에 따른 흐름을 한 방향으로 보여줍니다. 흐름을 따라가면 가장 오른쪽 노드부터 사건이 어떻게 마무리되었는지를 확인할 수 있어요.
해당 생키 다이어그램에서 범인의 공격이 끝나기 전 경찰이 도착한(249건) 사건의 흐름을 따라가 보면, 이 가운데 경찰이 범인을 공격한 사건은 185건이고, 113건은 범인이 현장을 떠났습니다. 그 자리에서 범인이 스스로 생을 마감한 사건은 72건이고요.
범인의 공격이 끝나기 전 경찰이 도착한(249건)의 사건 중 경찰이 범인을 공격하지 않은 사건은 64건인데, 이 중 42건은 경찰이 범인을 제압했고 나머지 22건은 경찰 이외 현장에 있던 사람들(시민(12건), 경비원(7건), 비근무경찰(3건))이 범인을 공격했습니다.
데이터가 많을수록 링크의 두께가 두꺼워지므로 생키 다이어그램에서 가장 많은 경우를 찾아서 읽어보면 2000년부터 2021년까지 미국에서 발생한 총격사건은 ‘범인의 공격이 끝나기 전 도착한 경찰이(249건), 범인을 공격해서(185건), 범인이 현장을 떠난 경우(113건)가 가장 많다’고 볼 수 있겠어요.
한편, 총격사건이 시작된 후 마무리 되는 과정을 흐름에 따라 파악할 수 있지만 전체 데이터를 같은 컬러로 시각화한 점은 아쉬웠습니다. 다른 컬러를 사용했다면 더욱 직관적으로 구분할 수 있지 않을까요?
2. 드와이트 슈르트의 감시 시스템(Dwight Schrute’s Surveillance System)
두 번째는 미국 드라마 더 오피스(The Office)의 등장인물 간 상호작용을 나타낸 생키 다이어그램입니다. ‘누가 누구에게 말을 거는지’ 대화의 흐름을 데이터로 시각화했다는 점이 흥미로웠어요.
위의 데이터 시각화를 살펴보면 마이클(Michael), 드와이트(Me), 짐(Jim), 팸(Pam), 앤디(Andy), 안젤라(Angela), 케빈(Kevin), Erin(에린), 오스카(Oscar), 라이언(Ryan)까지 총 10명의 이름이 나타나고 인물별로 각기 다른 컬러를 부여해서 데이터를 구분하고 있습니다.
왼쪽과 오른쪽 모두 상단부터 노드의 길이가 긴 순서대로 정렬되어 있음을 알 수 있는데요! 왼쪽 노드는 말을 거는 사람, 오른쪽 노드는 말을 듣는 사람을 나타냅니다. 말을 많이 하고 들은 순서대로 등장인물을 나열했네요. 노드가 가장 긴 마이클이 말을 제일 많이 걸고 또 많이 들은 인물입니다. 노드의 길이가 긴 인물들을 중심으로 드라마가 전개된다고 추측해볼 수 있겠어요.
등장인물들을 연결하는 링크를 살펴보면 마이클 → 드와이트(주황색), 드와이트 → 마이클(하늘색), 짐 → 팸(보라색), 팸 → 짐(노란색) 특히 두껍게 나타나는데요! 서로의 링크가 두껍게 나타나는 것을 보아 많은 상호작용이 이루어짐을 알 수 있습니다.
앞서 본 미국에서 발생한 총격 사건 데이터를 시각화한 생키 다이어그램과 달리 ‘더 오피스’ 등장인물의 대화 흐름을 나타낸 이번 사례는 상호작용이 이루어지기 때문에 링크끼리 가로질러 지나갈 수밖에 없습니다. 아래쪽으로 갈수록 링크의 두께가 얇고 서로 복잡하게 얽혀 있어 다소 혼란스러울 수도 있어요. 안젤라, 케빈, 에린, 오스카, 라이언의 데이터는 주의 깊게 살펴야 어떤 인물과 연결되는지를 확인할 수 있겠네요.
3. 미국의 무역 파트너(America’s Trading Partners)
마지막 세 번째 사례는 2021년 미국의 무역 파트너를 시각화한 생키 다이어그램입니다. 아래쪽 데이터 시각화를 보면 왼쪽은 수입, 오른쪽은 수출을 나타내며 컬러로 남아메리카, 유럽, 환태평양국가 등 지역을 구분하고 있어요.
앞서 살펴본 두 가지 사례와 달리 중간에 박스가 있네요. 이 박스는 미국의 무역수지를 수치로 보여줍니다. 무역수지란 한 나라의 총수입과 총수출의 차이를 말하는데요! 수출액에서 수입액을 뺀 금액으로 이 금액이 플러스면 무역흑자, 마이너스면 무역적자라고 합니다. 2021년 미국은 1조 1,000억 달러의 무역적자를 기록했네요.
이 생키 다이어그램은 무역수지(총수입-총수출)를 나타내는 시각화인 만큼 데이터의 흐름을 양방향으로 보여준다는 것이 특징인데요, 미국의 무역 파트너를 보여주는 시각화이기 때문에 모든 링크가 미국(가운데 박스)에서 각 무역 국가로 뻗어나가는 모양입니다. 링크가 왼쪽 노드와 오른쪽 노드를 연결하지 않는 형태인 것이죠. 가운데 박스를 기준으로 왼쪽과 오른쪽 두 개의 생키 다이어그램이 있다고 생각하고 생키 다이어그램을 해석하면 됩니다.
생키 다이어그램으로 데이터를 살펴보면 2021년 미국과 가장 많이 교역하는 주요 무역 파트너는 캐나다, 멕시코, 중국 등입니다. 이 국가들은 수입(왼쪽)과 수출(오른쪽) 모두 링크의 두께가 두껍게 나타나는 것을 확인할 수 있습니다.
또 한 가지 눈에 띄는 점은 오른쪽 하단에 옅은가로 줄무늬로 나타낸 ‘적자(Deficit)’ 부분인데요, 총수입에서 총수출을 빼고 난 무역수지를 별도의 시각화로 구별하고 미국의 무역적자가 2020년 9,220억 달러에서 2021년 1.1조 달러로 급증했다는 사실을 텍스트로 안내하고 있습니다. 무역수지의 수치가 중요하기 때문에 가운데 박스와 별도의 패턴을 넣은 시각화로 알려준 것이라고 추측할 수 있는데, 기왕 보여주는 것이라면 더욱 눈에 잘 띄게 표현하는 것이 어땠을까 하는 생각이 들어요.
에디터의 한마디
지금까지 생키 다이어그램이 어떤 데이터 시각화 유형인지와 여러 가지 사례를 살펴 보았습니다. 사례로 본 세 가지 생키 다이어그램의 생김새는 조금씩 달랐지만, 모두 데이터의 흐름을 보여주는데요, 다소 복잡해 보여도 링크의 두께로 데이터의 양을 한눈에 파악할 수 있고 흐름을 따라가면 자연스럽게 내용을 알 수 있다는 점이 장점입니다.
데이터 시각화의 핵심은 복잡한 데이터를 단순화해서 직관적으로 보여주는 데 있어요. 생키 다이어그램은 흐름을 나타내는 데이터를 단순화하는 데는 효과적이지만, 차트 자체의 복잡성 때문에 이 시각화를 보는 사용자의 이해와 경험도 중요합니다.
하지만, 천천히 흐름을 따라가 보면 생각만큼 복잡하지 않아요! 이 글을 통해 살펴본 생키 다이어그램 이외에도 다양한 데이터 시각화 유형을 접하고 해석하는 과정을 통해 데이터 시각화의 활용 범위를 넓혀보는 건 어떨까요?
*참고
– Fusion Charts Sankey Diagram
– Horizontal Sankey Template-Ken Flerlage, Tableau Public
– Kossuth_sankey-mbence, Tableau Public
– Who Stops a ‘Bad Guy With a Gun’?, The New York Times, 20220622
– Dwight Schrute’s Surveillance System, Tableau Public-Kasia Gasiewska-Holc, 20210410
– Ranked: Visualizing the Largest Trading Partners of the U.S., VISUAL CAPITALIST, 20220531
Editor. 브랜드 마케팅팀 귤젤리