관계형 데이터에 숨겨진 인사이트를 발견하는 방법
우리는 일상에서 수많은 대상과 관계를 맺고 살아갑니다. 하지만 관계는 눈에 보이지 않기 때문에 내가 누구와 연결되어 있는지, 또 어떤 영향을 주고받는지를 파악하기는 어려운데요. 보이지 않던 관계를 시각적으로 나타내면 어떤 변화가 일어날까요? 관계가 있을 거라고 짐작했던 대상 간에 특별한 관련성이 없다는 사실을 밝혀낼 수도 있고, 반대로 전혀 연관 없어 보이던 대상들이 서로 영향을 주고받고 있음을 알게 될 수도 있습니다.
오늘은 ‘일상 속 데이터 간의 관계’를 시각적으로 나타냈을 때 우리가 무엇을 알 수 있는지 살펴보겠습니다. 각 사례에서 관계를 보여주기 위해 어떤 종류의 시각화 유형을 활용하고 있는지 알아보고, 데이터에 숨겨져 있는 인사이트를 찾아 보려고 해요!
1. 인생의 중대사, 직업과 결혼에 대한 상관관계 히트맵
결혼할 상대를 찾을 때 ‘직업’은 중요하게 고려되는 요소 중 하나입니다. 상대방의 경제적 조건을 파악할 수 있을뿐더러, 상대방이 어떤 성향을 가졌는지 말해 줄 수 있는 지표이기 때문인데요! 결혼과 직업 간에는 어떤 관계가 숨겨져 있을까요? ABC 뉴스에서 호주 통계청의 2021년 인구 조사 데이터를 분석한 결과로 궁금증을 해결해 보겠습니다!

위 시각화는 호주에 사는 280만 쌍 이상의 부부 대상 직업 조사 결과를 바탕으로 CEO, 재무 관리자, 가축 농부 등 7개 분야에서 관리직(Managers)에 종사하는 사람들 간의 결혼 가능성을 나타낸 상관관계 히트맵입니다. X축과 Y축에 7개 분야별 직업을 각각 동일한 순서로 나열하고, X축과 Y축이 교차되는 지점(셀)마다 원을 그렸어요. 왼쪽 상단의 색상 범례를 보면 알 수 있듯이 각 셀(cell)의 원 색상은 결혼 가능성을 나타내는데요! 원이 진한 분홍색일수록 가능성이 높고, 반대로 진한 파란색일수록 낮다는 것을 의미합니다.
사례를 보면 가장 진한 분홍색 원들이 차트를 가로지르는 대각선 형태를 만들고 있는데요! 이 분홍색 대각선에 해당하는 원들은 모두 부부의 직업이 동일한 경우를 나타냅니다. 이는 7개의 관리직 모두에서 같은 직업을 가진 사람끼리 결혼할 가능성이 높게 나타난다는 것을 보여주죠!

앞서 7개 직업을 골라 살펴봤다면, 상관관계 히트맵을 144개 직업으로 확장해보겠습니다. 위 시각화는 앞서 살펴본 관리직(Managers) 말고도 전문직(Professionals), 영업직(Sales) 등 총 8개 직군을 포함하는데요. 역시 우하향하는 분홍색 대각선이 나타납니다. 이를 통해 전 직군, 그리고 대부분의 직업에 걸쳐 ‘직업이 같으면 결혼 가능성이 높다’는 상관관계가 나타난다는 것을 알 수 있어요!

차트를 가로지르는 분홍색 대각선 중에서도 분홍색 점들이 집중적으로 분포하고 있는 부분이 눈에 띕니다. 위 이미지를 보면, 점선의 원으로 미디어·예술 계열, 그리고 의학 계열 직군에 해당하는 셀을 강조하고 있는데요. 해당 직업군에서는 같은 분야에 종사하는 두 사람이 만나 결혼할 가능성이 매우 높게 나타납니다. 예를 들어, 의학 계열의 전문의(Specialist Physicians)가 같은 직업을 가진 사람과 결혼한 경우를 자세히 보겠습니다. 전체 직업과 비교했을 때 같은 전문의와 결혼할 가능성이 91배나 높다고 나타나는데요. 이때 전문의가 아닌, 같은 의학 계열의 외과의를 선택하더라도 결혼 가능성은 다른 직업에 비해 43.8배 높습니다. 저는 이 시각화를 자세히 살펴보기 전 직업과 결혼이라는 주제에 대해서 ‘같은 직업에 종사하면 결혼할 확률이 더 높지 않을까?’하고 짐작했었는데요. 이번 시각화 사례를 통해 실제로 직업과 결혼 간의 상관성이 높다는 인사이트를 얻을 수 있었어요.
2. 걷다가 떠돌이 개를 마주친다면? 사람과 동물의 관계를 보여주는 버블 차트
앞서서 히트맵으로 사람 간 관계를 담은 결혼과 직업의 연관성을 살펴보았는데요. 사람과 동물 사이에는 어떤 관계를 발견할 수 있을까요? 가끔씩 길을 가다보면 집 없이 떠도는 개를 우연히 만날 수 있습니다. 과연 떠돌이 개를 마주쳤을 때 사람들은 어떻게 행동할까요? 그냥 지나치거나, 먹을 것을 챙겨주거나, 주인을 찾아주는 등 각기 다른 반응을 보일 것 같은데요. 사람과 동물 간의 관계를 국가별로 분석한 시각화 사례로 알아보겠습니다!

위 시각화는 국가별로 사람들이 ‘떠돌이 개를 만나는 빈도’와 떠돌이 개를 만났을때 ‘어떠한 행동을 할 가능성’ 간의 관계를 시각화한 버블 차트입니다. 취약한 환경에 사는 떠돌이 동물의 복지를 증진하기 위해 만들어진 프로젝트 ‘State of Pet Homelessness’에서는 19개 나라를 대상으로 설문조사를 실시하고 시각화를 제작했는데요.
사례에서는 떠돌이 개를 마주쳤을 때 할 수 있는 행동을 크게 두 가지로 분류했습니다. 왼쪽 차트는 ‘먹이를 주거나 놀아주기’라고 답변한 경우를, 오른쪽 차트는 기관에 신고하거나 주인을 찾는 등의 ‘조치를 취하기’라고 답변한 경우를 나타냅니다. 두 차트 모두 X축은 ‘매주 길거리에서 떠돌이 개를 보는 사람들의 비율’로, Y축은 ‘해당 행동을 하는 사람의 비율’로 설정했어요. 여기서 원의 크기는 국가별 ‘떠돌이 개의 실제 개체수’와 비례합니다. 이렇게 총 3가지 변수 간의 관계를 버블 차트로 표현했어요.

왼쪽 차트를 먼저 보면, 원들의 분포가 우상향하는 형태를 띠는데요. 이는 떠돌이 개를 길에서 많이 만날 수 있는 환경일수록, 먹이를 주거나 놀아주는 사람이 많다는 것을 의미합니다. 원의 크기는 떠돌이 개의 개체수와 비례하는데요. 차트 왼편, 원의 크기가 작은 일본·호주·프랑스 등은 떠돌이 개의 개체수가 적기 때문에 길에서 만날 확률이 희박해요. 따라서 놀아주기보다는 신고를 하는 사람들의 비율이 높습니다.

반면에 오른쪽 차트는 원들이 우하향하고 있어요. 떠돌이 개를 보는 사람들의 비율이 높을수록 신고 등 특별한 조치를 하지 않는다는 것을 나타냅니다. 차트 오른편, 원의 크기가 큰 멕시코·인도·브라질 등의 나라는 길가에 떠돌이 개가 많기 때문에 개들과 함께 살아가는 것이 익숙한데요. 그래서 신고를 하기보다는 먹이를 주거나 함께 놀아주는 사람의 비율이 높은 것을 알 수 있었습니다.
지금까지의 정보를 종합해보면, 길에서 동물을 얼마나 자주 만날 수 있는 환경인지에 따라, 동물을 만났을 때 보이는 행동이 달라진다는 결론을 내릴 수 있습니다. 떠돌이 개를 대하는 태도가 오롯이 개인의 선택이라기보다는, 그 나라의 환경과 문화 등 외부적 요인으로부터 영향을 받은 결과라고 추측해 볼 수 있겠네요.
3. 농장에서 식탁까지, 식품 공급망 네트워크 시각화
이번에는 식품이 재배되어 우리 식탁까지 오기까지 거치는 업체 간의 관계에 대해서 알아보고자 합니다. 요즘 들어 유기농 식품이나 공정 무역에 대한 관심이 커지는 등, 제품이 어떤 생산·유통 과정을 거쳐 소비자에게 오는지 궁금해하시는 분이 많은데요! 그 과정에서 제품은 수많은 업체나 시설을 거치게 되는데요, 이를 ‘공급망’이라고 일컫습니다. 공급망에 복잡하게 얽혀있는 업체 및 시설 간의 관계를 어떻게 시각화할 수 있을까요?

위 사례는 시금치의 공급망을 시각화한 대시보드 화면입니다. 시금치가 농장에서 재배되어, 가공업체와 유통사를 거쳐 마트나 식료품점으로 오기까지의 과정을 타임라인 차트(왼쪽)와 네트워크 차트(오른쪽)로 보여주고 있어요. 사례에서는 공급망 안의 업체 또는 시설의 유형을 분류해서 각기 다른 색상으로 나타냈습니다. 초록색은 농장, 보라색은 가공업체, 노란색은 유통사, 파란색은 마트를 의미합니다.

오른쪽 네트워크 차트를 자세히 살펴보겠습니다. 네트워크 차트는 데이터 항목을 의미하는 노드와, 관계성을 표현하는 선으로 구성되는데요. 사례에서는 시금치가 소비자에게 오기까지 거치는 업체 또는 시설을 원(노드)으로 나타낸 후, 관계가 있는 노드끼리 선으로 연결했습니다. 그리고 연결된 네트워크 전체를 공급이 이루어지는 순서에 따라 위에서 아래로 정렬했어요. 이때, 동일한 유형의 업체끼리는 같은 계층에 나열하여 그 흐름을 쉽게 파악할 수 있도록 했습니다.

만약 해당 기업의 시금치를 ‘Aroma Foods’ 마트에서 구매한 소비자들이 집단 식중독에 걸리는 상황이 벌어졌다고 가정해 보겠습니다. 그렇다면 기업은 문제가 발생한 제품을 리콜하고, 재고를 폐기하는 조치를 취해야 합니다. 하지만 각기 다른 농장에서 재배된 시금치는 한데 모여 가공되고, 다시 여러 곳의 마트로 유통되기 때문에 문제가 최초로 발생한 지점을 추정하기가 어려운데요! 이때 네트워크 시각화를 활용할 수 있습니다.
위 영상을 보면, 네트워크 하단에 오염된 시금치가 판매되었던 마트가 빨간색으로 강조됩니다. 해당 업체에 연결된 선을 따라 이동하면 공급이 이루어진 흐름을 가시화할 수 있는데요! 사례에서는 문제가 발견된 마트에서부터 유통사, 가공업체, 농장까지 공급 순서를 역으로 밟아나가며 해당하는 업체들을 빨간색으로 나타냈어요. 네트워크 차트에 빨간색으로 강조된 업체를 검토하면, 문제가 최초로 발생한 지점을 추적할 수 있습니다. 즉, 업체 간 관계 파악으로 인사이트를 도출하여 문제를 해결하는 것이죠! 이렇게 기업이 정확한 문제 지점을 찾아 빠르게 대응한다면 소비자 입장에서도 신뢰하고 제품을 구매할 수 있겠다는 생각이 듭니다.
에디터의 한마디
지금까지 일상 속 다양한 데이터 간의 관계를 보여주는 시각화 사례 세 가지를 알아봤습니다. 사람 간 관계부터 사람과 동물 간의 관계, 더 나아가 업체 간의 관계까지 우리가 일상생활을 하면서 맺는 여러 가지 형태의 관계 안에 숨겨져 있는 인사이트를 데이터 시각화로 발견할 수 있었어요.
앞서 살펴본 상관관계 히트맵, 버블 차트, 네트워크 시각화 말고도 데이터 간의 관계를 시각화할 수 있는 차트 유형이 많은데요! 예를 들어, 관계형 데이터의 흐름을 강조하고 싶다면 생키 다이어그램도 활용해볼 수 있어요. (해당 시각화 유형에 대해 더 알고 싶으신 분은, 차트에 걸어 둔 뉴스젤리 콘텐츠 링크를 참고하면 더 많은 사례를 만나 볼 수 있으니 참고 바랍니다!)
오늘 살펴본 관계형 시각화로 여러분들은 어떤 인사이트를 얻으셨나요? 데이터 항목 또는 변수 간의 관계를 효과적으로 보여주기 위한 방법을 고민하고 계신다면, 여러분도 관계 시각화를 사용해 보시는 건 어떨까요?
Editor. 기획팀 현젤리