오늘도 위치 데이터의 시각적 분석, 지도 시각화 이야기를 이어갑니다. 지난 두 편의 포스팅은 위치 데이터의 시각화, 시각적 분석에 대한 이야기였습니다. 첫 번째 포스팅 ‘위치 데이터 시각적 분석(1) 어떻게 할 수 있을까?’에서는 위치 데이터의 시각화 방법으로 지도 시각화 유형에 대해 알아보았습니다. 다양한 지도 시각화 유형 중 상황에 따라 적합한 유형이 무엇인지 알 수 있습니다. 더불어 위치 데이터에서 인사이트를 도출하는 방법도 간단히 살펴보았습니다. 위치 데이터가 가진 계층형 정보를 활용한 방법이었습니다.
두 번째 포스팅 ‘위치 데이터의 시각적 분석(2) 그 무한한 가능성에 대하여!’에서는 지도 시각화의 효과를 극대화하는 방법에 대해 이야기했습니다. 지도의 배경을 달리함에 따라 전달하고자 하는 메시지에 힘이 더해지는 것을 사례로 확인할 수 있었을 것입니다. 동시에 지도 시각화의 한계에 대해서도 알아보았습니다. ‘단 하나의 완벽한 시각화 유형이 없다’라는 것을 확인하였고, 이를 보완할 수 있는 방법에 대해서도 간략히 언급하였습니다.
두 편의 포스팅에 이어 오늘은 위치 데이터의 시각적 분석을 주제로 한 마지막 이야기를 하고자 합니다. 지도 시각화 자료를 바탕으로 한 실제 분석 사례를 공개합니다! 지도 시각화의 효과를 사례로 알아보고, 정확한 시각화 인사이트 도출을 위해 알아야 하는 것들에 대해서도 이야기합니다. 이번 시각적 분석 사례는 건강보험심사평가원의 보건의료빅데이터개방시스템을 통해 공개된 의료이용지도(health map)를 자료로 활용하였습니다.
먼저 시각화 분석 사례에 활용한 의료이용지도에 대해 간략히 살펴보도록 하겠습니다.이 지도 서비스는 2006년 미국 보스턴 아동병원이 처음 구축한 ‘헬스 맵(Health Map)과 동일한 형태로, 전국 국민이 증상에 따른 의료기관 이용 형태를 지도로 파악할 수 있다고 합니다.
의료기관 위치 정보, 의료 자원 현황, 의료 자원 분포, 질병통계, 의료경영자원정보, 질병 모니터링 현황 데이터를 지도 시각화 기반으로 확인할 수 있습니다. 의료기관 위치 정보는 지도 시각화 유형 중 Dot Density Map으로 제공하며, 그 외 데이터의 경우 Choropleth Map(혹은 Field Map)으로 보여줍니다. 지금부터 의료이용지도를 통해 공개된 주요 데이터를 지도 시각화 자료로 확인해보면서 데이터 인사이트를 찾아보도록 하겠습니다.
1.계층형 위치 정보에 근거한 지도 시각화의 시각적 분석!
의료이용지도는 모든 데이터를 광역시, 시군구, 행정동 단위로 확인할 수 있도록 되어 있습니다. (실제로 확인해본 결과로는 행정동 단위의 데이터는 확인할 수 없었습니다.) 이는 주소 정보를 기반으로 계층형 데이터 분석 및 인사이트 도출을 할 수 있다는 의미입니다.
먼저 광역시도 단위로 데이터를 확인해봅니다. 광역시도별X종별 요양기관 현황을 시각화 한 위 자료를 보면 요양기관 종류와 크게 상관없이 서울·경기권에 다수 분포하고 있음을 대략적으로 파악할 수 있습니다. 그와 동시에 요양기관별 개별 지도를 자세히 비교해보면 요양기관 종류별로 상이한 패턴을 보이는 것 역시 알 수 있습니다. 예를 들어 요양병원, 치과병원, 한방병원을 비교해 볼까요? 요양병원의 경우 서울, 경기, 경북, 경남 지역에 다수 분포되어 있고 강원, 세종, 제주 지역에는 상대적으로 적게 분포하였음을 알 수 있습니다. 치과병원의 경우 많은 수가 분포한 지역은 요양병원과 유사한 가운데 충청도 지역에 분포한 병원 수가 상대적으로 적었습니다. 반면, 한방병원의 경우 요양병원, 치과병원이 많이 분포한 서울, 경기, 경상도 지역보다 광주, 전라도 지역에 많은 수가 분포한 것을 특징으로 손꼽을 수 있습니다.
이제 광역시도 하위의 지역 단위인 시군구 단위로 데이터를 확인해보겠습니다. 무엇을 알 수 있을까요? 먼저 상급종합병원 현황 지도를 보겠습니다. 앞서 살펴본 광역시도 단위의 지도에서는 알 수 없었던 상급종합병원의 시군구별 위치를 확인할 수 있습니다. 다음으로는 병상수 규모에 따른 요양기관 종류별 분포 현황을 살펴보겠습니다. 상급종합병원, 종합병원, 병원, 의원별 현황 지도를 보면, 병상 수가 적은 규모의 요양기관일수록 상대적으로 넓은 지역에 분포하고 있음을 시각적으로 확인할 수 있습니다. 이를 통해우리가 알 수 있는 것은 ‘광역시도’ 단위의 분석에서 파악하지 못한 보다 자세하고 정확한 분석을 ‘시군구 단위’의 지도 시각화로 할 수 있다는 점입니다.
이번에는 데이터 자체의 범위를 줄여서 인사이트를 찾아보겠습니다. 특정 광역시도의 데이터만 살펴보도록 하죠! 전국 시군구별 지도 시각화 자료로 알 수 있는 점 중 하나가 ‘전국 시군구 기준 가장 많은 병원이 분포한 지역’이라면, 이번에는 ‘특정 광역시도 안에서 가장 많은 병원이 분포한 지역’을 알 수 있다는 점에서 차이가 있습니다. 예로 살펴볼까요?
전국 시도 중 가장 많은 한방병원이 분포하고 있는 광주의 자치구 중 가장 많은 분포를 보인 지역은 북구(39개)입니다. 반면, 서울의 경우 강남구(8개)로 나타났습니다. 광주와 서울의 자치구 중 가장 한방병원이 많은 자치구의 데이터 차이가 약 5배나 나는 것을 알 수 있습니다. 전국의 모든 시군구별 데이터가 표현된 지도에서는 이와 같은 인사이트를 빠르게 찾기는 어렵지만, 각 시도를 기준으로 데이터의 범위를 제한해 확인해보면 이를 보다 쉽게 알 수 있습니다.(한 가지 아쉬운 점은 의료이용지도 웹 페이지의 사용성 측면에서 데이터를 필터링하는 기능이 직관적이지 않아, 마치 숨은 기능(?)처럼 보인다는 점입니다.)
이쯤에서 정확한 시각적 분석을 위해 짚고 넘어가야 할 점이 한 가지 있습니다! 바로 지도에 사용된 색(color)과 면적(area)에 대한 이야기입니다.먼저 광주 북구와 서울 강남구의 한방병원 수를 나타낸 색의 차이를 비교해보겠습니다. Choropleth Map이 수치 데이터의 크기를 색의 진하기로 표현한다는 것을 감안할 때, 마치 이 두 지역의 수치 값은 비슷할 것으로 예상됩니다. 실제로는 약 5배의 차이가 났음에도 불구하고, 이런 해석상 오류를 범할 수 있는 것은 각 지도에 표현된 색은 실제 수치 값과 별개로 각 지도별 데이터의 최댓값과 최솟값을 기준으로 하기 때문입니다. 따라서 의료이용지도 서비스에서 다수의 지도를 근거로 인사이트를 도출할 경우, 색을 기준으로 지도별 데이터의 크기를 비교하지 않도록 유의해야 합니다. 쉽게 말해 상대적으로 더 진한 빨간색으로 표현된 서울의 1위 지역인 강남구의 데이터(8개)가 광주 남구(17개)보다 많을 것이라고 착각하면 안 된다는 이야기입니다. (만약, 의료이용지도 서비스에서 각 지도별로 컬러 범례와 함께 최댓값과 최솟값을 표기해 주었다면, 그나마 도움이 되지 않았을까 하는 아쉬움이 듭니다.
2.인구 특성별 조건을 분석 기준으로 활용한 지도 시각화의 시각적 분석!
데이터를 탐색하고 인사이트를 도출하는 기본적인 방법은 데이터를 쪼개거나 합칠 수 있는 여러 기준을 분석 기준으로 활용하는 것입니다. 첫 번째 파트에서 살펴본 데이터 인사이트는 위치 정보를 기준으로 데이터를 탐색한 것입니다. 특히 위치 정보를 쪼갤 수 있는 단위로서 ‘광역시도’, ‘시군구’ 기준에 따라 데이터를 본 것이죠! 이번에는 인구 특성별 조건을 분석 기준으로 활용하면서 지도 시각화의 시각적 패턴을 근거로 인사이트를 도출해 보도록 하겠습니다.
의료이용지도에서 인구 특성별 조건에 따라 데이터를 확인할 수 있는 항목은 ‘질병통계’입니다. 성별, 연령별 조건에 따라 주요 질병의 환자 수를 확인할 수 있습니다. 비만 환자 수 데이터를 살펴보도록 하겠습니다.
먼저 성별로 시군구별 비만 환자 수 데이터를 확인해 보도록 하겠습니다. 성별에 따라 두 개의 지도로 시각화하였는데요, 이렇게 동일한 데이터 값(비만 환자 수)을 표현하되 범주형(Categorical) 변수 항목별(성별)로 같은 유형의 시각화 차트를 나열한 시각화 방법을 스몰 멀티플즈(Small Multiples)라고 합니다. (이번 포스팅에 활용된 모든 시각화 자료는 스몰 멀티플즈 방법으로 표현되었다고 보아도 무방합니다.) 두 지도의 시각적 패턴에 근거하여 남자에 비해 여자의 경우, 상대적으로 다소 넓은 지역에서 비만 환자가 발생한 것을 알 수 있습니다.
이번에는 연령을 기준으로 비만 환자 수 데이터를 살펴보도록 하겠습니다. 10세 기준으로 비만 환자 수를 시각화 한 8장의 지도를 통해 연령별 비만 환자 수의 지리적 분포 패턴을 확인할 수 있습니다. 60세 이상 비만 환자 수의 시군구별 분포는 다른 연령대의 패턴과 뚜렷이 구별되는 차이를 보이네요!
3.지도 시각화로 하는 시계열 데이터의 시각적 분석!
마지막으로 시계열 기준에 따라 시각적 분석을 해보겠습니다. 의료이용지도에서 제공하는 데이터는 항목별로 일(day) 혹은 월(month) 단위로 확인할 수 있습니다. 그중 가장 긴 기간의 데이터를 확인할 수 있는 요양기관 개·폐업 현황 데이터를 확인해보았습니다. (이는 의료 데이터 특성상 짧은 기간 내 눈에 띄는 데이터 변화를 찾기란 쉽지 않을 것이라는 판단에 의한 것입니다.) 요양기관 종류 중 요양병원, 한방병원, 치과병원, 종합병원의 운영 기관수 데이터의 시계열 변화를 살펴보았습니다.
요양기관 유형별로 2010년 10월의 데이터와 2016년 10월의 데이터를 2개의 지도로 각각 시각화하였습니다. 지도에 표현된 시각적 패턴을 근거로 요양병원, 한방병원, 치과병원의 경우 6년 사이 상대적으로 많은 지역에 병원이 생긴 것을 쉽게 파악할 수 있습니다.
종합병원의 경우는 어떤가요? 종합병원이 분포하는 지역은 유사한 것 같은데, 각 지역별 데이터가 어떻게 변화했는지 알기 쉽지 않은데요! 더군다나 앞서 이야기했듯이 지도에 표현된 컬러가 의미하는 수치가 각 지도별로 다르기 때문에, 특정 지역의 종합병원 수가 시간에 따라 증가했는지, 감소했는지 파악하기 더욱 어렵습니다. 이런 경우에는 어떻게 해야 할까요? 정확한 데이터 인사이트 도출을 위해 다른 시각화 유형으로 시각화해보도록 하겠습니다.
먼저 지도 시각화 유형 중 Symbol Map으로 시각화해보았습니다. Choropleth Map이 각 지역별 데이터를 색으로 표현하는 것이라면, Symbol Map은 데이터의 크기를 심볼(원 등)의 크기로 나타냅니다. 지도 위 특정 지점에 심볼을 표시하기 때문에, 지역의 면적 크기가 데이터 인사이트 도출에 영향을 미치는 이슈도 발생하지 않습니다. 특히 위 자료는 의료이용지도와 달리 두 개의 지도에 표현된 데이터의 심볼 크기가 동일한 기준으로 표현(지도 우측 크기 범례 참고) 되도록 하였습니다. 이는 두 지도를 나란히 두고 심볼의 크기를 기준으로 상호 비교해도 해석의 오류가 발생하지 않는 것을 의미합니다. 물론 Symbol Map도 좁은 영역에 많은 심볼이 겹쳐있으면 빠른 인사이트 도출이 어렵다는 단점이 있으나, 눈을 크게 뜨고 두 지도를 살펴보면 시점별로 데이터의 변화를 찾아낼 수 있습니다. (2010년 10월 대비 2016년 10월 지도의 노란색 음영 부분의 데이터가 어떻게 변화했는지, 심볼 크기로 비교해보세요!)
이쯤에서 드는 궁금증이 있으실 텐데요! 시계열 데이터 변화를 한눈에 볼 수 있는 더 나은 시각화 방법은 없을까요? 앞서 살펴본 Symbol map에서 좁은 지역에 많은 심볼이 겹쳐 있어 데이터를 확인하기 어렵던 서울과 경기지역의 종합병원 수 데이터를 막대 차트로 시각화해보았습니다.
지도 시각화로 나타냈을 때보다 직관적으로 데이터의 변화를 알 수 있습니다. 회색 막대는 2010년 10월, 남색 막대는 2016년 10월의 데이터를 나타냅니다. 서울, 경기의 시군구별 데이터를 막대의 높이를 기준으로 비교하면 됩니다. 물론 막대 차트 말고도 시계열 데이터를 시각화하는 기본 유형인 선 차트로도 동일한 효과를 얻을 수 있습니다.
선 차트에서는 시계열에 따른 데이터 변화를 선의 각도를 바탕으로 파악합니다. (개인적인 의견으로는 막대 차트보다 라인 차트가 더욱 직관적인 것 같네요!)
자, 이번에는 힘을 내어 한 발 더 나아가보도록 하겠습니다! (시각화로 데이터 인사이트 찾기… 쉬운 듯 쉽지 않죠…) 앞서 의료이용지도의 Choropleth Map에선 도통 찾을 수 없던… 전국 시군구 중 종합병원 수의 변화가 가장 큰 지역이 어디인지 찾아보겠습니다.
이번에는 시각화로 표현할 수치 값의 집산 방식을 달리해보았습니다. 지금까지는 데이터로 시점별 종합병원 운영기관 수를 활용하였지만, 이번에는 2010년 10월 대비 2016년 10월 종합병원 운영기관 수의 ‘차이’를 활용합니다. 즉, 이 집산 방식에 따르면 해당 기간 사이 종합병원 운영기관 수 변화가 없을 경우 수치 값은 ‘0’이 됩니다. 시각화 유형은 막대 차트 중 Diverging Bar Chart로 하였습니다. 성별 X 연령별 인구 데이터를 시각화할 때 자주 사용되는 유형인데, 이를 피라미드 막대 차트(Pyramid Bar Chart)라고 부르기도 합니다. 데이터 가운데 수치가 변화하지 않아 ‘0’의 수치값을 갖는 시군구는 차트에 표현하지 않았습니다. 뿐만 아니라 집산 결괏값이 마이너스(-)인 경우에는 빨간색 계열, 플러스(+)인 경우에는 파란색 계열로 표현하였습니다. (컬러 범례는 우측 하단에 배치하여 색을 기준으로 데이터를 보아도 해석상 오류가 없도록 하였습니다.) 이제 시각화 차트로 정답을 찾아볼까요? 지난 6년 사이 종합병원 운영기관 수의 변화가 가장 큰 지역은 어디인가요? 아마 한 번에 찾으셨을 텐데요! 정답은 ‘경기도 부천시’입니다. 2010년 10월 대비 21016년 10월 4곳이나 줄었습니다.
우리는 이를 통해 위치 데이터를 시각화하여 인사이트를 도출할 때, 언제나 지도 시각화가 정답은 아니라는 것을 알 수 있습니다. 이를 다른 말로 하면 ‘모든 상황에 적합한, 완벽한 시각화 유형은 없다’라는 것이기도 합니다. 지도 시각화는 ‘위치’를 근거로 지도 위에 데이터를 표현하고, 이로써 나타나는 시각적 패턴과 지리적 맥락을 종합해 인사이트를 도출할 수 있다는 장점이 있는 동시에 지도 시각화 유형이 갖고 있는 단점에 의한 한계가 존재합니다. 따라서 우리는 데이터를 통해 알고자 하는 것이 무엇인지, 어떤 이유와 목적으로 데이터를 시각화를 하는 것인가에 대한 명확한 의도를 가지고 시각적 분석을 해야 합니다. 더군다나 시각적 분석의 목적은 ‘데이터를 시각적으로 아름답게 디자인’하는 것이 아니라 ‘데이터가 가진 인사이트’를 찾는 것을 최우선의 목표로 한다는 점을 고려할 때, 예뻐 보이는 지도 시각화를 고집하지 말고, 더 정확한 인사이트를 도출하고, 더 정확한 메시지를 전달할 수 있는 시각화 유형이 무엇인지 고민하고 선택해야 합니다.
지금까지 위치 데이터의 시각적 분석 자료로 의료이용지도를 활용해 데이터 인사이트 도출 방법에 대해 알아보았습니다. 지도 시각화를 활용해 3가지 큰 기준-① 위치 데이터가 가진 주소의 계층형 정보를 기준으로 한 분석, ② 인구 특성 조건에 따른 분석, ③ 시계열 기준의 분석-별 데이터 인사이트를 도출해보았습니다. 뿐만 아니라 지도 시각화를 활용한 데이터 인사이트 도출시 유의해야 할 점도 간략히 언급하였습니다. 특히 본문 마지막에는 지도 시각화 유형이 가진 한계점을 극복하고, 목적에 맞는 시각화 유형을 찾는 데이터 분석 및 인사이트 도출 과정의 흐름을 사례로 이야기했습니다.
오늘의 포스팅을 마무리하며, 한 가지 덧붙여 간략히 언급하고 싶은 것은 바로 정부가 만든 다양한 분야의 지도 서비스입니다. 데이터 탐색이 가능한 웹페이지 혹은 앱의 형태로 지도 서비스(예 : 행정안전부 생활안전지도, 통계지리정보서비스(SGIS) 정책통계지도 등)를 제공하기도 하고, 탐색은 불가능하지만 보유하고 있는 데이터를 지도 시각화로 표현한 보고서, 이미지 등 형태의 자료(예 : 환경부 도로먼지지도)로 공개하기도 합니다. 이는 국민과 정보를 공유하고 도움을 주기 위함입니다. 그러므로 우리는 ‘만들었다!’라는 소식을 단순히 접하기보다도 ‘어떻게 활용할 수 있지? 활용할만한가?’와 같은 질문을 가져볼 필요가 있습니다. 정부가 만든 지도 서비스를 모두 다 써본 것은 아니지만, 경험적으로는 ‘하나의 지도 서비스 안에 너무 많은 정보와 기능이 있는 것은 아닐까?’, ‘왜 이렇게 복잡하지?’라는 질문을 자주 떠올린 것 같습니다. 뿐만 아니라 ‘차라리 지도 시각화 대신 다른 시각화 유형을 사용했다면, 더 쉽게 데이터를 이해할 수 있었을 텐데…’ 하는 아쉬움이 드는 경우도 있었습니다.
단순히 많은 양의 데이터가 개방되는 것보다, 예뻐 보이고 있어 보이는(?) 데이터 시각화 서비스보다, 서비스를 이용하는 국민의 입장에서 활용도가 높고 사용성이 좋은 데이터, 데이터 기반의 서비스가 중요하다는 이야기와 함께 위치 데이터의 시각적 분석 이야기를 마무리합니다.
By 브랜드팀 강원양