데이터 하나로 몇 개의 차트를 만들 수 있을까요?
2018년 10월 24일

데이터 집산(Data Aggregation)을 활용한 시각적 분석 1 : ‘데이터 집산’ 개념 이해하기


데이터 하나로 만들어진 이 모든 차트!

데이터 분석 결과 보고서나 자료를 보면, 많은 시각화 차트와 데이터 표가 포함된 경우가 많습니다. 이런 보고서를 보고 있노라면, ‘이 보고서에 정말 많은 종류의 데이터가 활용되었구나!’, ‘이 모든 것을 다 이해하기는 힘들겠다!’ 등의 생각이 듭니다. 데이터에 압도되는 듯한 느낌이 드는 것이죠!

그러나 꼭 그럴 필요는 없습니다. 사실 특정 조사 기관이 하나의 조사를 한다면, 해당 조사 결과 데이터는 하나로 정리되었을 것이기 때문입니다. 여기에서 데이터란 정제되지 않은 상태의 원본 데이터인 로우(raw) 데이터를 의미합니다. 이들이 보고서에 여러 개의 시각화 차트와 데이터 표를 넣은 이유는 데이터 분석 과정에서 발견한 여러 인사이트를 전달하기 위한 보조 자료로써 활용했기 때문입니다. 여기에서 우리는 하나의 데이터로 수많은 시각화 차트와 데이터 표를 만들 수 있다는 것을 추측해 볼 수 있습니다. 통계청이 발표하는 보고서와 통계표 대표적인 예로 들 수 있습니다.

사례를 통해 자세히 알아볼까요? 통계청이 발표한 ‘2018년 상반기 지역별 고용조사 – 취업자의 산업 및 직업별 특성’ 보도자료가 있습니다. 보도자료 파일 이름만 봐도 정말 여러 종류의 데이터를 활용한 것 같습니다. ‘지역별’ 고용 조사 결과를 ‘취업자’의 ‘산업별’, 또 ‘직업별’로 살펴본다고 하니까요!

통계청 보도자료 ‘2018년 상반기 지역별 고용조사 - 취업자의 산업 및 직업별 특성’(2018.10.23)
통계청 보도자료 ‘2018년 상반기 지역별 고용조사 – 취업자의 산업 및 직업별 특성’(2018.10.23)

총 49쪽에 이르는 이 자료에는 수많은 막대 차트와 데이터 표가 포함되어 있습니다. 얼핏 보면 각각의 차트와 표는 별개의 데이터인 것처럼 보이기도 합니다. 그러나 사실 이 많은 막대 차트와 데이터 표는 하나의 데이터로 만들어진 것입니다. 어떻게 된 것일까요?

통계청이 ‘통계표’라는 이름으로 제공하는 수많은 데이터는 말 그대로 ‘통계’를 낸 데이터 ‘표’입니다. 즉, 통계를 내기 전 데이터는 따로 있다는 의미입니다. 일반적으로 이를 로우 데이터라고 합니다. 앞서 정제되지 않은 상태의 원본 데이터라고 언급하기도 했죠! 보통 로우 데이터는 하나의 열(column)에 해당 열의 값만 포함하고 있는 형태로 시각화 차트를 만들 때 필요한 형태입니다.

통계청 국가통계포털(KOSIS), 지역고용조사 결과 통계표 리스트 중 일부
통계청 국가통계포털(KOSIS), 지역고용조사 결과 통계표 리스트 중 일부

결론부터 이야기하면, 통계청에서 제공하는 ‘통계표’는 조사 결과인 로우 데이터 하나에서 특정 열(column)을 기준으로 데이터를 집산(aggregation)한 것입니다. 통계표별 이름에 포함된 ‘성별’, ‘연령별’, ‘산업별’, ‘직업별’ 등이 집산의 기준입니다. 위 이미지의 통계표들은 취업자에 대한 조사 결과 데이터를 기준별로 묶어서 요약한 결과물입니다. ‘취업자 수’를 각기 다른 기준으로 센 것이지요. 이처럼 데이터 집산을 어떤 기준 혹은 조합으로 하느냐에 따라서 셀 수 없이 많은 통계표를 만들 수 있습니다.

로우(raw) 데이터와 통계표 형태 비교 (통계청 시도/산업별 취업자 데이터 활용)
로우(raw) 데이터와 통계표 형태 비교 (통계청 시도/산업별 취업자 데이터 활용)

데이터 집산의 결과물인 통계표 하나를 살펴볼까요? 로우 데이터와 달리 하나의 셀(cell) 값이 그 위치를 기준으로 행(row)과 열(column)의 의미를 둘 다 갖습니다. 이러한 형태의 데이터 표를 피벗 테이블이라고도 합니다. 우리가 흔히 아는 시각화 차트- 막대 차트, 선 차트, 파이 차트 등-는 로우 데이터를 특정 기준으로 집산하고, 그 결과를 시각화 요소(원, 선 등)로 표현한 것인데요! 피벗 테이블 역시, 시각화 요소로 표현하지 않았을 뿐 로우 데이터를 집산한 결과물이라는 점에서 시각화 유형 중 하나라고 이야기할 수 있습니다.

시도/산업별 취업자 수 데이터를 활용해 만든 다양한 시각화 차트 (시각화 솔루션 DAISY 활용)
시도/산업별 취업자 수 데이터를 활용해 만든 다양한 시각화 차트 (시각화 솔루션 DAISY 활용)

다시 말해 데이터 집산을 통해 하나의 데이터로도 셀 수 없이 많은 시각화 차트를 만들 수 있습니다. 이것은 또 다양한 시각화 차트를 바탕으로 특이한 시각적 패턴과 인사이트를 찾을 수 있다는 것을 의미합니다.

정리하면, 1) 통계표는 로우 데이터를 특정 기준으로 집산한 결과물입니다. 2) 하나의 로우 데이터를 활용하더라도 어떤 기준으로 집산하느냐에 따라서 다수의 통계표를 만들 수 있습니다. 3) 통계표와 시각화 차트를 만드는 방법이 데이터 집산에 의한 것이라는 공통점을 근거로, 통계표 역시 시각화 유형 중 하나라고 이야기할 수 있습니다. 결과적으로 4) 하나의 로우 데이터를 활용해 다수의 시각화 차트를 만들 수 있습니다.

데이터 하나로 수많은 차트를 만드는 방법, 데이터 집산(Data Aggregation)

그렇다면 데이터 집산(Data Aggregation)은 무엇일까요?

데이터 집산의 예 - (a)산점도의 각 데이터 포인트를 특정 기준에 따라 영역으로 묶는 것(b) (출처 : 「Hierarchical Aggregation for Information Visualization : Overview, Techniques and Design Guidelines」)
데이터 집산의 예 – (a)산점도의 각 데이터 포인트를 특정 기준에 따라 영역으로 묶는 것(b) (출처 : 「Hierarchical Aggregation for Information Visualization : Overview, Techniques and Design Guidelines」)

데이터 집산은 데이터 분석 및 인사이트 도출을 위해 로우 데이터를 특정 기준으로 묶어 데이터 셋(dataset)을 추출하는 것입니다. 앞서 언급한 통계표를 데이터 셋이라고 이해해도 무방합니다. 데이터를 묶는 기준의 대표적인 예로 성(sex), 연령, 지역 등을 들 수 있습니다. 어떤 기준으로 데이터를 묶는지에 따라서 서로 다른 데이터 셋을 만들 수 있습니다. 또 이를 시각화 요소로 표현한 차트는 각기 다른 시각적 패턴을 보입니다. 데이터 집산을 활용하면, 시각화 차트의 시각적 패턴을 근거로 인사이트를 도출하는 시각적 분석을 할 수 있습니다.

3차원 변수의 데이터 큐브의 투영 - 지역, 제품, 분기의 변수를 가진 데이터(데이터 큐브 64개)를 ‘지역’을 기준으로 요약(데이터 큐브 16개), ‘지역’과 ‘제품’을 기준으로 요약(데이터 큐브 4개), ‘지역, ‘제품’, ‘분기’를 기준으로 요약(데이터 큐브 1개) (출처 : 「Multiscale Visualization Using Data Cubes」)
3차원 변수의 데이터 큐브의 투영 – 지역, 제품, 분기의 변수를 가진 데이터(데이터 큐브 64개)를 ‘지역’을 기준으로 요약(데이터 큐브 16개), ‘지역’과 ‘제품’을 기준으로 요약(데이터 큐브 4개), ‘지역, ‘제품’, ‘분기’를 기준으로 요약(데이터 큐브 1개) (출처 : 「Multiscale Visualization Using Data Cubes」)

데이터는 집산 과정을 통해 그 범위가 줄어드는 경우가 일반적입니다. (때에 따라 그 반대인 경우도 있긴 하지만요!) 그래서 많은 양의 데이터를 탐색할 때 유용하게 활용되는 방법이기도 하죠! 위 이미지는 데이터 큐브(Data Cube)라는 개념을 활용해 집산의 과정을 보여주는 자료입니다. 데이터 큐브의 개수가 기준별 집산 과정에 따라 줄어들어 끝내 1개가 됩니다. 많은 양의 데이터에 포함된 구체적이고 개별적인 정보가 특정 기준에 따라 추상화(Abstraction, 복잡한 자료, 모듈, 시스템 등으로부터 핵심적인 개념 또는 기능을 간추려 내는 것)되는 것입니다.

데이터 집산은 집산의 기준이 되는 변수의 유형- 수치형 변수, 범주형 변수-에 따라 두 가지 유형으로 나눌 수 있습니다. 1) 수치형 변수를 활용한 집산은 합계, 평균, 최댓값, 최솟값 등 데이터의 계산 방식을 달리하는 것입니다. 2) 범주형 변수를 활용한 집산은 앞서 여러 차례 언급한 성(sex), 연령, 지역, 날짜 등의 기준으로 데이터를 묶는 것입니다. 이 경우 범주형 변수가 어떤 유형인가에 따라서 효과적으로 사용할 수 있는 시각화 유형이 달라집니다. 또, 집산의 기준을 데이터 필터의 기준으로 활용해 대시보드에서의 데이터 탐색 시 효과적으로 활용할 수 있습니다.

“Overviews first, zoom and filter then details on demand”

미국의 컴퓨터 과학자 벤 슈나이더 맨(Ben Shneiderman)은 「정보 시각화를 위한 데이터 분류(The eyes have it : A task by data type taxonomy for information visualization)」이란 글에서 데이터 분석 및 시각화와 관련해 “먼저 전체를 훑어보고, 원하는 바에 따라 확대/축소 하거나 데이터를 필터링 하라!”(Overviews first, zoom and filter then details on demand)라고 언급하였습니다. 시각화를 통한 인사이트 도출 과정을 한 문장으로 요약한 것이라고 할 수 있는데요. 공감하지 않을 수 없습니다!

우리가 데이터 집산의 기준을 달리하면서, 하나의 데이터 안에서 다수의 데이터 셋과 시각화 차트를 만들며 인사이트 도출을 시도하는 과정 역시 이와 같은 맥락이라고 여겨집니다. 집산을 통해 분석 대상의 데이터 범위를 축소할 수도 있고 반대로 좀 더 자세하게 볼 수도 있기 때문이죠. 특히 이 과정에서 집산 결과를 시각화 차트로 바로 표현할 경우, 좀 더 쉽고 빠르게 인사이트를 찾을 수 있습니다. 이것이 지금껏 데이터 집산과 시각화를 함께 이야기한 이유입니다.

데이터 시각화 솔루션 DAISY의 집산 기능 - 클릭 한 번 만으로 데이터를 다른 기준으로 요약
데이터 시각화 솔루션 DAISY의 집산 기능 – 클릭 한 번 만으로 데이터를 다른 기준으로 요약

나아가 같은 이유로 대다수의 데이터 시각화 솔루션은 데이터 집산 기능을 포함하고 있습니다. 시각화 솔루션에서의 집산 기능은 보통 단순한 클릭만으로 적용할 수 있고, 이를 시각화 차트로 바로 확인할 수 있습니다. 별도의 데이터 정제 과정을 통한 집산 결과를 얻는 것이 아니라, 시각화로 집산 결과를 빠르게 확인할 수 있다는 것이 큰 장점입니다.


지금까지 데이터 하나로 다양한 시각화 차트를 만들고 인사이트를 찾기 위해 알아야 할 방법으로 데이터 집산에 대해 알아보았습니다. 이해를 위해 다소 긴 글을 통해 설명하였지만, 간단히 말하면 데이터를 요리조리(?) 합치고 나누는 방법이라고 요약할 수 있습니다. 그리고 이 과정을 통해 우리는 데이터 인사이트를 발견합니다. 앞으로 이어질 글에서는 데이터 집산의 두 가지 유형에 대해 각각 살펴볼 예정입니다. 데이터 변수의 유형에 따라 시각적 패턴이 달라지는 것은 어떻게 알 수 있고, 또 어떤 시각화 유형을 사용하는 것이 적합한지 등에 대해 자세히 이야기합니다.


참고자료

By 브랜드팀 강원양

Comments

Until the day when anyone is
able to see and use data easily comes

SOLUTION
COMPANY
SUBSCRIBE
Top