다양한 데이터 시각화 유형을 통해 데이터 시각화를 해석하는 재미를 느껴보세요!
막대, 라인, 파이 등은 우리가 주변에서 자주 접하고 쉽게 이해할 수 있는 데이터 시각화 유형인데요, 이외에도 다양한 데이터 시각화 유형이 있습니다.
오늘은 낯설어 보이지만 결코 낯설지 않을 박스플롯(Boxplot) 차트에 관해 이야기해 보려 합니다. 주식, 코인 등 직접 투자를 해본 분이라면 아래 이미지가 익숙할 거예요. 캔들이라고 부르는 차트 유형인데 보통 매매하러 들어가 보면 이 차트가 바로 보이죠! 이 캔들 차트도 박스플롯 차트를 응용한 유형이랍니다.
박스플롯처럼 다소 낯선 데이터 시각화 유형들은 언뜻 보기에 해석하기 어려워 보이지만 가만히 들여다보면 하나의 차트를 가지고 더 많은 인사이트를 얻을 수 있다는 장점이 있는데요! 지금부터 박스플롯 차트가 무엇인지, 또 어떻게 해석해야 하는지 알아보도록 하겠습니다.
박스플롯 차트는 무엇일까?
박스플롯은 상자 및 수염, 상자수염그림, 상자그림, 봉, 캔들 등 다양한 이름을 가진 차트입니다. 우리는 박스플롯이라고 부를게요. 앞에서 언급했던 것처럼 주식 차트에서 주로 사용하고 통계학, 논문 등에서도 자주 등장합니다.
박스플롯 차트는 수염을 그리는 방법에 따라 두 가지 유형으로 구분할 수 있습니다. 아래 이미지처럼요! 왼쪽은 스피어 스타일(Spear style), 오른쪽은 튜키 스타일(Tukey style)이라고 부르는데요, 앞서 언급한 주식의 캔들차트는 스피어 스타일의 박스플롯으로 박스의 길이는 시가와 종가, 수염의 길이는 최댓값, 최솟값을 나타냅니다.
박스플롯 차트는 전체 데이터에서 이상치를 확인하기 위해 주로 사용하기 때문에 이 콘텐츠에서는 튜키 스타일의 박스플롯을 톺아볼 거예요.
박스플롯은 데이터의 분포와 이상치를 동시에 보여주면서 서로 다른 데이터군을 쉽게 비교할 수 있는 데이터 시각화 유형인데요, 로우 데이터를 그대로 사용하지 않고 다섯숫자요약(Five-Number Summary)이라는 통계학적 개념으로 데이터를 가공하여 시각화합니다.
다섯숫자요약이란 다섯가지 통계로 데이터를 나타내는 방법인데요, 최솟값(minimum)과 최댓값(maximum) 그리고 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3)로 구성됩니다. 박스플롯은 이 다섯숫자요약의 개념을 바탕으로 데이터를 시각화해서 보여주는 차트인 거죠.
아래 이미지를 보면 조금 더 이해가 쉬울 거예요. 박스플롯의 생김새와 명칭을 나타낸 이미지인데요, 상자와 T자 형태의 선으로 데이터를 시각화하고 있습니다.
박스플롯에서 2사분위수(중앙값)는 가장 중요한 수치입니다. 2사분위수를 기준으로 데이터의 50%가 상위에, 나머지 50%가 하위에 분포되어 있음을 뜻합니다. 가운데 상자는 중앙값을 기준으로 상하위 25% 지점에 있는 데이터의 범위를 표시합니다. 전체 데이터를 작은 값에서 큰 값으로 나열했을 때 전체 데이터의 25% 지점은 1사분위수, 75% 지점은 3사분위수를 나타냅니다.
상자의 양 끝과 연결된 선은 수염이라고 부르는데, 이 수염은 상자 길이(IQR)의 1.5배만큼 떨어진 지점을 나타냅니다. 조금 더 자세히 설명하면, 1사분위수에서 상자 길이의 1.5배 떨어진 거리 안에 있는 데이터의 최댓값과 최솟값을 기준으로 수염을 표시합니다. 위쪽을 최댓값, 아래쪽을 최솟값이라고 하고 이 선 밖에 점으로 표시된 데이터는 특이한 분포를 보이는 이상치로 간주합니다.
이렇게 수염 밖에 표시한 데이터를 이상점이라고 불러요. 이상점 중에서도 가장 바깥쪽에 위치한 데이터는 극단점이라고 합니다. 극단점은 이상치 가운데서도 유달리 높거나 낮은 값을 보이는 특이한 데이터입니다.
박스플롯을 사용하는 이유와 주의사항
보통 우리가 통계를 낼 때 평균이나 표준편차를 많이 사용하는데요, 이런 경우 데이터에 이상치가 있으면 왜곡된 의미를 전달할 가능성이 높습니다. 그래서 이상치가 있는지를 확인할 필요가 있고, 박스플롯을 활용하면 이상치가 얼마나 포함되어 있는지를 쉽게 판단할 수 있습니다.
박스플롯은 막대, 라인 등 직관적으로 의미를 이해할 수 있는 시각화 유형에 비하면 해석을 위해 알아야 할 개념들이 있습니다. 앞서 언급했던 다섯숫자요약이나 선, 점 등 각각의 요소가 나타내는 의미 같은 것들이요. 박스플롯이 생소한 사람이라면 오히려 이 데이터 시각화를 보고 혼란을 겪을 수도 있습니다.
또한, 전체 데이터의 항목별 분포를 보고 싶다면 히스토그램(Histogram)을 선택하는 것이 더 유용합니다. 데이터의 값이 둘 이상의 점 주위에 모여 있는 경우 박스플롯으로는 구분하기 어려울 수 있기 때문이에요.
히스토그램은 숫자 형태의 데이터 값을 범주형 변수로 활용할 때 사용하는 대표적인 시각화 차트인데요, 각 항목의 양 끝 값을 x축에 표시하고 그 항목의 도수를 y축에 표시하여 막대 길이로 시각화합니다. 막대 차트처럼 보일 수 있지만 히스토그램은 막대 사이에 간격이 없고 x축에 반드시 수량을 표시해야한다는 점이 달라요.
박스플롯 해석
박스플롯의 개념을 알았으니 이제 예시를 가지고 직접 차트를 읽어보겠습니다. 뉴스젤리에서 발행한 <숫자는 계산하라고 있는 것! 차트 만들기에서도 예외는 아니다>라는 콘텐츠에 삽입된 박스플롯 차트를 가지고 왔어요.
아래 이미지는 서울시의 주요 지하철역별 일일 승차 승객수 분포를 보여주는 박스플롯 차트입니다. 박스 상단은 전체 데이터의 75%, 박스 하단은 전체 데이터의 25%를 나타내고, 박스 안에 노란색과 주황색이 만나는 부분인 가운데 선은 중앙값(백분위 50%)에 해당합니다.
노란색 점은 일일 승차 승객수를 나타냅니다. 수염은 이상점을 제외하고 최소와 최댓값을 표현하는데요, 수염 밖으로 나온 점들이 이상점입니다.
역별로 살펴보면 신도림과 잠실(송파구청)은 점이 넓게 퍼져 있네요, 일일 승차 승객수의 변동이 크다는 의미입니다. 다시 말해서 역에 사람이 많은 날과 적은 날의 차이가 크다는 이야기죠. 잠실의 극단점도 눈에 띄는데요! 승차하는 승객수의 편차가 크기 때문에 극단점이 유난히 높게 나타났음을 확인할 수 있습니다.
수염이 짧은 강변, 대림(구로구청), 용산 등은 일일 승차 승객수의 편차가 적다는 의미인데요, 해당 역에 방문한 승객수가 다른 지하철역에 비해 일정한 편이라고 볼 수 있습니다. 다만, 단순히 편차가 적다고만 해석하기 보다 강변, 대림(구로구청), 용산 등에 방문한 사람이 강남에 방문한 사람보다 적기 때문에 일일 승차 승객수 편차의 폭이 좁게 나타난 것 일 수도 있어요.
박스플롯, 데이터 분포와 이상치를 한눈에!
오늘은 박스플롯에 관해 알아보았는데요, 박스플롯은 다소 생소한 유형일 수 있지만 서로 다른 데이터 집단을 비교할 때 종종 사용합니다. 박스플롯은 데이터의 전체적인 분포와 이상치를 한눈에 볼 수 있는 유용한 차트입니다. 특히 서로 다른 항목을 한눈에 비교할 수 있어 그룹별로 나누어 보았을 때 인사이트를 얻을 수 있습니다. 다만, 이 시각화를 이해하기 위해 미리 알아두어야 할 개념이 있다는 점이 차트 활용을 시도하는데 장벽이 될 수 있을 텐데요!
복잡해 보인다고 외면하지 말고 다양한 데이터 시각화 유형을 통해 데이터 시각화를 해석하는 재미를 느끼고, 이를 활용하여 전달하고자 하는 메시지를 더욱 효과적으로 전달했으면 하는 바람입니다! 기회가 된다면 다양한 박스플롯을 해석해보는 콘텐츠로 다시 찾아올게요:)
*참고
– How to Read and Use a Box-and-Whisker Plot
– What is boxplot?
– 박스플롯 이용시 주의사항
-『데이터가 한눈에 보이는 시각화』, 위키북스
Editor. 귤젤리