이 글은 ‘당구장 옆에는 PC방이 있다’는 뉴스젤리 PC방 마니아의 한마디에서 출발합니다. 이 한마디에 PC방을 평소 즐겨 찾는 사람들은 폭풍 공감을, PC방을 찾지 않는 사람들은 의아하다는 반응을 보였죠. 그리고 모두가 궁금해졌어요. ‘당구장 옆에는 PC방이 있다’는 이야기가 진짜일지, 데이터로 검증할 수 있을지.
데이터를 통해 인사이트를 도출하고 이를 전달하는 방식은 크게 두 가지로 나눌 수 있습니다. 누구나 쉽게 데이터의 의미를 이해할 수 있도록 시각화된 데이터에 이야기를 더한 데이터 스토리텔링 방식, 프로그래밍과 통계적 분석 기법을 이용한 기술적인 방식으로요. 뉴스젤리가 그동안 전달한 이야기들은 대부분 데이터 시각화가 중심이 되는 스토리텔링 콘텐츠였지만, 이번에는 통계적 분석 기법 활용을 위주로 데이터를 분석해봤습니다.
지금부터 ‘당구장 옆에는 PC방이 있다’는 가설을 통계적 분석 기법으로 검증하는 과정을 살펴볼게요. 이 글은 뉴스젤리 개발팀이 통계적으로 데이터를 분석해 도출한 인사이트를 바탕으로 작성됐습니다.
1. 데이터를 어떻게 분석하나요?
데이터 분석(Data Analysis)은 목적에 따라 일정한 관점으로 데이터를 정리, 변환하는 일련의 과정을 말합니다. 복잡하고 많은 내용을 가진 데이터를 정확하게 이해하고 유용한 정보를 찾기 위해 데이터를 정제하고 탐색하는 과정이에요.
일반적인 데이터 분석 프로세스는 분석하는 사람마다 조금씩 다를 수 있지만 일반적으로 문제를 정의한 뒤, 데이터 수집 → 데이터 전처리 → 탐색적 자료 분석(EDA, Exploratory Data Analysis) → 시각화 → 데이터 분석 → 결론 도출로 이어집니다.
각 단계를 보면 가장 먼저 문제정의는 해결해야 할 문제를 명확히 정의하고 데이터를 통해 검증하고 싶은 가설을 세우는 것인데요, 가설을 세운 다음 분석에 필요한 데이터를 모으고(데이터 수집) 수집한 데이터에 어떤 변수가 있는지, 어떻게 활용하면 좋을지 등을 파악한 다음(데이터 전처리) EDA라는 탐색적 자료 분석 기법을 활용해 데이터를 살펴봅니다. 상황에 따라 데이터 시각화를 활용해서 데이터의 의미를 파악하기도 하고요, 그리고 데이터를 탐구(데이터 분석)하는 과정을 거쳐 결론을 도출합니다.
2. 어떤 데이터를 수집・전처리했나요?
저희가 세운 ‘당구장 옆에는 PC방이 있다’는 가설도 앞선 데이터 분석 프로세스에 따라 분석을 진행했습니다. 당구장과 PC방의 거리 관계를 파악하기 위해 220만여 개의 2022년 3월 기준 전국에 운영 중인 상권 데이터(소상공인시장진흥공단의 상가(상권) 정보)를 수집해 활용했습니다. 이번 분석은 공공데이터가 있어서 데이터를 다운로드 받아 사용했는데 만약 공공데이터가 없다면 관련한 데이터를 직접 확보해야 합니다.
데이터 수집 이후 진행하는 데이터 전처리는 다운로드한 공공데이터의 데이터 사이즈, 컬럼, 타입, 결측치 등을 확인하는 단계입니다. 우수한 데이터 분석 결과는 잘 정돈된 데이터에서 비롯하기 때문에 꼼꼼히 살펴봐야 합니다.
확보한 데이터의 변수를 변형해서 새로운 인사이트를 얻는 데 활용할 수도 있습니다. 이렇듯 기존의 변수를 재조합해 새로운 변수를 만든 변수를 파생변수라고 합니다. 어떤 파생변수를 만들고, 목적에 맞는 데이터 지표를 설정하느냐에 따라 데이터 활용의 범위가 달라집니다.
1) 파생변수 생성
‘당구장과 PC방이 가까이 있는지’를 알아보기 위해서는 두 지점 사이의 거리를 확인할 수 있는 변수가 필요합니다. 소상공인시장진흥공단_상가(상권)정보 데이터를 보니 상호, 업종코드, 업종명, 지번 주소, 도로명주소, 경도, 위도 등 총 38개의 다양한 변수를 확인할 수 있습니다. 경도와 위도만 제외하고 모두 개별 항목으로 구분돼 수학적으로 계산할 수 없는 범주형 변수네요.
원 데이터에 있는 경도와 위도 데이터만으로는 해당 업소의 위치를 지도 위에 표시하는 정도에 그치는데요, 뉴스젤리가 세운 가설인 당구장과 PC방이 근처에 있는지를 검증하기 위해 경도와 위도 데이터를 재조합해 지점 간 거리 데이터 파생변수를 만들어보기로 했습니다.
하버사인(Haversine)이라는 공식을 활용하면 PC방과 당구장 사이의 거리를 계산할 수 있는데요, 하버사인 공식은 지구를 구(Sphere)로 가정하고 두 지점의 좌표(경도, 위도)를 이용하여 지구 표면을 따라 거리를 측정하는 방법입니다.
원 데이터의 경도와 위도 데이터를 가공해 ‘최근접거리(지점 간 가장 가까운 거리)’라는 새로운 파생변수를 만들었습니다. 당구장 기준 오락업종의 최근접거리를 나타낸 표에서 가장 오른쪽의 숫자는 총 5,913개 당구장의 번호를 의미하는데요. 0번 당구장과 최근접거리의 PC방은 0m, 1번 당구장과 최근접거리의 PC방은 279.476535m로 나타났습니다. 이와 같은 방식으로 5,913개의 당구장에서 각 오락업종의 최근접거리를 계산했기 때문에 ‘당구장과 PC방이 정말 가까운지’를 거리 기준으로 비교할 수 있게 됐습니다.
2) 이상치 처리
원 데이터의 오락업종 데이터 개수를 보면 PC방은 7,416곳, 당구장은 5,913곳, 탁구장은 1,100곳이고 오락용 사격장은 43곳, 포켓볼장은 10곳으로 차이가 많이 납니다. 상권 수에 차이가 있어 상대적으로 개수가 적은 오락용 사격장, 포켓볼장 등은 해석에 유의해야 합니다.
본격적인 데이터 분석에 앞서 데이터의 분산과 이상치를 동시에 보여주면서 서로 다른 데이터군을 쉽게 비교할 수 있는 박스플롯(Boxplot)을 활용, 데이터의 패턴을 보고 이상치를 처리합니다. 이상치를 처리해야 데이터 분석의 정확도와 신뢰도를 높일 수 있기 때문입니다. (‘낯선 시각화, 박스플롯(Boxplot)과 친해지기’를 보면 박스플롯에 관한 자세한 내용을 알 수 있어요!)
위 데이터 시각화는 당구장을 기준으로 오락업종의 최근접거리를 비교한 박스플롯입니다. 박스플롯을 살펴보면 상자와 T자 형태의 선(수염)을 벗어난 점들이 많은데요, 수염 밖의 점들을 이상치라고 합니다.
이상치가 많으면 데이터의 모집단 평균이나 총합을 추정하는데 오류가 생길 수 있고, 분산을 과도하게 증가시켜 분석의 정확도가 떨어질 수 있기 때문에 다른 값으로 대체하거나 제거하는 등 적절하게 처리하는 것이 좋습니다. 이번 분석에서는 이상치를 제거했습니다.
데이터를 수집해서 이상치를 제거했으니, 데이터의 분포를 파악해서 당구장과 PC방이 가까이에 있는지를 확인해 보겠습니다.
3. 통계적 분석은 어떻게 했나요?
1) 파생변수를 활용한 통계 지표
앞서 하버사인 공식으로 계산한 파생변수, 최근접거리를 활용해서 통계 지표를 만들고 데이터를 분석할 건데요, 한 가지 주의할 점은 각각 당구장을 기준으로 했을 때와 PC방을 기준으로 했을 때를 모두 분석해야 한다는 것입니다.
위 이미지에서 파란색 원형은 PC방, 분홍색 삼각형은 당구장을 나타낸다고 했을 때 1번 PC방을 기준에서 가장 가까운 당구장은 3번인데요, 기준을 당구장으로 바꾸면 1번, 2번, 3번 당구장 모두 1번 PC방이 가장 가깝다는 결과가 나옵니다.
이렇듯 기준에 따라 가장 가까운 상점이 다르게 나타나기 때문에 PC방을 기준으로 한번, 당구장을 기준으로 한번 총 두번씩 분석해야 합니다.
2) 분포를 활용한 분석
오늘은 데이터 분석에 중점을 둔 만큼 통계 분석 방법에 관한 이야기를 빼놓을 수 없는데요, 당구장과 PC방이 근처에 있는지를 판단하기 위해 분포의 모양을 자세히 분석했습니다. 히스토그램(Histogram)을 활용하는 방법과 왜도(Skew)와 첨도(Kurtosis) 통계량을 검토하는 두 가지 방법으로 분석해보겠습니다.
먼저 히스토그램을 활용한 방법에 대해 알아보겠습니다. 아래 이미지는 당구장을 기준으로 오락업종의 최근접거리 분포를 히스토그램으로 표현한 결과입니다.
히스토그램은 도수분포표의 각 구간별 빈도수를 막대의 길이로 표현한 시각화 차트로 데이터의 분포를 한눈에 파악할 수 있습니다. 시각적 탐색이 용이하도록 x축에 제곱근을 사용, 분포를 변환했습니다.
x축이 최근접거리 변수이기 때문에 낮은 숫자에 값이 몰릴수록 가깝다고 볼 수 있는데요, 완만한 종 모양의 다른 업종과 달리 PC방은 0쪽 막대가 긴 것을 확인할 수 있습니다. 당구장과 한 건물에 위치하는 경우가 많다는 의미죠. 오른쪽 꼬리가 길어 왼쪽으로 편중된 분포를 보일수록 더 가까운 위치에 있다고 할 수 있습니다.
히스토그램을 이용한 검증 방법은 각 계급에 속하는 자료의 많고 적음을 한눈에 알아보기 쉽지만 명확한 기준이 없어 직관적으로 판단할 수밖에 없다는 한계가 있습니다.
분포의 모양을 분석할 수 있는 또다른 방법은 왜도와 첨도 통계량을 검토하는 것인데요, 이때는 수치화된 판단 기준이 있어 히스토그램을 활용한 방법보다 객관적인 검증이 가능합니다. 왜도는 분포의 기울어진 정도와 방향을, 첨도는 분포의 중심이 뾰족한 정도를 나타내며 분포가 왼쪽으로 치우칠수록, 더 뾰족할수록 최근접거리에 있다고 판단합니다.
위의 히스토그램은 당구장을 기준으로 했을 때 720m 안에 각 오락업종이 얼마나 분포돼 있는지를 보여주는 결과입니다. 대부분의 업종이 고른 분포를 보이는 가운데 PC방은 0쪽에 분포가 많고 오른쪽 꼬리가 길게 이어진 모양을 보입니다. 다른 업종과 비교했을 때 PC방의 분포가 왼쪽으로 치우쳐 있고 뾰족하게 나타나므로 검증 결과 ‘당구장을 기준으로 PC방이 최근접거리에 있다’고 볼 수 있습니다.
앞서 왜도와 첨도를 활용한 통계량 검토는 수치화된 판단 기준으로 한다고 했는데요! 왜도와 첨도의 수치를 기준으로 판단해보면, 당구장을 기준으로 오락업종의 720m 내의 분포 경향을 살펴봐도 PC방의 왜도는 1.152231594420179, 첨도는 0.6974475898479087로 왜도와 첨도가 0보다 커서 왼쪽으로 치우치고 중심이 뾰족하게 나타난다는 사실을 확인할 수 있습니다.
4. 당구장 옆에는 ‘진짜’ PC방 있을까요?
1) 오락업종 분석
그래서, 당구장 옆에 PC방이 진짜 있느냐고요? 아래 이미지는 당구장을 기준(왼쪽)으로 했을 때 오락업종 내 각 업종이 얼마나 가까이 있는지 분석한 결과를 정리한 표입니다. ‘가깝다’는 기준은 1) 같은 건물에 있는지, 2) 720m 내 분포의 경향, 3)평균 도보 시간의 세 가지 기준으로 비교했습니다.
두 번째 기준으로 삼은 720m는 한국 교통연구원의 교통접근성 평가를 위한 교통 빅데이터 이용 보고서의 기준을 적용하고 평균 도보 시간은 1.2m/sec를 기준으로 분석했습니다.
당구장을 기준으로 했을 때 당구장과 PC방과의 한 건물 비율은 5.6%로 오락업종 내에서 다섯번째, 평균 최근접거리와 평균 도보 시간은 각각 195.15m와 2.71분으로 거리와 시간 모두 가장 짧아 첫번째로 나타났습니다.
마찬가지로 PC방을 기준(오른쪽)으로 했을 때 오락업종 내에서 각 업종이 얼마나 가까이 있는지도 살펴보면, 당구장과의 한 건물 비율은 7.49%로 세번째, 평균 최근접거리와 평균 도보 시간은 221.049m와 3.07분으로 역시 가장 거리와 시간이 짧아 첫번째를 차지했습니다.
분석 결과를 통해 각각 당구장이 기준일 때 PC방이, PC방이 기준일 때 당구장이 평균 최근접거리와 평균 도보 시간이 가장 짧다는 사실을 확인했습니다. 정리하면, 오락업종 내에서는 PC방과 당구장 어느쪽을 기준으로 하든 두 업종의 거리가 가깝다고 볼 수 있습니다.
한편, 오락업종끼리 비교했을 때 PC방과 당구장의 거리가 가깝다는 결과가 나왔으나, 오락업종의 업종수 차이가 커서 나온 결과는 아닐까하는 의구심이 생겼습니다. 그래서 다른 업종과 비교했을 때도 가깝다는 결과가 나오는지를 확인하기 위해 PC방, 당구장과 규모가 비슷한 업종을 추려 한번 더 비교분석했습니다.
2) 당구장, PC방과 비슷한 규모의 업종 분석
전국의 PC방은 7,416곳, 당구장은 5,913곳으로 나타나는데요, 비슷한 규모의 5,000개 초과 10,000개 미만인 총 49개 업종을 대상으로 다시 분포를 활용한 분석을 했습니다.
아래 히스토그램은 PC방을 기준으로 했을 때 당구장의 왜도, 첨도값보다 더 큰 업종 관계를 나타낸 것입니다. 전체 2,352개를 분석했으나, 지면상 순서에 관계없이 42개 업종만을 나열했습니다.
5,000개 초과 10,000개 미만인 총 49개 업종의 최근접거리 분포를 확인한 결과 0에 데이터가 몰려 있는 모습과 왼쪽 상단에서 오른쪽 하단으로 내려오는 모습의 두 가지 패턴을 확인할 수 있는데요, 데이터가 0에 몰린 업종은 여성의류점, 아동복, 시계/귀금속 등 의류 및 액세서리 관련 업종으로 한 건물에 위치한 비율이 높게 나타난 것으로 해석할 수 있습니다.
정말 그런지 데이터를 살펴보니, 백화점, 아울렛과 같은 건물에 위치한다는 것을 확인할 수 있었는데요. 특정 목적에 따라 한 건물에 위치한 경우는 PC방과 당구장의 성격과 구분하여 분석이 필요하다고 판단해 분석 데이터 범위에서 제외했습니다.
마찬가지로 한 건물에 위치한 데이터를 제외하고 PC방을 기준으로 했을 때 당구장의 왜도, 첨도값보다 더 큰 업종 관계를 나타낸 히스토그램인데요, 모두 오른쪽 꼬리가 길게 나타나는 동일한 패턴 분포를 보였습니다.
오락 관련 업종과 음식점, 술집(PC방-소주방/포장마차, 당구장-족발/보쌈, 당구장-피자전문)과의 분포가 왼쪽으로 치우치고 더 뾰족하게 나타나기에 가까이 있다고 볼 수 있습니다. 고기 음식점과 술집도 비슷한 분포를 보여 가까이 위치(곱창양구이-족발/보쌈, 곱창양구이-소주방/포장마차)한다는 사실을 확인했습니다.
마지막으로 49개의 업종끼리의 최근접거리를 구한 데이터 2,352개에서 최근접거리 최종 점수를 순위로 산출, PC방과 당구장이 근거리에 있는지를 파악해보겠습니다.
각각 업종1과 업종2 기준 720m 내 분포 경향을 바탕으로 구한 왜도와 첨도값의 순위와 평균 도보 시간을 분석하여 얻은 순위를 나열하고 이 평균값으로 최종 순위를 산출했습니다.
전체 업종의 순위를 봤을 때 음식점, 술집끼리의 순위가 높은 경우가 많았어요. 유사 규모의 업종 사이에서는 PC방에서 가장 가까운 업종은 족발/보쌈 전문점이고 당구장에서 가장 가까운 업종은 소주방/포장마차였습니다. 유사 규모의 업종으로 분석 범위를 확대 했을 때 PC방, 당구장 기준으로 가까운 곳은 서로가 아니었습니다. 그래도 당구장을 기준으로 했을 때 PC방은 종합순위 11위로 음식점, 술집 등을 제외하고 가장 높은 순위를 차지했습니다.
당구장 기준 PC방의 최근접거리는 원 데이터의 2,352개 업종 관계 가운데 종합순위 11위(상위 0.46%)를 차지할 정도로 가깝다고 볼 수 있습니다. 가장 처음에 세운 가설이 맞았네요!
에디터의 한마디
지금까지 통계 기법을 활용해서 ‘당구장 근처에는 PC방이 있다?’는 가설을 검증하는 과정을 살펴봤습니다. 수집한 데이터의 변수를 재조합해서 새로운 변수를 만들고 통계 분석 기법으로 데이터를 분석하는 과정이 어떠셨나요?
이번 데이터 분석에서 경도와 위도 데이터를 가지고 단순하게 지도 시각화를 만드는 것이 아니라 거리 분석까지 확장하는 과정이 인상적이었는데요, 조금 생소할수도 있지만 데이터 분석을 통해 문제를 발견하고 해결책을 찾는데는 통계 지식이 매우 유용한만큼 데이터 분석과 통계는 떼려야 뗄 수 없는 관계입니다.
이번 글이 여러분의 데이터 분석의 범위를 넓히는데 도움이 되었기를 바라며, 앞으로도 다양한 데이터 분석 기법을 통해 새롭고 재미있는 인사이트를 도출하는 과정을 소개할 예정이니 기대해 주세요!
Editor. 귤젤리