< 부산소녀의 데이터 시각화 도전기 >
Episode 3 : 데이터는 어디서 가져올 수 있을까?
안녕하세요 여러분?
부산소녀입니다!
지난 2화에서는 데이터 시각화에 필요한
유용한 시각화 툴들을 소개 드렸죠?
그렇다면 이 툴을 사용하여
원하는 데이터 시각화를 구현하는데 필요한 건 바로~?
‘데이터’!!
여기서 말하는 데이터는 원본 데이터,
혹은 raw data라고도 해요.
데이터 시각화 작업을 하기 위해서는
raw data가 필요하답니다!^^
저도 처음에 원하는 주제에 맞는 원본 데이터를
과연 어디서 어떻게 찾을 수 있을지… 한참을 헤매었죠 ㅠ_ㅠ
그러다 발견한 사실!!
정부에서 공공데이터 개방을 적극적으로 추진한 덕분에,
각 시도별로 굉장한 양의 데이터를
다양한 사이트를 통해 제공하고 있었다는 것!!
그렇다면, 함께 알아볼까요?!
1.국가통계포털(KOSIS)
첫 번째로 소개할 곳은 ‘국가통계포털(KOSIS)’입니다!
국가 전체의 가장 방대한 자료가 모여있는
통계청의 핵심 서비스 중 하나랍니다.
인구, 임금, 물가, 교통 등
크게 16개 분야별 국내 통계자료를 보유하고 있어요!
크게 국내통계 / 지역통계 / 국제•북한통계로 나누어져 있는데요!
이 중 ‘국내통계’로 들어가볼까요?
주제가 정해져 있다면 특정 주제에 해당하는 하위 카테고리를 찾아서
원하는 정보를 찾아도 되고 (‘주제별통계’),
만약 특정 기관의 정보를 얻고 싶다면
‘기관별 통계’에 들어가서 해당 기관의 정보를 찾으면 되겠죠?
이번에는 ‘국제•북한통계’로 들어가볼까요?
‘OECD 회원국별’ 자료 중 ‘국토면적’을 클릭 해보았더니,
다음과 같은 화면을 확인할 수 있네요.
해당 년도 별로 각 나라의 총 국토 면적, 육지 면적을 보여주고
그 중 농경지 또는 비농경지가 차지하는 크기는 얼마인지 등을
확인할 수 있는 자료네요!
표의 우측 상단에 위치한 아이콘들이 보이시나요?
해당 아이콘을 클릭하면
① 차트로 데이터를 볼 수도 있고
② 데이터를 스크랩을 할 수 있으며,
③ 파일을 다운로드 할 수도 있어요!
위의 화면에서 빨간네모박스로 표시한 부분 보이시나요?
이 항목들을 조절해서 필터처럼 사용할 수 있어요!
만약 남아메리카를 제외한 데이터만 얻고 싶다면
박스체크해제를 통해 제외시킬 수 있고
원하는 특정 국가들만 포함시킨 데이터를 얻는 것도 가능하겠죠?
2. e-나라지표
e-나라지표 역시 통계청에서 제공하는 핵심 서비스입니다.
국가통계포털(KOSIS)와 뭐가 다른지 궁금하시다구요?
e-나라지표는 여러 종류의 데이터 중에서
국민의 관심이 크고,
주요 정책 수립에 긴요하게 활용될 수 있는 성과(outcome) 중심 지표인
경제/사회/환경 3분야의 핵심 통계를 제공하는 것을 목표로 합니다!
한마디로,
수많은 분야의 방대한 통계자료 중에서
핵심적인 몇 개 분야에 대한 통계자료만을
이해하기 쉽고,
보기 좋게 정리해둔 사이트입니다^^
저는 ‘출산율’에 관한 데이터를 살펴보았어요.
그래서 ‘부문별지표’ 중 ‘사회’ 부문을 클릭하여
해당하는 데이터를 찾았습니다!
(해당 부문을 모르더라도 검색 창에 키워드를 검색해보면
바로 데이터를 얻을 수 있겠죠?)
클릭하면 상세한 데이터를 보여주는 화면으로 이동합니다.
우선 출산율에 관한 raw data는 물론이고
보기 좋은 차트가 동시에 제공됩니다!
이를 바탕으로 시각화 작업 이전에
데이터에 대한 대략적인 정보를 얻을 수 있겠죠?
이 뿐 아니라,
지표의 정의와 측정방법, 데이터 해설, 용어해설까지 한번에 제공한다는 것!!
혹 ‘출산율’이라는 지표가 갖는 의미에 대해
정확한 이해가 부족하더라도
데이터를 찾는 과정에서 이용자가 보다 심도 깊게 이해할 수 있도록
많은 도움을 주고 있네요^^
사실 이 기능은 앞서 소개한
‘국가통계포털’ 에서도 제공하고 있답니다.
다만, 한번 더 클릭해야만 세부해설을 확인할 수 있는 ‘국가통계포털’과 달리,
‘e-나라지표’에서는 데이터를 확인하는 동시에
바로 자세한 해설을 볼 수 있다는 게 차이점이겠네요.
이보다 더 큰 두 포털의 차이는 바로,
‘의견 및 질문’ 게시판입니다!
데이터와 관련된 문의사항이나 질문을 올리면
이에 대한 답을 받을 수 있답니다!^^
위의 예시를 살펴볼까요?
‘출산율에서 다문화가정의 자녀가 차지하는 비율은 얼마인지’,
‘어떤 방식으로 합계출산율을 도출했는지’ 등등…
사람들이 다양한 문의사항을 올려두었네요^^
데이터에 대한 질문을 하고 해답을 얻을 수 있는 기능을
적극적으로 활용한다면 굉장히 유용하겠죠?
3. 공공데이터 포털
공공데이터포털은,
공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를
한 곳에서 제공하는 통합 창구입니다^^
포털에서는 사람들이 쉽고 편리하게 공공데이터를 이용할 수 있도록
파일데이터, 오픈API, 시각화 등 다양한 방식으로 제공하고 있습니다!
Tip) ‘오픈API’란?
API는, 쉽게 말해 가지고 있는 정보를 일정한 형식으로
사람, 기관 간에 정보를 공개해서
그 정보를 이용하거나, 프로그램을 만들 수 있게 하는 것입니다.
‘오픈API’란 모두에게 공개된 API를 말하겠죠?
오픈 API를 통해 버스, 지하철 노선 및 위치 정보를 가지고
일반사람들이 앱을 만들어 활용하는 것이
하나의 예시가 될 수 있겠네요^^
공공데이터포털에서 제공하는 오픈API 덕분에
사람들이 정보를 활용할 수 있는 폭이 보다 넓어지겠네요!
초기 화면 상단의 ‘데이터셋’ 중
‘파일데이터’ 항목을 클릭하면, 위와 같은 화면이 나타납니다.
다루는 주제가 다양하죠?
각각의 데이터 별로
제목(주제), 최종 업데이트 일자, 세부 정보,
파일형식(xls, csv, hwp 등)을 확인할 수 있는데요,
이 중에서 본인이 필요로 하는 자료를
원하는 형태로 다운받으면 됩니다.
다양한 데이터 중에서 저는,
제주도의 ‘환경오염정보’에 관한 데이터를 살펴보았어요.
관련 항목을 클릭하면 다음과 같은 화면을 확인할 수 있네요.
제시된 6개 항목 중에서
위의 두 데이터는 csv형태로 바로 다운 받을 수 있고,
그 아래 LINK로 표시된 데이터의 경우,
우측의 ‘바로가기’ 버튼을 누르면 관련 링크로 이동하게 됩니다!
앞서 제가 공공데이터포털은,
‘공공기관이 관리하고 있는 공공데이터를
한 곳에서 제공하는 통합 창구’라고 소개 드렸죠?
이 경우, 제주특별자치도의 행정정보공개시스템 페이지로 바로 연결이 되네요^^
여기서 데이터를 직접 다운 받을 수 있습니다!
어떤 데이터를 수집할 때,
해당 데이터를 확보할 수 있는 수집채널을
바로 제시해주는 시스템이라니!
굉장히 편리하네요^^
(http://opendata.busan.go.kr/)
제가 사는 부산에도 공공데이터포털이 있네요!
만약 부산에 관한 자료를 얻고 싶다면
‘부산 공공데이터포털’을 통해서 데이터를 수집하면 되겠죠?
사실, 어떤 주제의 데이터를 찾느냐에 따라
데이터 수집 채널은 달라질 수 있습니다.
앞서 소개해드린 사이트 3곳에서 보유하고 있는
공공데이터를 적극 활용할 수도 있지만
상황에 따라 국가통계포털/e-나라지표/공공데이터포털…이 아닌,
다른 곳에서 데이터를 찾고, 수집해야 하는 경우도 있을 것입니다.
따라서 이 경우,
각각의 기관마다 보유•관리하고 있는 데이터가 있기에
관련된 사이트를 적극적으로 찾아보는 것이 필요합니다!!
한 마디로, 필요한 데이터의 종류와 성격에 따라
데이터 수집 채널 또한 그때 그때 달라진다는 것을
알아두시길 바라면서!!
이번 3화를 마무리 하겠습니다.
다음 편에서는
지금껏 살펴본 데이터 시각화 툴과 데이터 수집을 통해
제가 직접 시각화 결과물을 만들어보는!! (과연…?)
그 도전의 시간을 여러분과 함께 할게요~
많이 지켜봐주세요^^!
(To be continued)
데이터 시각화 전문 기업, 뉴스젤리 http://newsjel.ly/
빅데이터 분석을 기반으로 데이터 시각화를 통해 말랑말랑한 아이디어로
세상을 보는 데이터 스토리텔링 콘텐츠
페이스북 주소 : www.facebook.com/newsjelly