#19 공공 데이터 해외기사 – 우리는 새로운 오픈소스가 되기 위하여 오픈 데이터가 필요하다

On 3월 23, 2015

#19 공공 데이터 해외기사 – 우리는 새로운 오픈소스가 되기 위하여 오픈 데이터가 필요하다

안녕하세요 뉴스젤리입니다.
이번 해외 기사는 공공 데이터와 관련된 기사입니다.

<COMPUTERWORLD>

Lukas Biewald

2015년 3월 16일자 기사

우리는 새로운 오픈소스가 되기 위하여 오픈 데이터가 필요하다

1

오픈 소스 운동은 기술을 진보시키는 가장 강력한 힘 중 하나이다. 스타트업 기업들은 벤쳐캐피털로 막대한 돈을 벌었다. 오늘날 어느 작은 스타트업이라도 세계에서 가장 훌륭한 도구에 접근할 수 있다.

그러나 오픈 데이터의 부족은 여전히 심각하게 혁신을 늦추고 있으며, 데이터가 점점 더 중요해질수록 문제 역시 심각해지고 있다.

예를들어, 혁신적인 예측 분석 기업이 순조롭게 시작하는 것이 얼마나 힘들것인지를 생각해보라. 그들이 소프트웨어를 가지고 있지 않아서가 아니라, 데이터가 없기 때문에 어려운 것이다. 이미 몇몇개의 훌륭한 오픈 소스 프로젝트가 있지만, 사용가능한 데이터의 부족은 어떤 도메인에 있는 알고리즘을 시험하거나 훈련시킬 때 큰 문제가 된다.

경영자가 e커머스 회사를 시작할때도 똑 같은 상황이다. 높은 수준의 검색 엔진이 e커머스 분야에서는 매우 중요하고, Lucene과 같은 훌륭한 검색 인프라를 구축할 수 있는 충분한 도구들을 갖추고 있다. 그러나, 그것을 시험하고 훈련해볼 수 있는 관련 데이터 묶음이 없는 것이 현실이다.

말하고자 하는 것은 바로 이것이다. 똑똑하고, 창의적이지만 가치있는 일을 해낼 수 있는 도구를 가지지 못한 데이터 공학자가 저 밖에는 많이 있다. Netflix가 영화 집계 알고리즘을 위해 경연을 열었던 것을 기억하는가? 수많은 솔루션들이 제출되었고, 모든것들이 100,000,000줄을 가진 데이터 묶음에 기반한 것이였다. Netflix는 결국 만달러의 상금을 그들의 알고리즘을 이긴 데이터 공학자 팀에게 주었다.

그 상이 수여된 지 5년이 지난 지금까지도 Netflix의 데이터 묶음은 컴퓨터 공학 연구에서 꾸준히 사용되고 있다. 3000개 이상의 논문이 그것에 대하여 언급했다. 그리고 그 논문의 대부분이 그 경연이 끝난 뒤에 쓰여진 것이다. 이것은 무비 데이터가 컴퓨터 공학 연구에 있어서 중요하기 때문이 아니다. 단지, 훌륭한 품질의 이용가능한 데이터 묶음이 없기 때문이다. 그 경연은 중요한 것이 아니였다. 데이터를 세상에 배포했다는 것이 진짜 가치이다.

2

개인적으로, 나는 내가 대학교때나 나의 첫번째 스타트업에서 Netflix의 데이터를 이용할 수 있다면 기쁠 것이다. 실제 세상에는 많은 데이터 묶음이 존재하지 않는다. 사실, 우리의 연구는 가능한 데이터 묶음에 기반하는 경우가 많고, 그 데이터들은 대부분 아주 작거나 실제 세계와의 연관성이 적은 경우가 대부분이다.

그리고 현실은 지금까지 대부분의 빅데이터 묶음들이 회사의 데이터 창고에 잠겨있기 때문에 학생들이나 연구자들이 빅데이터에 대한 연구를 진행하는 것이 여전히 어렵다.

더 크고 팔팔한 많은 데이터가 있어야만 이러한 모든 문제를 해결할 수 있다. 이것은 스타트업이 알고리즘을 단련시킬 수 있도록 도와줄 것이다. 또한 이것은 연구자들이 사이버 왕따나 재해 응답 속도와 같은 중요한 이슈들에 대하여 더 많은 자료를 얻을 수 있도록 할 것이다. 이것은 정말로 훌륭한 소프트웨어를 더 쉽게 만드는데 중요한 도움이 될 것이다.

정부가 data.gov와 같이 데이터를 배포하기 위한 노력을 시작했다는 것은 참 재미있다. 아마존은 무료로 재미있는 데이터 묶음을 제공하고 있으며, UC lrvine과 같은 대학들 역시 그들의 연구소에 있는 소중한 데이터 묶음을 공개하고 있다. 또한 Enigma.io와 같은 스타트업도 회사들이 공공 데이터를 사용하는 것을 돕기 위하여 나타났다.

그럼에도 불구하고 우리에게 가장 필요한 것은 오픈 소스 데이터 프로젝트에서 볼 수 있듯이 회사들이 상업적인 데이터 묶음을 공유하기 시작하는 것이다. 적은 수의 회사들이 이러한 움직임을 시작한다면, 그 이점은 또 다른 참여를 고무시킬 것이고 우리는 막대한 혁신을 이뤄낼 수 있을 것이다.

 

빅데이터, 공공데이터, 소셜데이터로 말랑한 뉴스를 전달하는 뉴스젤리

http://newsjel.ly/

  • By 뉴스젤리  0 Comments   
  • 공공데이터, 데이터, 데이터스토리텔링, 시각화, 오픈소스

    0 Comments

    Leave a Reply

    이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.

    2 × 4 =