공공데이터 분석 101
2023-10-23
챕터 1 모두를 위한 공공데이터
*본 이미지는 DALL·E 3를 통해 생성되었습니다.
1.1 서론
우리는 빅데이터와 인공지능의 시대를 살고 있습니다. 인류는 기술의 발전과 함께 수많은 데이터를 수집하고 보유하게 되었습니다. 이러한 데이터는 공공부문에서도 예외는 아닙니다. 정부 기관, 공공기관 및 비영리 단체는 국민의 생활에 영향을 미치는 다양한 분야에서 데이터를 수집하고 보유하고 있습니다. 그러나 그저 쌓여 있기만 한 데이터는 그 자체로는 가치가 없습니다. 죽어있는 데이터를 실제 세상에서 살아 움직이는 데이터로 만드는 일이 필요합니다.
하지만 공공데이터 분석은 그 자체로 쉬운 작업은 아닙니다. 데이터의 복잡성, 다양성, 크기 등이 도전 요인이 될 수 있습니다. 또한, 데이터의 개인정보 보호와 관련된 윤리적인 문제도 고려되어야 합니다. 따라서, 이 분야에서 활동하고자 하는 사람들은 데이터 분석 기술과 도구에 대한 이해뿐만 아니라 윤리적인 측면과 법적인 요구 사항에 대한 이해도 필요합니다. 본 교재에서는 공공데이터 분석에 대한 입문 지식을 제공하고, 분석을 위해 필요한 핵심 개념, 기술, 도구 등을 살펴볼 것입니다. 또한 공공데이터를 통한 의사결정과 문제해결에 대한 이해를 높이고자 합니다.
1.2 이 책의 목적지
이 책의 목적은 “데이터를 통한 보다 나은 의사결정”을 연습하는 것 입니다. 물론 데이터를 분석하며 세상의 비밀을 하나씩 찾아가는 행위 자체에서 오는 순수한 즐거움도 있고 가설을 확인하려는 목적도 있겠지만, 데이터는 결국 좋은 의사결정이라는 열매를 맺었을 때 가장 빛이 납니다. 작게는 오후에 비가 올거라는 예보 데이터를 기반으로 오늘 아침 우산을 챙겨나오는 것이나 주식 데이터를 보며 투자할 종목을 결정하는 것부터 국가의 중요한 정책 결정까지, 데이터는 불확실한 상황에서도 결정할 수 있는 용기를 줍니다. 하지만 생각보다 많은 사람들이 데이터에 압도되다 결국 본질을 잃곤 합니다. 달을 보라고 손가락을 들었더니 달은 보지 않고 손가락만 쳐다보고 있기도 합니다. 그럴수록 우리는 이 데이터 여정에서 길을 잃지 않기 위해 언제나 종착점을 주시하고 있어야합니다. 이 책이 결국 향하고자 하는 종착점의 이름은 “데이터에 기반한 좋은 의사결정”입니다.
Done is better than perfect – Sheryl Sandberg
이 책의 특징은 매우 얕은 지식입니다. 쓸모 있더라도 어려운 것들을 과감히 들어내려 노력했습니다. 그러니 가벼운 마음으로 시작하셔도 됩니다. 데이터가 소수의 전문가 손에 있을 때에 권력이 되지만, 보다 많은 사람들이 데이터로 생각하고 대화하고 결정하는 데 조금이나마 도움이 되길 바라며 이 책을 씁니다. 코드를 하나하나 따라 적으면 제일 좋겠지만 그저 ‘이런 코드를 넣으면 이런 결과가 나오는구나’ 정도만 생각하면서 읽어도 충분합니다. 완벽하게 하려 우물쭈물 하기 보다는 일단 여기까지 읽었으니 일단 시작해 보는 건 어떨까요?
1.3 공공데이터란 무엇일까?
공공기관은 누구든지 공공데이터를 편리하게 이용할 수 있도록 노력하여야 하며, 이용권의 보편적 확대를 위하여 필요한 조치를 취하여야 한다. – 공공데이터의 제공 및 이용 활성화에 관한 법률 제3조
공공데이터란 정부, 지방자치단체, 공공기관 등이 보유 및 공개하고 있는 데이터를 말합니다. 이는 국민의 세금으로 만들어진 데이터이기 때문에 국민 누구나에게 공개되며 자유롭게 이용할 수 있습니다. 이런 공공데이터는 정부의 투명성과 효율성을 높이는 데에도 도움이 됩니다. 이처럼 정부가 공공데이터를 공개함으로써 국민의 알 권리를 보장하고, 국민의 참여를 유도할 수 있습니다. 또한, 공공데이터를 공개함으로써 정부의 정책 수립과 집행을 투명하게 할 수 있습니다. 공공데이터는 정부와 국민이 함께 발전하는 데 중요한 역할을 합니다. 정부는 공공데이터를 공개함으로써 국민과 소통하고, 국민의 삶의 질을 향상시킬 수 있습니다. 또한, 국민은 공공데이터를 활용함으로써 정부의 정책 수립에 참여하고, 더 나은 사회를 만들 수 있습니다.
1.4 공공데이터를 분석 하는 이유
무엇보다 데이터 비즈니스 생태계에 마중물이 될 수 있습니다. 데이터 비즈니스에서 가장 어려운 점 중에 하나는 양질의 데이터 확보입니다. 데이터 확보하기 위해서는 기본적으로 인력이나 센서같은 장비가 필요합니다. 그리고 인력과 장비에는 많은 비용이 듭니다. 데이터를 정제하고, 인사이트를 찾아내고 문제를 해결하는건 데이터가 확보 이후에나 가능한 일들입니다. 하지만 우리는 대한민국 국민으로 태어났다는 이유만으로 정부나 공공기관이 인력과 자원을 들여 구축한 이 공공데이터를 아무런 비용 없이 사용할 수 있습니다. 공공데이터포털에 접속해보면 2023년 5월 기준으로 현재 1,016개 기관에서 58,398건의 파일데이터, 10,884건의 API 및 9,350건의 표준데이터를 제공하고 있습니다. (물론 엉망진창인 데이터도 종종 존재하지만) 대부분의 공공데이터는 정확하고 신뢰할 수 있습니다.
1.5 공공데이터 활용사례
공공데이터포털 활용사례에 접속하면 다양한 공공데이터 활용사례를 볼 수 있습니다. 전국의 버스정보를 실시간으로 제공하는 모바일 애플리케이션부터 날씨, 투자, 부동산, 교통, 환경, 병원, 의료, 교육, 문화, 관광, 미세먼지, 공기질, 식품, 안전, 범죄 등 우리의 실생활이 연결된 대부분의 분야에서 공공데이터를 활용한 서비스들이 존재합니다.
1.6 무엇을 배우게 될까?
우리는 크게 3가지를 배울 것입니다.
- 공공데이터의 이해: 공공데이터는 어떻게 개방되고, 어떤 데이터들이 어디에 위치하고 있는지, 데이터는 어떤 형태로 저장되어 있는지를 알아볼 것입니다.
- 분석언어(R)의 이해: 획득한 데이터를 탐색하고 분석하고 가공하는 방법에 대해 배울 것입니다. 본질적으로 데이터 분석은 인간의 사고를 통한 행위입니다. 특별한 툴이 우리의 사고를 대신해 줄 순 없지만, 보다 쉽게 만들어 줄 수는 있습니다.
- 데이터로 문제 해결하기: 실제 공공데이터 활용 프로젝트를 함께 수행해보며, 데이터 기반의 문제해결에 대해 연습해 보겠습니다. 데이터와 AI만으로 우리 사회의 모든 문제를 해결할 순 없겠지만, 데이터는 길을 알려줄 것입니다.
1.7 R을 사용하는 이유
데이터 분석을 위해서는 어떤 툴이나 언어를 사용해야 할까요? 결론부터 이야기 하자면 시작하는 단계에서는 어떤 것이든 상관이 없습니다. 현실의 문제는 특정한 언어나 도구만으로 풀리지도 않을 뿐더러 모로가도 서울만 가면 된다고 일단 재밌고 꾸준히 할 수 있는게 더 중요합니다. 실제 데이터 분석의 슈퍼스타인 네이트실버가 만든 페코타(메이저리그 성적 예측 시스템)라던지 대선예측시스템은 아주 어려운 프로그래밍이 아닌 엑셀로 만들어 졌다고 합니다. 많은 사람들이 사용하는 Excel과 Google Spread Sheet과 같은 간단한(?) 툴 부터 SAS, SPSS 같은 상용 툴, python이나 julia 같은 언어들이 있지만 우리는 R을 사용할 것입니다. R은 통계 분석과 데이터에 특화된 언어입니다. 통계 및 머신러닝을 쉽게 만들어주는 여러 라이브러리를 제공하며, 데이터 분석 및 시각화를 위한 다양한 패키지들이 제공됩니다.
R은 회귀분석, 시계열 분석, 다변량 분석, 생존 분석, 클러스터링 등 다양한 통계 모델링 기법을 지원하는데 이는 통계학이나 사회과학, 의학, 자연과학과 같은 다양한 분야의 연구에서 폭넓게 사용됩니다. 특히 R은 통계학과 데이터 과학자, 많은 학계와 연구 커뮤니티에서 널리 사용됩니다. R은 통계적인 기법과 분석 방법에 대한 최신 연구에 대한 업데이트가 빠르며, 통계학자와 데이터 과학자들이 개발한 패키지와 코드를 공유하고 사용할 수 있습니다.