캐클이란?
“캐글(Kaggle)은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 3월 구글에 인수되었다.”(출처 : 위키백과)
최근 데이터 사이언스에 관심을 갖게 되며 캐글을 알게되었습니다. 캐클이란 데이터 사이언스를 공부하는 사람들을 위한 경진대회 플랫폼이라고 할 수 있습니다. 캐글에서는 현실세계에 존재하는 다양한 데이터 셋을 얻을 수도 있고, 또 많은 경진대회에 참여하며 데이터 사이언스를 공부 할 수 있습니다. 이제 막 시작 한 단계라 와닿지는 않지만 이는 차차 공부하면서 알아보도록 합시다!
캐글은 R과 Python으로 작성 할 수 있는데 언어가 고민된다면 다음글을 참고하여 자신에게 맞는 언어를 선택하세요.
또한, 캐글을 시작하는 초보자를 위한 팁을 얻고 싶다면 다음 글을 참고하면 좋습니다.
캐글 시작하기
1. 가상환경 설정하기
우선 저는 맥 OS 환경에서 진행했습니다.
또한, 기존 환경에 영향을 주지 않게 하기 위해 가상환경에서 진행하도록 하겠습니다.
/* jupyterVirtual이라는 가상환경 셋팅 */
$ python3 -m venv jupyterVirtual
/* 가상환경 실행 */
$ source jupyterVirtual/bin/activate
아래와 같이 자신이 설정한 이름의 가상환경이 괄호()안에 나타난다면 정상적으로 가상환경이 실행되고 있는 것 입니다.
2. 가상환경에 캐글 설치하기
가상환경을 성공적으로 실행했으면 가상환경 안에 캐글을 설치해야합니다.
현재 저의 상태는 위와같이 가상환경이 실행되고 있는 상황입니다.
/* 캐글 설치 */
$ pip install kaggle
3. API Token 및 권한 설정하기
또한 캐글 API를 사용하기 위해서는 API 토큰이 필요합니다. 이를 발행하고 올바른 경로로 이동시켜 줍시다!
캐글(https://www.kaggle.com/) 홈페이지 상단 오른쪽을 클릭하여 My Account로 이동합니다.
하단에 보면 API - Create New Token이 보입니다.
이를 다운받은 뒤 맥 사용자는 ~/.kaggle/kaggle.json 에,
윈도우 사용자는 C:\Users\<Windows-username>\.kaggle\kaggle.json 로 다운받은 파일을 이동시켜줍니다.
이 사용자만 read하고 write 할 수 있도록 json파일의 권한을 바꿔줍시다.
chmod에 대해 모르시는 분이 있다면 이 글을 참조하시기 바랍니다.
$ chmod 600 ~/.kaggle/kaggle.json
캐글에서 확인하는 코로나 바이러스
놀랍게도 코로나 바이러스와 관련된 데이터와 대회를 캐글에서 확인 할 수 있습니다.
$ kaggle competitions list -s covid
현재 두개의 대회가 진행되고 있는 것을 확인 할 수 있네요.
대회말고 dataset 도 확인해 봅시다.
$ kaggle datasets list -s covid
여기서 눈에 띄는게 하나 있습니다. 가장 상단의 데이터셋을 주목해주세요.
한국의 코로나 바이러스 데이터 현황을 올려놓은 것 입니다.
이미 한국의 많은 데이터 사이언티스트들은 발빠르게 이곳에 기여하고 있었습니다!
홈페이지에서 한번 이를 확인해보죠.
올려진 파일들을 보시면 환자정보, 환자의 이동 경로, 케이스, 시간등을 확인할 수 있는 것으로 보입니다.
혹시 더 많은 정보가 궁금하시다면 직접 다운받아 확인해보시는 것을 권장합니다.
캐글은 앞으로 활용 가능성이 더 무궁무진할 것 같네요.
Reference
- https://www.facebook.com/story.php?story_fbid=2272737092766126&id=100000895736862&ref=bookmarks
- https://subinium.github.io/kaggle-tips/
- http://www.incodom.kr/Linux/%EA%B8%B0%EB%B3%B8%EB%AA%85%EB%A0%B9%EC%96%B4/chmod
- https://www.kaggle.com/kimjihoo/coronavirusdataset
댓글