Google ColabでKaggleのデータセットをダウンロードする方法

お役立ち情報

今回は、Kaggleのデータを直接Google Colabにダウンロードし、その後Colab上で作業するための手順をわかりやすくご紹介します。APIキーの取得から、Colabへの設定、データのダウンロードと解凍まで、初心者でも迷わず進められるようにステップバイステップで説明します。


1. Kaggle APIキーの取得

まず、KaggleのデータにアクセスするためにAPIキーが必要です。

  1. Kaggleにログインし、右上のアカウントアイコンをクリックします。
  2. 自分のプロフィール画面に遷移するので、下画像の”Settingへ”

3.「API」セクションまで下にスクロールし、「Create New Token」をクリックすると、kaggle.jsonというファイルが自動的にダウンロードされます。
※ 以前のtokenが使用できなくなるよ〜って警告が出ますが、”Continue”で問題ありません。


2. ColabにAPIキーをアップロードする

Google Colabで作業するため、まずはkaggle.jsonをColabにアップロードします。
以下のコードセルを実行し、ローカルからkaggle.jsonを選択してアップロードしてください。

from google.colab import files
files.upload()

↓画像のように”Choose Files”と出るので、これをクリックして先ほどのkaggle.jsonをアップロードします。


3. Kaggleディレクトリの作成と設定

アップロードしたkaggle.jsonを適切な場所に移動し、権限を設定します。
以下のコードを実行してください。

!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

これで、Kaggle APIがColab上で認証できる状態になりました。


4. Kaggle CLIの動作確認

次に、Kaggle CLIが正しく動作しているか確認しましょう。以下のコマンドを実行すると、利用可能なコンペティション一覧が表示されます。

!kaggle competitions list

5. データセットのダウンロード

今回は、例として「playground-series-s5e2」コンペのデータをダウンロードします。以下のコマンドを実行してください。

!kaggle competitions download -c playground-series-s5e2

ダウンロードが完了すると、同名のZIPファイルがColabのワークスペースに保存されます。


6. ダウンロードファイルの解凍

ダウンロードしたZIPファイルはそのままでは中身にアクセスできないため、解凍が必要です。以下のコマンドで解凍してください。

!unzip playground-series-s5e2.zip

解凍が完了すると、必要なデータファイルがColab上で利用できるようになります。


まとめ

以上の手順で、Google Colab上でKaggleのコンペティションデータセットをダウンロードし、作業環境を整えることができます。

  • Kaggle APIキーを取得し、Colabにアップロード
  • Kaggleディレクトリに設定して認証完了
  • Kaggle CLIでデータセットをダウンロードし、解凍する

これで、Colab上でダウンロードしたデータを使って、自由にデータ解析やモデルの作成を始めることができます。ぜひ試してみてください!


コメント

タイトルとURLをコピーしました