
データサイエンスの世界に足を踏み入れるきっかけとして、Kaggleは多くの初心者にとって非常に魅力的なプラットフォームです。中でも「Kaggle Playground Series」は、比較的軽量なテーブルデータのコンペティションとして、初めてKaggleに挑戦する人向けに最適な環境を提供しています。
本記事では、私が上位入賞しSwag(オリジナルグッズ)を手にするまでの道のりと、そこから学んだ経験について綴ります。
Kaggle Playground Seriesとは?
Kaggle Playground Seriesは、初心者向けに設計されたテーブルデータのコンペです。
- 初心者向け:比較的軽量な競技形式で学ぶことができるため、初学者でも参加しやすい構成になっています。
- 軽量なデータセット:大規模な画像やテキストデータと比べ、比較的扱いやすいテーブルデータが提供され、Kaggleの基礎を固めるのに適しています。
Swag獲得の条件
このコンペでは、Swagを獲得できるルールが設定されています。
- 上位3名が対象:ただし、既にSwagを受け取っている人は対象外となるため、コンペでの順位に加え、既得権を考慮したルールが適用されています。
- 私の順位は6位:一見、6位という順位では獲得が難しいように思えますが、ルールにより上位3名のうち既にSwagを受け取った人がいたため、最終的に私もSwagを受け取ることができました。
私の軌跡:Swag獲得まで
2024年11月
- 過去の挫折:3年前にKaggleのアカウントを作成したものの、最初は何も分からず1ヶ月で挫折してしまいました。
- 再挑戦:昨年度11月初旬、時間ができたことをきっかけに、KaggleとPythonの学習を再スタート。最初はforループなどの基礎しか理解しておらず、ライブラリの知識も皆無でした。
- 公開Notebook読み込み:他の参加者のNotebookをひたすら読み、ChatGPTにコードの意図を尋ねながら、基礎から学び直しました。特に、CVの仕方やXGBoost、CatBoost、LightGBMの存在に触れ、テーブルデータに対して有効な戦略をなんとなく理解していきました。
- 結果:11月のPlayground Seriesコンペでは283/2685という結果に。
2024年12月
- Discussionの活用:コンペ中、KaggleのDiscussionを見る習慣をつけたり、以前のコンペのトップソリューションを複数読み流すことで、モデリングの流儀について徐々に理解を深めました。思いついたことを全て実験することの重要性を知り、スコアも上昇傾向に。
- 結果:12月には順位が6/2390と大きく向上。
2025年1月
- 時系列解析への挑戦:初めて取り組む時系列解析の分野に挑戦。何をどうすれば良いか全くの初心者だったため、まずは過去の似たコンペのトップソリューションや、公式のtime seriesチュートリアルを徹底的に学習。
- 一時の成功と挫折:一時はPublic LBで3位まで登り詰めるも、微調整を繰り返しても解決できない問題に直面。最終的な順位は12/2722となり、もし最良の結果を選んでいたなら2位に食い込めていたため、非常に悔しい思いをしました。
SolutionをDiscussionに投稿し金メダルを獲得。
2025年2月
- Discussion等への参加:Discussionへの投稿やNotebookの公開に本格的に取り組み始め、2つのNotebookが銀メダル、Discussionで1つの金メダルを獲得。
- 最終追い込み:Public LBの順位は芳しくなかったものの、最終日の粘りにより6/3393まで順位を上げる。上位6人中3人がすでにSwagを獲得していたため、私にもSwagが流れてくる結果となりました。
- 複雑な気持ち:最終順位としては嬉しい結果とは言い切れない部分もありましたが、これまでの努力が報われた瞬間でした。
学び続けることの大切さ
この経験から改めて感じたのは、「粘り強く、楽しんで学び続けること」の重要性です。何を当たり前のことを、と思うかもしれませんがスコアを上げるにあたって最も重要なことだと思います。
KaggleのDiscussionや公開Notebookには、市販の教材以上に実践的で深い知見が溢れています。興味を持った内容については、まずは他の人の実装を読み込み、自分でも試行錯誤を重ねる。その中で自分でも公開したりDiscussionに参加することで理解を深めていくことが実践力向上の近道なのではないかと思います。
これからも、新たな挑戦を楽しみながら、日々の学習を続けていきたいと思います。
コメント