解説 カテゴリ変数エンコーディング4手法 ~ ワンホット、ラベル、ターゲット、Embedding ~ 機械学習モデルにおいて、カテゴリ変数の扱いは非常に重要です。今回は、以下の4つの手法について、その直感的な考え方、メリット・デメリット、どのようなモデルや状況に適しているかを解説し、実際の実装コードも交えてご紹介します。 2025.03.02 解説
解説 Target Encodingとは?~GBDTに対して強力なエンコーディング手法~ 機械学習モデル、特にGBDT(Gradient Boosting Decision Tree)では、カテゴリ変数の処理が精度に大きく影響します。そこで注目されるのがTarget Encodingです。Target Encodingとは、カテゴリ変数を目的変数の統計量(例:平均、最大値、最小値、標準偏差など)に置き換える手法です。 2025.03.02 解説
解説 【解説】CatBoostとは?〜カテゴリ変数を活かしながらデータリークを防ぐ最先端勾配ブースティング〜 CatBoostは、Yandex社が開発した勾配ブースティングライブラリで、特にカテゴリ変数の取り扱いに優れたアルゴリズムとして注目されています。CatBoostは、他のGBDT系アルゴリズムと同様の枠組みを持ちながら、独自のエンコーディング手法を導入し、ターゲットエンコーディングに伴う「データリーク」(ターゲット情報の不適切な漏洩)を防止する工夫が施されています。本記事では、CatBoostの特徴や技術的背景、特にカテゴリ変数処理の際のデータリーク対策、そして実装例について詳しく解説します。 2025.03.02 解説
解説 【解説】LightGBMとは?〜高速・柔軟な勾配ブースティングの実現〜 LightGBMは、Microsoftが開発した勾配ブースティング(GBDT)に基づくライブラリで、特に大規模データや高次元データの学習に適した高速かつメモリ効率の良い手法です。LightGBMは、従来のGBDTの枠組みを踏襲しながらも、独自の技術を組み込むことで計算効率や予測精度を向上させています。さらに、ブースティングの方式として「gbdt」「dart」「goss」の3種類を選択でき、データの性質やタスクに応じた柔軟な運用が可能です。 2025.03.01 解説
解説 【解説】XGBoostとは?〜eXtremeなGBDT〜 XGBoost(eXtreme Gradient Boosting)は、GBDT(Gradient Boosting Decision Tree)の基本枠組みを採用しつつ、さまざまな改良を加えた手法です。ここでは、まずGBDTの基本的な考え方を簡単におさらいし、続いてXGBoostがどのように改良され、実務やコンペティションで高い評価を受けているのかを詳しく解説します。さらに、XGBoostには大きく分けて2種類のAPI(train API と sklearn 風 API)が存在するため、それぞれの実装例も合わせて紹介します。 2025.03.01 解説