はじめに
ニューラルネットワーク(以下、NN)を構築するとき、層数やドロップアウト率をどう設定すればいいか悩んだ経験はありませんか?
実際、これらは過学習を防ぎつつ表現力を高めるための重要なパラメータです。ドロップアウト率や層数だけではなく、NNの精度には学習率や活性化関数、バッチサイズなど、多くの要素が複雑に絡み合っています。
この記事では、以下の流れで解説します。
- さまざまな層数とドロップアウト率の組合わせを実験する方法
- 実験コードの例と結果の可視化・比較方法
- さらに考慮すべき要素(他の正則化や最適化アルゴリズムなど)
どこか一部でも皆さんの参考になれば幸いです。改善点やご意見があれば、ぜひコメントいただけると嬉しいです!
なぜ層数とドロップアウト率が重要か
- 層数(Depth)
NNの層数を増やすほど、モデルはより複雑なパターンを学習できます。しかし同時に、パラメータ数が増加し、過学習のリスクや学習の難易度も上がります。 - ドロップアウト率(Dropout Rate)
過学習を防ぐために、学習時に一部のニューロンを無効化する手法です。- 大きめのドロップアウト率: 過学習を強く防ぐが、学習能力が落ちる場合がある。
- 小さめのドロップアウト率: 過学習が起きやすくなるが、モデルの表現力を高く保ちやすい。
層数やドロップアウト率の設定は、互いに影響し合う要素です。たとえば、層数を増やしたら過学習しやすくなるため、ドロップアウト率を上げるなどの調整が必要になるケースもあります。
実験コード例:層構成とドロップアウト率の網羅的検証(分類)
ここでは、実際に層数やドロップアウト率を変えてAUCスコアを比較する実験コードのサンプルを紹介します。
実験の流れ(一例)
- 複数の層構成を定義
- たとえば
[128, 64]
や[128, 64, 32]
といった形で、ユニット数を組み合わせてリスト化。
- たとえば
- ドロップアウト率の候補を定義
- 0.1、0.2、0.3などを用いて、2層なら2つのドロップアウト率、3層なら3つのドロップアウト率を組み合わせる。
- RepeatedStratifiedKFold でクロスバリデーション
- n_splits=10、n_repeats=3 などにより、合計30回の学習・検証を行う。
- AUCスコアを記録し、DataFrameに格納
- どの層構成&ドロップアウト率が最も高いAUCを達成したかを簡単に比較できる。
コードサンプル
Python
import numpy as np
import pandas as pd
import itertools
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.metrics import roc_auc_score
import tensorflow as tf
from tensorflow.keras import layers, regularizers
# 層構成(2層と3層の例)
layer_configs = [
[128, 64],
[128, 64, 32],
]
# 2層用、3層用でドロップアウト率を網羅的に生成
dropout_rates_2_layers = list(itertools.product([0.1, 0.2, 0.3], repeat=2)) # 3^2=9通り
dropout_rates_3_layers = list(itertools.product([0.1, 0.2, 0.3], repeat=3)) # 3^3=27通り
def build_dnn_model_per_layer(input_dim, layer_sizes, dropout_rates, l2_reg=1e-4):
if len(layer_sizes) != len(dropout_rates):
raise ValueError("Mismatch in length of layer_sizes and dropout_rates.")
model = tf.keras.Sequential()
model.add(layers.Input(shape=(input_dim,)))
for size, d_rate in zip(layer_sizes, dropout_rates):
model.add(layers.Dense(size, activation='relu', kernel_regularizer=regularizers.l2(l2_reg)))
model.add(layers.Dropout(d_rate))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(
optimizer='adam',
loss='binary_crossentropy',
metrics=[tf.keras.metrics.AUC(name='auc')]
)
return model
def run_cv_for_config(X, y, layer_sizes, dropout_rates, folds=10, repeats=3, l2_reg=1e-4):
rkf = RepeatedStratifiedKFold(n_splits=folds, n_repeats=repeats, random_state=42)
oof_preds = np.zeros(len(X))
for train_idx, val_idx in rkf.split(X, y):
X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]
model = build_dnn_model_per_layer(
input_dim=X_train.shape[1],
layer_sizes=layer_sizes,
dropout_rates=dropout_rates,
l2_reg=l2_reg
)
early_stopping = tf.keras.callbacks.EarlyStopping(
monitor='val_auc',
patience=5,
restore_best_weights=True,
mode='max'
)
model.fit(
X_train, y_train,
validation_data=(X_val, y_val),
epochs=100,
batch_size=32,
callbacks=[early_stopping],
verbose=0
)
val_preds = model.predict(X_val).ravel()
oof_preds[val_idx] = val_preds
return roc_auc_score(y, oof_preds)
# 結果を格納
results = []
for config in layer_configs:
if len(config) == 2:
# 2層用
for d_rates in dropout_rates_2_layers:
auc_score = run_cv_for_config(X, y, config, d_rates)
results.append({'layer_config': config, 'dropout_rates': d_rates, 'auc_score': auc_score})
elif len(config) == 3:
# 3層用
for d_rates in dropout_rates_3_layers:
auc_score = run_cv_for_config(X, y, config, d_rates)
results.append({'layer_config': config, 'dropout_rates': d_rates, 'auc_score': auc_score})
df_results = pd.DataFrame(results)
print(df_results.sort_values(by='auc_score', ascending=False).head(10))
上記のようなコードを実行することで、
- 層構成:2層 or 3層
- ドロップアウト率:各層 0.1~0.3
のすべての組み合わせを試し、AUCスコアを比較できます。
その他に考慮すべき要素
層数とドロップアウト率以外にも、ニューラルネットワークの性能や学習安定性に大きく影響する要素があります。代表的なものをいくつか挙げます。
層ごとのユニット数を変える
Python
# 例: ユニット数を増やして表現力を高める
model = keras.Sequential([
layers.Input(shape=(input_dim,)),
layers.Dense(256, activation='relu'), # 256ユニット
layers.Dense(128, activation='relu'), # 128ユニット
layers.Dense(1, activation='sigmoid')
])
- ポイント: 大きいユニット数ほど表現力が高まりやすい一方、過学習や計算負荷が増える。
- クロスバリデーションなどでユニット数を網羅的に試す方法は、層数やドロップアウト率と同様です。
活性化関数を変える
Python
# 例: Swishを使ってみる
# (TensorFlow 2.2 以降なら "tf.nn.swish" も使えます)
model = keras.Sequential([
layers.Input(shape=(input_dim,)),
layers.Dense(128, activation='relu'),
layers.Dense(64, activation='selu'), # SELUを試す例
layers.Dense(32, activation='gelu'), # GELUを試す例
layers.Dense(1, activation='sigmoid')
])
- ポイント:
relu
,selu
,gelu
,swish
などをタスクやデータ特性に合わせて試す。 - LeakyReLUやParametric ReLUなどを使う場合は、
activation=layers.LeakyReLU(alpha=0.1)
のようにレイヤーを追加。
正則化手法 (L2, Batch Normalization など)
L2正則化 (Weight Decay)
Python
from tensorflow.keras import regularizers
model = keras.Sequential([
layers.Input(shape=(input_dim,)),
layers.Dense(128, activation='relu',
kernel_regularizer=regularizers.l2(1e-4)), # L2正則化
layers.Dense(64, activation='relu',
kernel_regularizer=regularizers.l2(1e-4)),
layers.Dense(1, activation='sigmoid')
])
- ポイント:
kernel_regularizer=regularizers.l2(λ)
でL2正則化を適用。λ
はハイパーパラメータ。
Batch Normalization
Python
model = keras.Sequential([
layers.Input(shape=(input_dim,)),
layers.Dense(128, use_bias=False), # BNでバイアス不要になることも多い
layers.BatchNormalization(),
layers.Activation('relu'),
layers.Dense(64, use_bias=False),
layers.BatchNormalization(),
layers.Activation('relu'),
layers.Dense(1, activation='sigmoid')
])
- ポイント: BatchNormalization → Activation の順で挿入することが多い。
- ドロップアウトと組み合わせる場合は、BatchNormalizationの後にDropoutを入れることも可能。
最適化アルゴリズム・学習率
Python
model.compile(
optimizer=tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9),
loss='binary_crossentropy',
metrics=[tf.keras.metrics.AUC(name='auc')]
)
- ポイント:
learning_rate
を下げると学習が安定しやすいが、収束に時間がかかる場合も。Adam
など他のオプティマイザも試す価値あり。
学習率スケジューラ
Python
lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
initial_learning_rate=0.01,
decay_steps=1000,
decay_rate=0.96,
staircase=True
)
optimizer = tf.keras.optimizers.Adam(learning_rate=lr_schedule)
model.compile(
optimizer=optimizer,
loss='binary_crossentropy',
metrics=[tf.keras.metrics.AUC(name='auc')]
)
- ポイント: エポックやステップごとに学習率を下げていくことで、安定した収束を狙う。
データ拡張(Data Augmentation)の一例
画像データの場合
Python
from tensorflow.keras.preprocessing.image import ImageDataGenerator
datagen = ImageDataGenerator(
rotation_range=20,
width_shift_range=0.2,
height_shift_range=0.2,
horizontal_flip=True
)
# fitやflowを利用して拡張された画像を学習に使う
datagen.fit(X_train) # 画像が入った4D配列を想定
- ポイント: 過学習を防ぎ、モデルの汎化性能を高めるために用いる。
- 表形式データでは標準化や欠損値補完などを工夫すると良い。
バッチサイズ・エポック数
Python
model.fit(
X_train, y_train,
validation_data=(X_val, y_val),
epochs=50,
batch_size=64, # バッチサイズを大きく/小さくする
callbacks=[early_stopping],
verbose=1
)
- ポイント:
- バッチサイズが大きいほど高速に学習できる可能性があるが、汎化性能が下がる場合がある。
- 小さすぎると学習が安定しないことも。
- エポック数を増やすほど過学習リスクも高まるので、EarlyStoppingで調整するのが一般的。
まとめ
- これらの設定は、すべて相互に影響し合います。
- 通常、Batch Normalizationを導入する場合、ドロップアウト率を下げたり、学習率を変えたりする必要があります。
- 1つ1つの設定を網羅的に試すのは大変ですが、クロスバリデーションを活用して少しずつアプローチすることで、より最適なモデルに近づけることができます。
コメント