Alteryxツールアイコン「サンプル作成ツール」(Create Samples Tools)をご紹介します
サンプル作成ツール(Create Samples Tools)
[準備]カテゴリの[サンプル作成]ツールを紹介します。
概要
このツールは乱数を用いて無作為抽出し、3つに分割して出力します。基本的にはこのツールは予測モデル作成時に使用されます。
サンプルデータを分割する理由
予測モデルを作成する場合に予測モデルを作成したデータで検証すると、評価が正しくできません。簡単な計算式で考えてみます。
1□1□3=3
□を四則演算を埋めて式が成り立つようにします。
式①:1÷1×3=3
式②:1×1×3=3
上記2つの式が考えれます。この四則演算が予測モデルです。
「1 1 3 3」というのが作成用の推定サンプルデータです。
では式①②のいずれが正しい式なのかを評価しようとすると、同じ「1 1 3 3」というデータを用いると判断ができません。
ここで「2 2 3 3」という評価用の検証サンプルデータが与えられたとして、式①②に代入してみます。
式①:2÷2×3=3
式②:2×2×3≠3
上の通り、式②は成り立たなくなりました。予測モデルとして正しいのは式①だと判断できます。
この様に予測モデルを作成する場合には、モデル作成用とモデル検証用のデータが必要となります。
設定項目
①レコードの割り当て
・推定/検証サンプルのパーセント
推定用、検証用それぞれのパーセントを指定します。合計が100以下になるように設定しなければなりません。残りは保留サンプルとなります。
②ランダムシード
乱数を発生させる為に必要な設定です。ランダムシードの値を変えると、乱数の値が代わります。ランダムシ-ドの設定範囲は「0から1000」となります。
ランダムシードとは?
コンピュータの世界で使われる乱数は完全な乱数ではありません。ある数式に基づき発生させた擬似的な乱数になります。初期に与える値が同一の場合は、同じ乱数表が生成されます。この初期値をランダムシードといいます。
何故乱数を使うのか?
予測モデルを作成する場合、推定用と検証用のデータに偏りがあっては良い予測モデルは作成できません。データの偏りをなくす為には無作為にデータ抽出を行う必要があります。そこで乱数を用いることで無作為抽出を行います。
ツールの出力
このツールでは3つの出力があります。
出力 | 説明 |
---|---|
E(Estimation) | 「推定用サンプルのパーセント」で割り当てられたレコード |
V(Validation) | 「検証用サンプルのパーセント」で割り当てられたレコード |
H(Hold Out) | 上記以外のレコード、保留サンプル |
ランダムシード変更時の出力例
データは単純に1~30の数字を入力しています。
ランダムシード1の場合
ランダムシード2の場合
ランダムシードを変更したことで、抽出された値が変化しています。
※Alteryx Version 2018.2.5時点での情報です