【Alteryxアイコン200連発】サンプル作成ツール(Create Samples Tools)

Alteryxツールアイコン「サンプル作成ツール」(Create Samples Tools)をご紹介します

 サンプル作成ツール(Create Samples Tools

[準備]カテゴリの[サンプル作成]ツールを紹介します。

本記事はAlteryx Designer Version 2025内容になりますので、Version 2018の場合は以下のリンクを参考にしてください。

概要

このツールは乱数を用いて無作為抽出し、3つに分割して出力します。基本的にはこのツールは予測モデル作成時に使用されます。

 

サンプルデータを分割する理由

予測モデルを作成する場合に予測モデルを作成したデータで検証すると、評価が正しくできません。簡単な計算式で考えてみます。

1□1□3=3

□を四則演算を埋めて式が成り立つようにします。

式①:1÷1×3=3

式②:1×1×3=3

上記2つの式が考えれます。この四則演算が予測モデルです。

「1 1 3 3」というのが作成用の推定サンプルデータです。

では式①②のいずれが正しい式なのかを評価しようとすると、同じ「1 1 3 3」というデータを用いると判断ができません。

ここで「2 2 3 3」という評価用の検証サンプルデータが与えられたとして、式①②に代入してみます。

式①:2÷2×3=3

式②:2×2×3≠3

上の通り、式②は成り立たなくなりました。予測モデルとして正しいのは式①だと判断できます。

この様に予測モデルを作成する場合には、モデル作成用とモデル検証用のデータが必要となります。

 

設定項目

①レコードの割り当て

・推定/検証サンプルのパーセント

推定用、検証用それぞれのパーセントを指定します。合計が100以下になるように設定しなければなりません。残りは保留サンプルとなります。

②ランダムシード

乱数を発生させる為に必要な設定です。ランダムシードの値を変えると、乱数の値が代わります。ランダムシ-ドの設定範囲は「0から1000」となります。

ランダムシードとは?

コンピュータの世界で使われる乱数は完全な乱数ではありません。ある数式に基づき発生させた擬似的な乱数になります。初期に与える値が同一の場合は、同じ乱数表が生成されます。この初期値をランダムシードといいます。

何故乱数を使うのか?

予測モデルを作成する場合、推定用と検証用のデータに偏りがあっては良い予測モデルは作成できません。データの偏りをなくす為には無作為にデータ抽出を行う必要があります。そこで乱数を用いることで無作為抽出を行います。

 

ツールの出力

このツールでは3つの出力があります。

出力 説明
E(Estimation) 「推定用サンプルのパーセント」で割り当てられたレコード
V(Validation) 「検証用サンプルのパーセント」で割り当てられたレコード
H(Hold Out) 上記以外のレコード、保留サンプル

 

ランダムシード変更時の出力例

データは単純に1~30の数字を入力しています。

ランダムシード1の場合

ランダムシード2の場合

ランダムシードを変更したことで、抽出された値が変化しています。

 

奇数のレコードで推定と検証両方とも50%に設定した時の出力例

推定出力は検証出力より1レコード多く出力されます。

 

※Alteryx Version 2025.1時点での情報です

Alteryx30日間無料トライアル

Alteryxは30日間無料でトライアルが可能となっております。是非ご活用ください。

トライアルの導入またご利用の際、不明点がございましたら、お気軽にお問い合わせください。

おすすめの記事