【Alteryxアイコン200連発】サンプル作成ツール(Create Samples Tools)

Alteryxツールアイコン「サンプル作成ツール」(Create Samples Tools)をご紹介します

 サンプル作成ツール(Create Samples Tools

[準備]カテゴリの[サンプル作成]ツールを紹介します。

概要

このツールは乱数を用いて無作為抽出し、3つに分割して出力します。基本的にはこのツールは予測モデル作成時に使用されます。

サンプルデータを分割する理由

予測モデルを作成する場合に予測モデルを作成したデータで検証すると、評価が正しくできません。簡単な計算式で考えてみます。

1□1□3=3

□を四則演算を埋めて式が成り立つようにします。

式①:1÷1×3=3

式②:1×1×3=3

上記2つの式が考えれます。この四則演算が予測モデルです。

「1 1 3 3」というのが作成用の推定サンプルデータです。

では式①②のいずれが正しい式なのかを評価しようとすると、同じ「1 1 3 3」というデータを用いると判断ができません。

ここで「2 2 3 3」という評価用の検証サンプルデータが与えられたとして、式①②に代入してみます。

式①:2÷2×3=3

式②:2×2×3≠3

上の通り、式②は成り立たなくなりました。予測モデルとして正しいのは式①だと判断できます。

この様に予測モデルを作成する場合には、モデル作成用とモデル検証用のデータが必要となります。

設定項目

①レコードの割り当て

・推定/検証サンプルのパーセント

推定用、検証用それぞれのパーセントを指定します。合計が100以下になるように設定しなければなりません。残りは保留サンプルとなります。

②ランダムシード

乱数を発生させる為に必要な設定です。ランダムシードの値を変えると、乱数の値が代わります。ランダムシ-ドの設定範囲は「0から1000」となります。

ランダムシードとは?

コンピュータの世界で使われる乱数は完全な乱数ではありません。ある数式に基づき発生させた擬似的な乱数になります。初期に与える値が同一の場合は、同じ乱数表が生成されます。この初期値をランダムシードといいます。

何故乱数を使うのか?

予測モデルを作成する場合、推定用と検証用のデータに偏りがあっては良い予測モデルは作成できません。データの偏りをなくす為には無作為にデータ抽出を行う必要があります。そこで乱数を用いることで無作為抽出を行います。

ツールの出力

このツールでは3つの出力があります。

出力 説明
E(Estimation) 「推定用サンプルのパーセント」で割り当てられたレコード
V(Validation) 「検証用サンプルのパーセント」で割り当てられたレコード
H(Hold Out) 上記以外のレコード、保留サンプル

ランダムシード変更時の出力例

データは単純に1~30の数字を入力しています。

ランダムシード1の場合

ランダムシード2の場合

ランダムシードを変更したことで、抽出された値が変化しています。

 

※Alteryx Version 2018.2.5時点での情報です

Alteryxの導入はぜひKCMEで!

セルフサービスデータ分析ツール「Alteryx」は2週間無償トライアルが可能です。

製品に対する操作方法、技術的な質問などは導入前・導入後に関わらずメールにてお答えします。また、Alteryxを用いた環境構築、開発、ヘルプデスク対応、ハンズオン、トレーニング、ワークフロー作成なども承りますので、お気軽にご相談ください。

おすすめの記事