Alteryxツールアイコン「オーバーサンプルフィールドツール」(Oversample Field Tool)をご紹介します
オーバーサンプルフィールドツール(Oversample Field Tool)
[準備]カテゴリの[オーバーサンプルフィールド]ツールを紹介します。
概要
オーバーサンプルと言われるサンプリング方法を実行できるツールです。
オーバーサンプリングとは?
例えば、ある母集団にAグループが98%、Bグループが2%の割合で存在するとします。母集団から100件のデータをサンプリングするとBグループは2件のデータとなります。2件のデータではBグループの解析は不可能となります。母集団のデータ数が膨大であればサンプリングデータを大きくする事でBグループも解析できますが、データ数が少ない場合には母集団のデータを取得しなおしになってしまいます。これには大変な時間と費用がかかってしまいます。
そこでBグループを任意の大きさ、Aグループが50件、Bグループが50件となるようにサンプリングし、Bグループの潜在的需要などを解析します。このようなサンプリング方法をオーバーサンプリングといいます。
オーバーサンプリングで解析されたデータは実質的には任意割当をしたことになるので、重み付けによってバイアスを排除して考える必要があります。
設定項目
設定項目としては、オーバーサンプルしたいグループが入っているフィールド名、オーバーサンプルしたいグループ、そして、対象となるグループのレコードの割合を指定します。
①オーバーサンプリングのベースにしようとするフィールドを選択
オーバーサンプリングしたいグループが入っているカラムを指定
②オーバーサンプルしたいフィールド値
①で選択したフィールド内の値のうち、オーバーサンプルしたいグループの値を指定
③対象フィールド内の期待値のレコードの割合
②の値が①のフィールドの中で何割にしたいかを指定
サンプル
グループというカラムにAもしくはBと記載されたデータを準備します。
それぞれA:2076件、B:98件のデータがあります。
以下の通り設定し、結果としてカウント数を出力しています。
設定値:フィールドを「Group」、値を「B」とし、割合を「50」%
Bのレコード数に合わせてAのレコード数が調整されてることが分かります。
※Alteryx Version 2018.2.5時点での情報です