
Alteryxツールアイコン「オーバーサンプルフィールドツール」(Oversample Field Tool)をご紹介します
オーバーサンプルフィールドツール(Oversample Field Tool)
[準備]カテゴリの[オーバーサンプルフィールド]ツールを紹介します。
本記事はAlteryx Designer Version 2024内容になりますので、Version 2018の場合は以下のリンクを参考にしてください。
概要
オーバーサンプルと言われるサンプリング方法を実行できるツールです。
オーバーサンプリングとは?
例えば、ある母集団にAグループが98%、Bグループが2%の割合で存在するとします。母集団から100件のデータをサンプリングするとBグループは2件のデータとなります。2件のデータではBグループの解析は不可能となります。母集団のデータ数が膨大であればサンプリングデータを大きくする事でBグループも解析できますが、データ数が少ない場合には母集団のデータを取得しなおしになってしまいます。これには大変な時間と費用がかかってしまいます。
そこでBグループを任意の大きさ、Aグループが50件、Bグループが50件となるようにサンプリングし、Bグループの潜在的需要などを解析します。このようなサンプリング方法をオーバーサンプリングといいます。
オーバーサンプリングで解析されたデータは実質的には任意割当をしたことになるので、重み付けによってバイアスを排除して考える必要があります。
設定項目
設定項目としては、オーバーサンプルしたいグループが入っているフィールド名、オーバーサンプルしたいグループ、そして、対象となるグループのレコードの割合を指定します。
①オーバーサンプリングのベースにするフィールドを選択
オーバーサンプリングしたいグループが入っているカラムを指定
②オーバーサンプルするフィールド値
①で選択したフィールド内の値のうち、オーバーサンプルしたいグループの値を指定
③対象の値を持つ行を作成する割合
②の値が①のフィールドの中で何割にしたいかを指定
サンプル
GroupというカラムにAもしくはBと記載されたデータを準備します。
それぞれ「A:2076件、B:98件」のデータがあります。
以下の通り設定し、結果としてカウント数を出力しています。
設定値:フィールドを「Group」、値を「B」とし、割合を「50」%
Bのレコード数に合わせてAのレコード数が調整されてることが分かります。
※Alteryx Version 2024.1.1時点での情報です