【Alteryxアイコン200連発】オーバーサンプルフィールドツール(Oversample Field Tool)

Alteryxツールアイコン「オーバーサンプルフィールドツール」(Oversample Field Tool)をご紹介します

 オーバーサンプルフィールドツール(Oversample Field Tool

[準備]カテゴリの[オーバーサンプルフィールド]ツールを紹介します。

概要

オーバーサンプルと言われるサンプリング方法を実行できるツールです。

オーバーサンプリングとは?

例えば、ある母集団にAグループが98%、Bグループが2%の割合で存在するとします。母集団から100件のデータをサンプリングするとBグループは2件のデータとなります。2件のデータではBグループの解析は不可能となります。母集団のデータ数が膨大であればサンプリングデータを大きくする事でBグループも解析できますが、データ数が少ない場合には母集団のデータを取得しなおしになってしまいます。これには大変な時間と費用がかかってしまいます。

そこでBグループを任意の大きさ、Aグループが50件、Bグループが50件となるようにサンプリングし、Bグループの潜在的需要などを解析します。このようなサンプリング方法をオーバーサンプリングといいます。

オーバーサンプリングで解析されたデータは実質的には任意割当をしたことになるので、重み付けによってバイアスを排除して考える必要があります。

設定項目

設定項目としては、オーバーサンプルしたいグループが入っているフィールド名、オーバーサンプルしたいグループ、そして、対象となるグループのレコードの割合を指定します。

①オーバーサンプリングのベースにしようとするフィールドを選択

オーバーサンプリングしたいグループが入っているカラムを指定

②オーバーサンプルしたいフィールド値

①で選択したフィールド内の値のうち、オーバーサンプルしたいグループの値を指定

③対象フィールド内の期待値のレコードの割合

②の値が①のフィールドの中で何割にしたいかを指定

サンプル

グループというカラムにAもしくはBと記載されたデータを準備します。

それぞれA:2076件、B:98件のデータがあります。

以下の通り設定し、結果としてカウント数を出力しています。

設定値:フィールドを「Group」、値を「B」とし、割合を「50」%

Bのレコード数に合わせてAのレコード数が調整されてることが分かります。

 

※Alteryx Version 2018.2.5時点での情報です

Alteryxの導入はぜひKCMEで!

セルフサービスデータ分析ツール「Alteryx」は2週間無償トライアルが可能です。

製品に対する操作方法、技術的な質問などは導入前・導入後に関わらずメールにてお答えします。また、Alteryxを用いた環境構築、開発、ヘルプデスク対応、ハンズオン、トレーニング、ワークフロー作成なども承りますので、お気軽にご相談ください。

おすすめの記事