Alteryxツールアイコン「サンプリングツール」(Sample Tool)をご紹介します
サンプリングツール(Sample)
[準備]カテゴリの[サンプリング]ツールについて紹介します。
本記事はAlteryx Designer Version 2024内容になりますので、Version 2018の場合は以下のリンクを参考にしてください。
サンプリングとは?
サンプリングツールを紹介する前に、少しだけサンプリングについて説明します。
サンプリングとは、ある母集団を調べる時に、その数が膨大な時に調査に多大な時間がかかってしまいます。そこで母集団からN個のデータを抽出し、そのN個のデータを調べることで母集団全体の傾向を推測する手法があります。この母集団からN個のデータを抽出する作業を「サンプリング」といいます。
なぜ、サンプル調査で全体が推測できるのか?
サンプル調査で何故全体が推測できるのでしょうか?
これは、スープの味見に例えられます。スープを作る時に、よくかき混ぜてから味見をします。こうすることでスープ全体の味が分かります。サンプル調査とはこれと同様の事を行います。ここで重要になるのは「よくかき混ぜる」事です。全体が均一になっていれば、取り出した一部も同じ傾向となります。
Alteryxでは、効率よくサンプリングを行う為、複数のサンプリングツールが準備されています。
概要
基本的なサンプリングツールです。
設定項目
サンプリング方法を選択し、数量を指定する事で実行できます。
①サンプル方法を選択します
サンプル方法 | 具体的な方法 |
---|---|
最初のN行 | テーブルの最初からN個の行を取得します |
最後のN行 | テーブルの最後からN個の行を取得します |
最初のN行をスキップ | テーブルの最初のN個の行をスキップしてそれ以降の行を取得します |
N行毎に1行 | N個の行ごとに1個の行を取得します |
N分の1の確率で各行を含む | 各行ごとにN分の1の確率で行の抽出判定を行うイメージで行を抽出します
※指定したNの数量で抽出とはなりません(下記補足を参照願います) |
最初のN%の行 | 行の最初から全体のN%の行を取得します |
②数量を指定します(N=□)
①で選択した方法で使用する数量(個、もしくは%)を指定します。
③列でグループ化する(オプション)
チェックを入れると各フィールドの値に応じてグルーピングされます。
補足1(N行毎に1行)
N行ごとに1行を抽出ですが、実際に実行すると次の様になります。1~10までの連続する数字を入力として3行毎に1行抽出で行っています。
補足2(N分の1の確率で各行を含む)
サンプリング方法の選択肢のうち「各レコードのN分の1を無作為抽出」というものがありますが、これは全体のN分の1を抽出ではありません。
各行をN分の1の確率で抽出です。
例えば、全体で1000件のレコードがある時にN=10とすると、必ず100レコード抽出されるわけではなく、おおよそ75~150の間で抽出されます。
5回実行した結果です。100レコード前後で抽出されてます。
応用方法
サンプリングツールは応用的な使い方が多数あります。1例をあげるなら、例えば時系列データがあるとします。データは時系列に沿ってソートされていますので、「最後のN行」とすることで最新のデータから任意のデータ量を抽出するなどの使い方ができます。
※Alteryx Version 2024.1.1時点での情報です