Alteryxツールアイコン「サンプルツール」(Sample Tool)をご紹介します
サンプルツール(Sample)
[準備]カテゴリの[サンプル]ツールについて紹介します。
サンプリングとは?
サンプルツールを紹介する前に、少しだけサンプリングについて説明します。
サンプリングとは、ある母集団を調べる時に、その数が膨大な時に調査に多大な時間がかかってしまいます。そこで母集団からN個のデータを抽出し、そのN個のデータを調べることで母集団全体の傾向を推測する手法があります。この母集団からN個のデータを抽出する作業を「サンプリング」といいます。
なぜ、サンプル調査で全体が推測できるのか?
サンプル調査で何故全体が推測できるのでしょうか?
これは、スープの味見に例えられます。スープを作る時に、よくかき混ぜてから味見をします。こうすることでスープ全体の味が分かります。サンプル調査とはこれと同様の事を行います。ここで重要になるのは「よくかき混ぜる」事です。全体が均一になっていれば、取り出した一部も同じ傾向となります。
Alteryxでは、効率よくサンプリングを行う為、複数のサンプリングツールが準備されています。
概要
基本的なサンプルツールです。
設定項目
サンプル方法を選択し、数量を指定する事で実行できます。
①サンプル方法を選択します
サンプル方法 | 具体的な方法 |
---|---|
最初のNレコード | テーブルの最初からN個のレコードを取得します |
最後のNレコード | テーブルの最後からN個のレコードを取得します |
最初のNレコードをスキップする | テーブルの最初のN個のレコードをスキップしてそれ以降のレコードを取得します |
Nレコードごとに1レコードを抽出 | N個のレコードごとに1個のレコードを取得します |
各レコードのN分の1を無作為抽出 | 各レコードごとにN分の1の確率でレコードの抽出判定を行うイメージでレコードを抽出します
※指定したNの数量で抽出とはなりません(下記補足を参照願います) |
レコードの最初のN% | レコードの最初から全体のN%のレコードを取得します |
②数量を指定します(N=□)
①で選択した方法で使用する数量(個、もしくは%)を指定します。
③グループ化フィールド
チェックを入れると各フィールドの値に応じてグルーピングされます。
補足1(Nレコードごとに1レコードを抽出)
Nレコードごとに1レコードを抽出ですが、実際に実行すると次の様になります。1~10までの連続する数字を入力として3レコード毎に1レコード抽出で行っています。
補足2(各レコードのN分の1を無作為抽出)
サンプリング方法の選択肢のうち「各レコードのN分の1を無作為抽出」というものがありますが、これは全体のN分の1を抽出ではありません。
各レコードをN分の1の確率で抽出です。
例えば、全体で1000件のレコードがある時にN=10とすると、必ず100レコード抽出されるわけではなく、おおよそ75~150の間で抽出されます。
5回実行した結果です。100レコード前後で抽出されてます。
応用方法
サンプルツールは応用的な使い方が多数あります。1例をあげるなら、例えば時系列データがあるとします。データは時系列に沿ってソートされていますので、「最後のNレコード」とすることで最新のデータから任意のデータ量を抽出するなどの使い方ができます。
※Alteryx Version 2018.2.5時点での情報です