【Alteryxアイコン200連発】サンプリングツール(Sample Tool)

Alteryxツールアイコン「サンプリングツール」(Sample Tool)をご紹介します

 サンプリングツール(Sample)

[準備]カテゴリの[サンプリング]ツールについて紹介します。

本記事はAlteryx Designer Version 2024内容になりますので、Version 2018の場合は以下のリンクを参考にしてください。

 

サンプリングとは?

サンプリングツールを紹介する前に、少しだけサンプリングについて説明します。

サンプリングとは、ある母集団を調べる時に、その数が膨大な時に調査に多大な時間がかかってしまいます。そこで母集団からN個のデータを抽出し、そのN個のデータを調べることで母集団全体の傾向を推測する手法があります。この母集団からN個のデータを抽出する作業を「サンプリング」といいます。

なぜ、サンプル調査で全体が推測できるのか?

サンプル調査で何故全体が推測できるのでしょうか?

これは、スープの味見に例えられます。スープを作る時に、よくかき混ぜてから味見をします。こうすることでスープ全体の味が分かります。サンプル調査とはこれと同様の事を行います。ここで重要になるのは「よくかき混ぜる」事です。全体が均一になっていれば、取り出した一部も同じ傾向となります。

Alteryxでは、効率よくサンプリングを行う為、複数のサンプリングツールが準備されています。

概要

基本的なサンプリングツールです。

設定項目

サンプリング方法を選択し、数量を指定する事で実行できます。

①サンプル方法を選択します
サンプル方法 具体的な方法
最初のN行 テーブルの最初からN個の行を取得します
最後のN行 テーブルの最後からN個の行を取得します
最初のN行をスキップ テーブルの最初のN個の行をスキップしてそれ以降の行を取得します
N行毎に1行 N個の行ごとに1個の行を取得します
N分の1の確率で各行を含む 各行ごとにN分の1の確率で行の抽出判定を行うイメージで行を抽出します

※指定したNの数量で抽出とはなりません(下記補足を参照願います)

最初のN%の行 行の最初から全体のN%の行を取得します
②数量を指定します(N=□)

①で選択した方法で使用する数量(個、もしくは%)を指定します。

③列でグループ化する(オプション)

チェックを入れると各フィールドの値に応じてグルーピングされます。

補足1(N行毎に1行)

N行ごとに1行を抽出ですが、実際に実行すると次の様になります。1~10までの連続する数字を入力として3行毎に1行抽出で行っています。

補足2(N分の1の確率で各行を含む)

サンプリング方法の選択肢のうち「各レコードのN分の1を無作為抽出」というものがありますが、これは全体のN分の1を抽出ではありません

各行をN分の1の確率で抽出です。

例えば、全体で1000件のレコードがある時にN=10とすると、必ず100レコード抽出されるわけではなく、おおよそ75~150の間で抽出されます。

5回実行した結果です。100レコード前後で抽出されてます。

応用方法

サンプリングツールは応用的な使い方が多数あります。1例をあげるなら、例えば時系列データがあるとします。データは時系列に沿ってソートされていますので、「最後のN行」とすることで最新のデータから任意のデータ量を抽出するなどの使い方ができます。

 

※Alteryx Version 2024.1.1時点での情報です

 

AlteryxDesigner初心者の方向け教育プログラム

京セラみらいエンビジョンでは、AlteryxDesignerをこれから利用していくお客様を対象に、初心者向けのトレーニングをご用意しております。

ハンズオン形式で実施致しており、使用し始めた方の上達をサポート致します。

トレーニング以外にもAlteryxを用いた環境構築、開発、ワークフロー作成を承りますので、お気軽にご相談ください。

おすすめの記事