【Alteryxアイコン200連発】サンプルツール(Sample Tool)

Alteryxツールアイコン「サンプルツール」(Sample Tool)をご紹介します

 サンプルツール(Sample)

[準備]カテゴリの[サンプル]ツールについて紹介します。

サンプリングとは?

サンプルツールを紹介する前に、少しだけサンプリングについて説明します。

サンプリングとは、ある母集団を調べる時に、その数が膨大な時に調査に多大な時間がかかってしまいます。そこで母集団からN個のデータを抽出し、そのN個のデータを調べることで母集団全体の傾向を推測する手法があります。この母集団からN個のデータを抽出する作業を「サンプリング」といいます。

なぜ、サンプル調査で全体が推測できるのか?

サンプル調査で何故全体が推測できるのでしょうか?

これは、スープの味見に例えられます。スープを作る時に、よくかき混ぜてから味見をします。こうすることでスープ全体の味が分かります。サンプル調査とはこれと同様の事を行います。ここで重要になるのは「よくかき混ぜる」事です。全体が均一になっていれば、取り出した一部も同じ傾向となります。

Alteryxでは、効率よくサンプリングを行う為、複数のサンプリングツールが準備されています。

概要

基本的なサンプルツールです。

設定項目

サンプル方法を選択し、数量を指定する事で実行できます。

①サンプル方法を選択します
サンプル方法 具体的な方法
最初のNレコード テーブルの最初からN個のレコードを取得します
最後のNレコード テーブルの最後からN個のレコードを取得します
最初のNレコードをスキップする テーブルの最初のN個のレコードをスキップしてそれ以降のレコードを取得します
Nレコードごとに1レコードを抽出 N個のレコードごとに1個のレコードを取得します
各レコードのN分の1を無作為抽出 各レコードごとにN分の1の確率でレコードの抽出判定を行うイメージでレコードを抽出します

※指定したNの数量で抽出とはなりません(下記補足を参照願います)

レコードの最初のN% レコードの最初から全体のN%のレコードを取得します
②数量を指定します(N=□)

①で選択した方法で使用する数量(個、もしくは%)を指定します。

③グループ化フィールド

チェックを入れると各フィールドの値に応じてグルーピングされます。

補足1(Nレコードごとに1レコードを抽出)

Nレコードごとに1レコードを抽出ですが、実際に実行すると次の様になります。1~10までの連続する数字を入力として3レコード毎に1レコード抽出で行っています。

補足2(各レコードのN分の1を無作為抽出)

サンプリング方法の選択肢のうち「各レコードのN分の1を無作為抽出」というものがありますが、これは全体のN分の1を抽出ではありません

各レコードをN分の1の確率で抽出です。

例えば、全体で1000件のレコードがある時にN=10とすると、必ず100レコード抽出されるわけではなく、おおよそ75~150の間で抽出されます。

5回実行した結果です。100レコード前後で抽出されてます。

応用方法

サンプルツールは応用的な使い方が多数あります。1例をあげるなら、例えば時系列データがあるとします。データは時系列に沿ってソートされていますので、「最後のNレコード」とすることで最新のデータから任意のデータ量を抽出するなどの使い方ができます。

 

※Alteryx Version 2018.2.5時点での情報です

 

Alteryxの導入はぜひKCMEで!

セルフサービスデータ分析ツール「Alteryx」は4週間無償トライアルが可能です。

製品に対する操作方法、技術的な質問などは導入前・導入後に関わらずメールにてお答えします。また、Alteryxを用いた環境構築、開発、ヘルプデスク対応、ハンズオン、トレーニング、ワークフロー作成なども承りますので、お気軽にご相談ください。

おすすめの記事