【Tableau】Tableau Prepを改めてご紹介(2)

Tableau Prep について改めてご紹介します(続き)

先月は、Tableau Prepを改めて紹介ということで(1)として記事を書かせて頂きました。

結合は、簡単そうに見えて、つまずきやすい処理で、且つよく使う処理ですので、ぜひ正しく扱えるようになりましょう。

 

今回は、Tableau Prepでよく使われる処理の2つ目としてユニオンを見ていきたいと思います。

※ユニオン自体がどのようなものかは、過去記事でも紹介しておりますので、気になる方は”Tableauの複数ファイルの読み込み(ユニオン)について”をご覧ください。

 

ユニオンも、簡単な処理ではあるものの、正しい使い方は理解した上で扱う必要あります。

Tableauのユニオンの方法はいくつかありますが、主に以下のような形となります。

ユニオンの種類(DesktopとPrep)

Tableau Desktop
  • ユニオン設定で対象ファイルなど指定同種のファイルでのみユニオン可能、対象は手動・またはあいまい自動検索)

例として、CSVでは、手動追加・あいまい検索の設定は可能ですが、Excelの場合は、あいまい検索のみ可能です。

 

Tableau Prep

1) テキストやExcelなどのファイル読み込みのアイコンで対象ファイルなど指定同種のファイルでのみユニオン可能、対象は手動・またはあいまい自動検索)

例として、CSVもExcelも手動・あいまい検索ともに可能です。※手動の場合は、以下のユニオンアイコンで対応。

2) ユニオンのアイコンで複数の対象ファイルなどをつなぐ異なる種類もユニオン可能、対象は手動で接続)

 

Tableau Prepの場合は、

・CSVやExcelなど同種で、あいまい検索の形でよければ、1)

・個別で手動設定が必要な場合や、異なる種類をユニオンする際、2)

の方法を利用するといった使い分けができます。

また、前回の結合の際に触れましたが

”Tableau Serverなどの一部のデータソース”は、Tableau Desktop上で複数選択ができないため、このような場合はTableau Prepを使うと処理することが可能です。

 

Tableau Prepでユニオンしてみよう

 

Tableau Prepの例を見ていきましょう。

1)のファイル読み込みアイコンでの例

接続から”テキストファイル”を指定し、ファイルを選択するとファイルを読み込むアイコンが設置されます。

 

ファイル読み込みのアイコンの設定画面が下部に表示されます。

 

※余談ですが、

テキストファイルを読み込む際、修飾子を指定して読み込むことが可能となっております。

例えば、コンマ区切りのデータで、一部のフィールドが ’〇〇,△△△,××’ みたいに、シングルクォーテーションで囲われて、コンマ区切りされているものを

1つのフィールドとして読み込む際、修飾子をシングルクォーテーション’ に設定すると、そのまま扱うことが可能です。

 

 

本題に戻りますが、

下部の欄で”複数ファイル”のタブに切り替えると、単一の表 と ワイルドカードユニオン の選択欄が表示されます。

単一表は1つのファイルになりますが、ワイルドカードのほうは、複数ファイルをあいまい検索などでまとめて読み込みできます。

 

2)のユニオンのアイコンの例

次に、ユニオン処理のアイコンでの例を見て行きましょう。

以下は、同じ形式のExcelとCSVをユニオン処理する例となります。

ユニオンのアイコンを追加して、各読み込みアイコンからドラッグ&ドロップして接続していきます。

接続したユニオンのアイコンをクリックすると以下のように接続状態を確認することができます。

ユニオンでは、フィールド名が異なるもの同士を1つに統合(マージ)することも可能です。

(Tableau Desktopでもフィールドのマージは可能ですが、Prepのほうが視覚的にわかりやすいです)

ここで、ユニオンを扱う際の注意事項を把握しておきましょう。

データの変更等でマージ処理が解除されるケース

ユニオンより前の段階で何か修正やデータの繋ぎ換え・フィールド変更などが発生すると、マージ処理が解除されるケースがあるため、注意が必要です。

知らぬ間にマージ処理が解除されていると、その後のデータ処理で数が合わない(フィールドが分離することで結合漏れなど)・・・といった事態に陥ることがあります。

できれば、フィールドのマージよりは、ユニオンする前の段階でクリーニングで整形するほうがトラブルは少ないと思います。

 

ユニオンの接続対象を削除する際、消し忘れに注意

例えば、下図のようにいくつかフローを分岐させてそれぞれ処理してからユニオンするようなケースがありますが、複数あるアイコンから一部を削除したとき、

アイコンの処理自体は削除されますが、接続ラインが残っているのを見落とす恐れがあります。4つの分岐のうち1つを削除したところ、Prep側の自動処理で右上図のように、重ならないような配置となるケースもありますが、これに気付かずに、例えば右上図の根本にあるクリーニング1を右下図のように位置を調整すると、線が重なってしまいます。

3つの分岐処理をユニオンでまとめているように見えますが、実はクリーニング1からの線も残っていて、ユニオンの結果、レコード数が想定より多い(3つの処理分のはずが・・・)といったことが起こってしまいます。今回のような少ない分岐でしたら気付くかもしれませんが、多くの分岐を扱う場合など注意が必要です。

ユニオン処理をしたときは、左図のフィールドにあるような”Table Names”が生成されますので、ユニオンで処理した対象が何個あるか確認するようにしましょう。

つないだアイコンの数と、Table Namesの数が一致しているか見比べて確認することができます。

また、このTable Namesなどのフィールドは、ユニオン処理が適切かを確認するには便利ですが、それ以外では不要ですので、その後の集計などの処理では外すようにしましょう。

様々な処理を組み合わせていくうちに、余計なフィールドが増えていきますので、適宜不要なものを整理しながら処理していくのが望ましいです。

 

 

今回は改めて、Tableau Prepのユニオンについて注意する点をご紹介させて頂きました。

一見、単純な”ユニオン” でも、気を付けないと誤ったデータを作成してしまいますので、注意しましょう。

前回の結合や今回のユニオンはよく使う処理ですので、正しく使えるようにしておきましょう。

※Tableau Prep 2022.1.1時点の情報となります

BI製品のサポートはぜひKCMEで!

AlteryxとBI製品を組み合わせた環境構築やサポートなど承ります。お気軽にご相談ください。

おすすめの記事