ThoughtSpotでCSVファイルのアップロードについてご説明します
ThoughtSpotでCSVのアップロードを行うための手順をご紹介します。
CSVのアップロードのメニューの位置
CSVのアップロードメニューはちょっと見つけにくいところにあります。基本的に「データ」タブ(「データワークスペース」)へアクセス可能な方だけが利用可能となっています。
まず、新UIにて「データワークスペース」を開きます。
左側のメニューより「ユーティリティ」を開くと、右側に「CSV」のアップロードという項目があります。
ここからCSVのアップロード機能にアクセス可能です。
が、適切な設定がされていない場合は以下のようなエラーが発生します。
基本的にThoughtSpot側では一切データを保持しないため、CSVアップロード用のデータウェアハウスの設定が必要です。現状ではSnowflake限定のようです。
※トライアル環境は、商用環境と異なり、デフォルトでCSVアップロード機能がオンになっています。詳細はこちら を参照ください。
CSVアップロード用のDWHの設定
CSVをアップロードするためのDWHの設定は、「データのワークスペース」のメニュー内の「接続」を選択し、アップロード先として選択したいデータソースを選択します。各データソースに対しては、「データのアップロード」がすべて「無効化」となっている場合は、先程のようにアップロードができないので注意が必要です。
この機能はSnowflake前提ですので、Snowflakeを例に進めていきます。
データソースの名前を選択すると、各データソースの詳細設定画面に遷移します。右側にある3点メニューにて「データのアップロードを設定します」を選択すると、以下のようなメニューがポップアップします。
それぞれ設定をしてみます。ターゲットデータベースを選択した時点で保存ボタンが有効になりますが、スキーマの設定まで必要です。
ここで保存ボタンをクリックすると設定が完了します。接続を確認するとデータのアップロードが「有効化」されています。
アップロード先DWHが設定された状態でのCSVアップロード
CSVのアップロード先DWHが設定された状態で再度CSVのアップロードにチャレンジしてみます。「データのワークスペース」から「ユーティリティ」をクリックし、「CSVのアップロード」を行ってみましょう。
今度はしっかりと次に進めました。
手元のCSVファイル(カンマ区切り)をドラッグ&ドロップしてみましたが、ちゃんと認識されているようです。
各フィールド名の変更やデータ型の変更もアップロード時にできるようです。その後、「アップロード」ボタンを押すと、以下のように完了します。
実際にデータソースの選択画面にも、ちゃんと出てきています。
Snowflakeにアップロードされるようになっているため、Snowflakeのデータを扱うように検索ができます。
ちなみに、「データのワークスペース」上では、以下のように見えています。
Snowflake内にアップロードされたCSVファイルを確認する
今回はSnowflakeにデータがアップされるように設定しましたが、実際どのように格納されているのか見てみましょう。
Snowflakeにログインし、テーブルの状態を見てみましょう。
ファイル名から拡張子が削除され、ユニークなID的なものがついています(既存のテーブル名と被らないように、という配慮でしょうか)。ただ、このIDらしきものは、ThoughtSpot側では見えなくなっています。
また、テーブル定義を確認してみましょう。
VARCHARなどはマックスサイズで入っていますね・・・。
とりあえず使ってみる分には動くのでヨシ、といったところでしょうか・・・。
実際の運用について
CSVアップロード機能は、結局いずれかのDWHに保存するような形になっているため、ガバナンスを考えたときにカオス状態になる可能性を秘めています。実際に運用する際は運用方法もセットで考えることをおすすめします。
ちなみに、「デフォルトのCSVアップロード先として設定」をオンにしていない場合、複数のアップロード設定がされているとすべての保存先に保存されます。CSVのアップロード時に「このテーブルを他のテーブル/ワークシートと連動させたいですか?」を「はい」にすると、他のテーブルが選択できるようになり、選択したテーブルと同じスキーマのみに保存されるようになります。
まとめ
- ThoughtSpotのCSVアップロード(本番環境下)について解説しました
- CSVアップロード機能は、本番環境下とトライアルで異なります
- 本番環境下では、データソースがSnowflake限定となります
- トライアル環境下ではデフォルトで対応していますが、いくつかの制限が存在しています
- ファイルは10個まで
- 容量は50MB
- 実際にこの機能を本番環境で利用する場合は、CSVアップロード専用のスキーマを作ることをおすすめします。
- 複数の接続に対してCSVアップロード機能をオンにする場合はご注意ください
- 「デフォルトのCSVアップロード先として設定」がオンの場合は、そこのみに保存されます
- 「デフォルトのCSVアップロード先として設定」がオフの場合、すべてのアップロード先に保存されます。「このテーブルを他のテーブル/ワークシートと連動させたいですか?」を「はい」にしてアップロードすれば、選択したテーブルと同じ場所のみにアップロードされます。
参考URL
※ThoughtSpot Cloud Version: 10.1.0.cl-215 時点の情報です