【AlteryxTips】Google BigQueryにバルク接続で接続する方法について

AlteryxでGoogleのBig Queryにバルク接続で接続する方法について解説します

 

DBに書き込む際、思ったように早くないというケースも多いかと思いますが、そのような場合はバルク接続で接続することで高速化が図れます。Big Queryも同様に、バルク接続することで高速にデータを保存することが可能です。

 

まず、BigQueryへのバルク接続は、DCM接続必須となりますので、DCMのチェックを入れてください。

 

事前準備

バルク接続でデータを書き込む際、テンポラリで使用するGoogle Cloud Storage(GCS)のバケットが必要になります。それでは、まずバケットを作ってみましょう(すでにバケットがあるのであれば、それをご利用いただいても構いません。その場合は本項目は読み飛ばしてください)。

GCSのバケットを作成する

GCPのCloud Storageのメニューからバケットを「作成」するボタンをクリックします。

 

 

まず、以下のようにバケットに名前をつけます。次に、データ保存場所のリージョンを決めます。データセットと同じ場所を指定するとコスト的には安くなります。基本的に一時的に保存する場所として使うだけなので、コスト優先で選んで問題ないと思います。すべて設定できましたら、最後に「作成」をクリックします。

 

その他の設定は特に必要ありません(また、公開設定なども「公開しない」設定でオッケーです。むしろ機密データになると思うので、公開する設定にしないようにしましょう)。

 

データ出力ツールでバルク接続の設定を行う

それでは、データ出力ツールでバルク接続の設定を行っていきましょう。「ファイルまたはデータベースへの書き込み」の「接続を設定します」ボタンをクリックします。

 

接続マネージャーが開くので、新規で作っていきます。

 

以下、必要事項を入力していきます。

  • データソース名

適当にわかりやすい好きな名前を決めます。

  • カタログ(プロジェクト)

保存先テーブルのプロジェクト名を指定します。データセットIDの「.」(ドット)の前の部分が該当します。

  • データセット

保存先テーブルのデータセット名を指定します。データセットIDの「.」(ドット)の後ろの部分が該当します。

  • バケット名

あらかじめ作成したテンポラリのバケット名を指定します。

 

カタログ(プロジェクト)、データセットについては、以下のようにGCPのBigQueryのデータセット情報から確認可能です。これらはデータセット情報のデータセットIDから入手できます。データセットIDのドットの前後が、[カタログ名].[データセット名]といった形になります。

 

 

最後にクリックしたら、次は認証です。「資格情報の接続」をクリックします。

 

認証方法は、「Googleでサインイン」を選択します。

 

次に、資格情報で、既存の資格情報もしくは新規を選択します。

 

最後に保存/リンクをクリックします。

 

「接続」をクリックします。

 

認証が切れていたり、新規の場合は、ここで認証が走り、ブラウザにて、Googleへのログインを求められます。

 

さらに「続行」してください。

 

以下の画面が出現したらオッケーです。保存先のテーブル名を指定するウィンドウが出現するはずです。

 

「出力テーブル」で、保存先のテーブル名を記載します。

 

以上の手順により、以下のように設定されます。

 

なお、出力オプションは、以下から選択可能です。

  • 既存のものを付加する
  • データを削除して付加する
  • テーブルを上書きする(ドロップ)
  • 新しいテーブルを作成する

 

すでに存在するテーブルに対して、「新しいテーブルを作成する」で同じ名前で保存しようとすると、エラーになるので気をつけてください。

 

 

Alteryxの導入はぜひKCMEで!

セルフサービスデータ分析ツール「Alteryx」は4週間無償トライアルが可能です。

製品に対する操作方法、技術的な質問などは導入前・導入後に関わらずメールにてお答えします。また、Alteryxを用いた環境構築、開発、ヘルプデスク対応、ハンズオン、トレーニング、ワークフロー作成なども承りますので、お気軽にご相談ください。

おすすめの記事