AlteryxでGoogleのBig Queryにバルク接続で接続する方法について解説します
DBに書き込む際、思ったように早くないというケースも多いかと思いますが、そのような場合はバルク接続で接続することで高速化が図れます。Big Queryも同様に、バルク接続することで高速にデータを保存することが可能です。
まず、BigQueryへのバルク接続は、DCM接続必須となりますので、DCMのチェックを入れてください。
事前準備
バルク接続でデータを書き込む際、テンポラリで使用するGoogle Cloud Storage(GCS)のバケットが必要になります。それでは、まずバケットを作ってみましょう(すでにバケットがあるのであれば、それをご利用いただいても構いません。その場合は本項目は読み飛ばしてください)。
GCSのバケットを作成する
GCPのCloud Storageのメニューからバケットを「作成」するボタンをクリックします。
まず、以下のようにバケットに名前をつけます。次に、データ保存場所のリージョンを決めます。データセットと同じ場所を指定するとコスト的には安くなります。基本的に一時的に保存する場所として使うだけなので、コスト優先で選んで問題ないと思います。すべて設定できましたら、最後に「作成」をクリックします。
その他の設定は特に必要ありません(また、公開設定なども「公開しない」設定でオッケーです。むしろ機密データになると思うので、公開する設定にしないようにしましょう)。
データ出力ツールでバルク接続の設定を行う
それでは、データ出力ツールでバルク接続の設定を行っていきましょう。「ファイルまたはデータベースへの書き込み」の「接続を設定します」ボタンをクリックします。
接続マネージャーが開くので、新規で作っていきます。
以下、必要事項を入力していきます。
- データソース名
適当にわかりやすい好きな名前を決めます。
- カタログ(プロジェクト)
保存先テーブルのプロジェクト名を指定します。データセットIDの「.」(ドット)の前の部分が該当します。
- データセット
保存先テーブルのデータセット名を指定します。データセットIDの「.」(ドット)の後ろの部分が該当します。
- バケット名
あらかじめ作成したテンポラリのバケット名を指定します。
カタログ(プロジェクト)、データセットについては、以下のようにGCPのBigQueryのデータセット情報から確認可能です。これらはデータセット情報のデータセットIDから入手できます。データセットIDのドットの前後が、[カタログ名].[データセット名]といった形になります。
最後にクリックしたら、次は認証です。「資格情報の接続」をクリックします。
認証方法は、「Googleでサインイン」を選択します。
次に、資格情報で、既存の資格情報もしくは新規を選択します。
最後に保存/リンクをクリックします。
「接続」をクリックします。
認証が切れていたり、新規の場合は、ここで認証が走り、ブラウザにて、Googleへのログインを求められます。
さらに「続行」してください。
以下の画面が出現したらオッケーです。保存先のテーブル名を指定するウィンドウが出現するはずです。
「出力テーブル」で、保存先のテーブル名を記載します。
以上の手順により、以下のように設定されます。
なお、出力オプションは、以下から選択可能です。
- 既存のものを付加する
- データを削除して付加する
- テーブルを上書きする(ドロップ)
- 新しいテーブルを作成する
すでに存在するテーブルに対して、「新しいテーブルを作成する」で同じ名前で保存しようとすると、エラーになるので気をつけてください。