【Alteryxアイコン200連発】データ入力ツール(Input Data Tool)

Alteryxツールアイコン「データ入力ツール」(Input Data Tool)をご紹介します

データ入力ツール(Input Data Tool

[入出力]カテゴリの[データ入力]ツールを紹介します。

概要

ワークフロー内で利用したいファイルやデータベースへの接続機能を提供します。

設定項目(共通)

初期状態は以下の通りとなります。オプションの部分は接続するデータソースによって大きく変わりますのでご注意ください。

オプションの共通項目としては以下の通りとなります。

項目名 内容
ファイル形式 指定するファイルのファイル形式を選択します
レコード制限 読み込む際の行数に制限をつけることができます。テスト用にどうぞ。
サブディレクトリを検索 ファイル名にワイルドカードを使用して複数ファイルを読み込む際、チェックを入れるとサブディレクトリにあるファイルも読み込みます
ファイル名をフィールドとして出力する ファイル名を格納するフィールドを項目として追加します。「フルパス」と「ファイル名のみ」から選択可能です。

対応ファイル形式は以下の通りとなります。

その他、以下データベースに対応しています。正確なリストについては、Alteryx社のホームページを参照ください。

  • Microsoft SQL Server
  • Oracle
  • Hadoop
  • ODBC
  • OleDB
  • Oracle OCI
  • Teradata Bulk
  • ESRI

なお、DBは通常64bit接続ですが、32bit接続にも対応しています。ODBC経由で各DBに接続する場合は、各社が公開しているネイティブドライバをご利用ください。

設定項目(個別)

代表的なExcel形式、CSV形式について記載します。

Excel

Excelの場合は、複数の形式に対応しています(xls、xlsx、xlsb、xlsm)。また、xlsxはレガシー形式と通常のものに別れています(使用するドライバが異なります)。

※xlsbやxlsxでもレガシードライバを利用するデータソースが表示されないことがあります。その場合は、別途「Microsoft Access データベース エンジン 2010」が必要となります。

 

Excelで接続した場合は、読み込み範囲として、「シートを選択」「名前付き範囲を選択」「シート名のリストのみをインポート」を選択できます(読み込む形式によって異なります)。

通常は、単独のシートを読み込む形になるので、「シートを選択」から読み込みたいシートを選択します。

「名前付き範囲を選択」は、Excelで定義した「名前付き範囲」のデータのみを読み込めます。

複数のシートを一度に読み込みたい場合は、「シート名のリストのみをインポート」を使います。その後、ダイナミックインプットを使って読み込みを行っていく形になります(ディレクトリーツールの使い方に近いです)。

※xls形式はできません ※ダイナミックインプットを用いた複数シートの読み込みは別途ご紹介します

読み込み後は以下の通りのオプションが表示されます。

【Excel】

【Excel(Legacy)】

共通項目以外のオプションを紹介します(ファイル形式によってオプションが異なるのでご注意ください)。

項目名 内容
最初の行はデータを含む チェックを入れると、カラム名はF1、F2、F3・・・とつくようになり、1行目をヘッダとみなさないようになります。カラム名が不定のファイルを無理やり読み込むような場合は有用なオプションですし、わざとカラム名を使いたくない時にはチェックを入れます
データインポートを開始する行 データ読み込みを開始する行を選択することができます(指定した行より前の行はスキップする)。頭に不要な行が入っているようなExcelファイルを取り込む際に重宝します。
%完了を表示しない チェックをつけると、ファイル読み込みの際にどこまで読み込んだかを表示しなくなります。チェックをつけた方が速度は早くなります。
注意点

なお、Excelファイルをワイルドカード(*)指定で複数のファイルを一括で読み込む際は、スキーマが異なる場合にエラーが出て読み込めないケースが多々発生します。

よくある事例として、全国の担当者に同じフォーマットのExcelを送付し、値を入力してもらったファイルを一括で読み込むとする際、ある担当者が勝手に項目を付け加えたりすると、そのファイルはエラーで弾かれてしまいます。見た目に同じようになっていても、項目ありと判定されるケースもあります。このような場合は別途回避手段を用いて読み込む必要があります(手段については別途ご紹介します)。

CSV

共通項目以外のオプションを紹介します(ファイル形式によってオプションが異なるのでご注意ください)。よく使うオプションに強調表示をしています。

項目名 内容
区切り文字 データのフィールド区切り文字を指定します。通常のCSVファイルであれば「,」(カンマ)です。タブ区切りであれば、「\t」となります。

区切り文字なしのテキストファイルとして読み込む場合は「\0」を指定します。その際、フィールド長も十分長いものにしてください。

最初の行はフィールド名を含む チェックを入れると、最初の行をカラム名として利用します。
フィールド長 入力データの最大フィールド長を定義します。表計算的な考え方で言えば、セル内の最大文字数というイメージとなります。
データインポートを開始する行 データをインポートする際に開始する行を指定します
以下のデリミタを無視する 以下の項目から選択します。

  • 引用:引用符内(")の区切り文字を無視します。例えば、"a,a"という内容があれば、区切り文字の中なので、データとしては「a,a」で読み込まれます。逆にこのオプションを利用しない場合は、カンマが区切り文字として認識され、「a」「a」と2つのフィールドに分かれて読み込まれます。
  • 一重引用符:一重引用符内(')の区切り文字を無視します。
  • 自動:自動的に検出された区切り文字を無視します
  • なし:区切り文字を無視しない

CSVはいろいろな形式があるので、適したものをご利用ください。

読み込みエラーを警告として扱う データ構造に適さないレコードは通常入力が失敗します(ワークフローが止まる)が、チェックを入れるとエラーを警告として扱い、読み込みが止まることがなくなります(ただし、読み込みできたとしても、ワークフローの途中で矛盾が起こればそこで止まると思います)。
コードページ 文字コードを指定します。通常の日本語Windowsで作成されたファイルは「ANSI/OEM - 日本語Shift-JIS」です。システムによっては、「Unicode UTF-8」などの利用もあるかと思います。読み込み時に文字化けが発生する場合はここを変更してください。

なお、日本語に対応していなかった過去バージョンでは、一旦そのまま読み込み、フォーミュラツールのConverFromCodePage関数などで適切な文字コードに変換などしておりました(日本語Shift-JISの932やUTF-8の65001を指定していました)。

共有書き込みアクセスを許可する チェックを入れると、開いているファイルなどをエラーなく読み込めるようになります。

また、拡張子と認識されたファイルのタイプが異なる場合、例えば拡張子がtxtのタブ区切りのファイルであれば、以下のような問い合わせ画面が出ます。

この場合は、正しい設定にして読み込みましょう(上の例で言えば、「区切られたテキストファイルとしてそれを読み込む」にチェックを入れ、タブを選択)。

CSVファイルの場合は、区切りなし(区切り記号を「\0」)

その他

その他のオプションについては、ヘルプの方によくまとまっていますので、そちらを参照いただければと思います。

関連記事

 

※Alteryx Version 2018.2.5時点での情報です

 

Alteryxの導入はぜひKCMEで!

セルフサービスデータ分析ツール「Alteryx」は2週間無償トライアルが可能です。

製品に対する操作方法、技術的な質問などは導入前・導入後に関わらずメールにてお答えします。また、Alteryxを用いた環境構築、開発、ヘルプデスク対応、ハンズオン、トレーニング、ワークフロー作成なども承りますので、お気軽にご相談ください。

おすすめの記事