【AlteryxMacros】日本語の固有表現抽出を行うマクロ

日本語の固有表現抽出を行うマクロ紹介

日本語の固有表現抽出を行うマクロです。内部的にはPythonツールを使用しています。

概要

PythonのGiNZA/spaCyを用いて、日本語のテキストから固有表現を抽出するマクロです。

インテリジェンススイートにも固有表現抽出ツールがありますが、英語のみの対応のため日本語で動作するものを作成しました。

マクロダウンロード

EntityAnalysisJa 

使い方

設定項目

固有表現抽出設定画面

設定項目名 設定内容
対象フィールドを選択:Text 対象のフィールドを選択します。特に制限はありません(形態素解析の機能は内蔵しているため、事前に実施する必要はありません)

 

出力結果

フィールド名 説明
Record_No 入力データの行番号です
Entity_No 各レコードごとに作成された固有表現の通し番号です
Text 抽出された固有表現です
Label 固有表現の種類です
start テキスト内の開始位置です
end テキスト内の終了位置です

 

サンプル

本マクロのサンプルワークフローとなります。

固有表現抽出サンプルワークフロー

【設定】

個別の設定はありません。

【インプットサンプル】

Alteryx社のホームページから持ってきました。

インプット

【アウトプット】

結果は以下のようになります。

固有表現抽出結果

 

技術情報

作成・動作確認バージョン

Alteryx Designer 2021.1.4.26400

参考情報

spaCy

https://spacy.io/

spaCyはオープンソースの自然言語処理ライブラリです。多言語対応していますが、日本語で使うにはGiNZAのモデルを利用するのが一般的なようです。

 

GiNZA

https://megagonlabs.github.io/ginza/

GiNZAは、言語処理ライブラリ「spaCy」を内部的に用いた自然言語処理ライブラリです。

本マクロでは、旧バージョンのginzaおよびja_ginza(v5)を使用しています。最新のTransformersを使ったモデル(ja_ginza_electra)は使用しておりません。

サンプルワークフローダウンロード

EntityAnalysis_SampleWorkflow 

注意事項

  • 本マクロに関する不具合、および利用したことによる損害については一切の責任を負いません
  • 不具合報告、ご要望などあるようでしたら弊社フォームにて投稿頂ければ、本マクロの改良、機能追加など検討させて頂きますが、弊社都合にて行いますので要望の反映などのお約束はできませんのでご了承ください
  • 有償でのカスタマイズ要望などあるようでしたら、弊社フォームにてお申し込みください。別途お見積りさせて頂きます
おすすめの記事