日本語の固有表現抽出を行うマクロ紹介
日本語の固有表現抽出を行うマクロです。内部的にはPythonツールを使用しています。
概要
PythonのGiNZA/spaCyを用いて、日本語のテキストから固有表現を抽出するマクロです。
インテリジェンススイートにも固有表現抽出ツールがありますが、英語のみの対応のため日本語で動作するものを作成しました。
マクロダウンロード
EntityAnalysisJa fa-download
使い方
設定項目
設定項目名 | 設定内容 |
---|---|
対象フィールドを選択:Text | 対象のフィールドを選択します。特に制限はありません(形態素解析の機能は内蔵しているため、事前に実施する必要はありません) |
出力結果
フィールド名 | 説明 |
---|---|
Record_No | 入力データの行番号です |
Entity_No | 各レコードごとに作成された固有表現の通し番号です |
Text | 抽出された固有表現です |
Label | 固有表現の種類です |
start | テキスト内の開始位置です |
end | テキスト内の終了位置です |
サンプル
本マクロのサンプルワークフローとなります。
【設定】
個別の設定はありません。
【インプットサンプル】
Alteryx社のホームページから持ってきました。
【アウトプット】
結果は以下のようになります。
技術情報
作成・動作確認バージョン
Alteryx Designer 2021.1.4.26400
参考情報
spaCy
https://spacy.io/ fa-external-link
spaCyはオープンソースの自然言語処理ライブラリです。多言語対応していますが、日本語で使うにはGiNZAのモデルを利用するのが一般的なようです。
GiNZA
https://megagonlabs.github.io/ginza/ fa-external-link
GiNZAは、言語処理ライブラリ「spaCy」を内部的に用いた自然言語処理ライブラリです。
本マクロでは、旧バージョンのginzaおよびja_ginza(v5)を使用しています。最新のTransformersを使ったモデル(ja_ginza_electra)は使用しておりません。
サンプルワークフローダウンロード
EntityAnalysis_SampleWorkflow fa-download
注意事項
- 本マクロに関する不具合、および利用したことによる損害については一切の責任を負いません
- 不具合報告、ご要望などあるようでしたら弊社フォームにて投稿頂ければ、本マクロの改良、機能追加など検討させて頂きますが、弊社都合にて行いますので要望の反映などのお約束はできませんのでご了承ください
- 有償でのカスタマイズ要望などあるようでしたら、弊社フォームにてお申し込みください。別途お見積りさせて頂きます