正規表現でひらがな、カタカナ、漢字を分割する方法
Alteryxを使いながら最もパフォーマンスある文字列修正ツールを選ぶとしたら、私は正規表現ツールを選びます。
最初は正規表現を慣れるまで時間がかかると思いますが、使い方に慣れると、どんな文字列に対しても上手く処理することができました。
今回は正規表現ツールを使って漢字、ひらがな、カタカナで書かれたデータを分ける方法についてご紹介したいと思います。
Alteryxの正規表現ツールについてはこのリンクの説明を参考にしてください。
正規表現の使い方
上記のイメージが今回使うワークフローとなります。
[名前]列の1行目には【漢字、ひらがな、かたかな、半角カタカナ】で書かれた文字列がありますそれでは、この文字列を正規表現を使ってそれぞれ分けてみます。
- 各文字種の正規表現
- 漢字
- ひらがな
- カタカナ
- 半角カタカナ
- トークン化
- 指定文字を削除
1. 各文字種の正規表現
a. 漢字
正規表現:[一-龠]
※このままコピーして使ってください
漢字で書かれた文字を出力するためには[一-龠]という正規表現を使います。
上のイメージを説明すると、[名前]列の中で漢字の文字が1回以上繰り返しているのをグループにします。
そして、正規表現ツールの出力オプションで解析を選択し、新しい[漢字]列を生成し、保存しています。
b. ひらがな
正規表現:[あ-んー]
※このままコピーして使ってください
ひらがなで書かれた文字を出力するためには[あ-んー]という正規表現を使います。
上記の説明と同じですが、ひらがなを出力しています
c. カタカナ
正規表現:[ァ-ヶー]
※このままコピーして使ってください
カタカナで書かれた文字を出力するためには[ァ-ヶー]という正規表現を使います。
上記の説明と同じですが、カタカナを出力しています
d. 半角カタカナ
正規表現:[ア-ン゙゚ー]
※このままコピーして使ってください
半角カタカナで書かれた文字を出力するためには[ア-ン゙゚ー]という正規表現を使います。
上記の説明と同じですが、半角カタカナを出力しています。
2. トークン化
Alteryxの正規表現ツールには出力方法として「トークン化」オプションがあります。
正規表現に一致する部分に分割することで、上のイメージでは[ひらがな、カタカナ、半角カタカナ、漢字]4つとそれぞれ一致し、行に分かれました。
3. 指定文字を削除
正規表現では[^ ]中に指定した文字を入力すると、指定した文字以外が出力されます。
上記には[^ ]中に半角カタカナ範囲(ア-ン゙゚)を記述しており、半角カタカナ以外の文字列が出力されました。
Tip
Alteryxの正規表現ツールを使う時、一度作成した正規表現をオンラインテストサイトで確認してみる方法をおすすめします。
私はこのウエブサイトで作成した正規表現式が正しいか確認しています。
このように作成した正規表現に対して、どこまで一致する文字列か色別に確認できるので、正規表現式を理解するのに助かります。
まとめ
今回はAlteryx上で漢字、ひらがな、カタカナを正規表現を使って分ける方法についてご紹介しました。
文字 | 正規表現 |
---|---|
漢字 | [一-龠] |
ひらがな | [あ-んー] |
カタカナ | [ァ-ヶー] |
半角カタカナ | [ア-ン゙゚ー] |
※上記の正規表現はコピーして使ってください。
このように正規表現ツールを使うと、特定文字を探すことも消すこともでき、データ前処理の効率を高めることができます。