Alteryxツールアイコン「ピアソン相関ツール」(Pearson Correlation Tool)をご紹介します
ピアソン相関ツール(Pearson Correlation Tool)
[データ調査]カテゴリの[ピアソン相関]ツールについて紹介します。概要
[ピアソン相関]ツールはピアソン相関を使用して2つの変数間の相関を測るツールとなります。ピアソン相関とは
そもそもピアソン相関とはなんでしょうか。ピアソンとつくと「?」となりますが、2つのデータの相関を表す尺度として最もポピュラーなもので、単に相関といえばこのピアソン相関のことを指します。ピアソン相関ではじきだされた数値のことをピアソン相関係数(ピアソン積率相関係数)といい、2つの連続する変数の間の線形関係の強さと方向を定量化しものです。値は-1~1の範囲をとり、データ間に線形的な関係性があれば数値に正もしくは負の値で表し、まったく相関がみられなければ0となります。(0でも相関が無いとは言えないケースもありますがその説明は省きます)相関係数が1もしくは-1に近ければ近いほど強い相関があるとみなされ、0に近ければ近いほど相関がないということになります。
2つのデータの関係をプロットして散布図にしたときに右上がりの傾向がみられる(一方の値が増えるともう一方の値も増える)場合に正の相関が、右下がりの傾向がみられる(一方の値が増えるともう一方の値が減る)場合に負の相関があると言います。
ピアソン相関ツールでは相関係数だけでなく共分散という値も算出します。共分散もデータ間に正の相関があるのか、負の相関があるのかを表す値で、相関係数の算出時に利用されます。ただし共分散は結果の値にスケールの規定がないため相関係数とは異なり、単純に値が大きいから強い相関があると言えるものではありません。
今回はピアソン相関係数や共分散についての説明はしませんので、算出方法など詳細を知りたいかたは申し訳ありませんが別途ご自身でご確認を。
設定項目
ピアソン相関ツールで設定する項目は2か所です。
ひとつは相関をみる変数のフィールドの選択で、もうひとつは「相関を計算する」「共分散を計算する」のどちらの結果を出力するかを選択します。
「相関を計算する」を選択すると選択した変数間の相関係数を、「共分散を計算する」を選択すると選択した変数間の共分散の算出結果を出力します。
使い方
ビアソン相関ツールがどのように使うか、出力結果と一緒に見てみましょう。
下記のデータを指定してみます。プロットすると右側の散布図のようになるデータです。
上記のデータを入力データとして、相関をみる変数にxとyを指定して相関係数と共分散それぞれの出力結果をみてみます。。
出力された相関係数の値をみると0.991という結果がでていて、散布図でみてわかるとおり2つのデータには強い相関がみられることがわかります。
3つ以上の変数を指定した場合
変数を3つ指定した場合にどのような出力になるか見てみます。
x、 y、 zの3つの変数を選択して相関係数をだしてみました。このように3つ以上の変数を指定してそれぞれの相関をまとめてみることも可能です。
xとyでみると0.991と強い相関がみられますが、xとz、yとzではそれぞれ-0.084、-0.093とxとyのような強い相関はみられないという結果がわかります。
まとめ
ピアソン相関ツールは、選択した変数間の相関係数、共分散をだしてくれるツールです。
機械学習の予測モデルを構築する際に使用する予測変数にどの変数を使用すればよいかの判断材料を提供してくれます。
※Alteryx Designer 2024.1.1.93 時点の情報です