今回の内容
散布図
2つの変数\(X\)と\(Y\)の組からなる\(n\)個の量的データ
\((x_i,y_i) \quad (i=1,\ldots,n)\)
を考えてみる。このような2つの変数をそれぞれ横軸と縦軸の値とした座標の1点として図示した図を散布図と呼ぶ。
平成30年国土交通省水害統計調査(表-28,表-33)より抜粋した1999年(平成11年)から2018年(平成30年)までの年次被災家屋棟数(戸)(Number_of_damaged_houses)と年次事業所資産被害額(百万円)(Amount_of_damage_in_business_sectors)のデータを使い、Rで散布図を描いてみる。
> a<-read.csv(file="https://fttsus.org/datascience/wp-content/uploads/2020/09/flooddata-en.csv",header=T,row.names=1)
> plot(a)
このような散布図で示される2つの値に関係性があるのかを調べる方法として次で述べる相関係数を使うと便利である。
相関係数
相関係数とは2つの量的変数\(X\)と\(Y\)との間に線形的な関係がどの程度あるかを計る尺度であり、-1から1の値をとる。定義は
\begin{equation} r_{xy} = \frac{\mbox{Cov}[X,Y]}{\sqrt{\mbox{Var}[X]}\sqrt{\mbox{Var}[Y]}} \end{equation}
で与えられる。ここで、\(X\)と\(Y\)の平均を
\begin{equation} \mu_X = \mbox{E}[X] = \frac{1}{n}\sum_{i=1}^n x_i\end{equation}
\begin{equation} \mu_Y = \mbox{E}[Y] = \frac{1}{n}\sum_{i=1}^n y_i \end{equation}
とすると、\(X\)と\(Y\)の不偏共分散\(\mbox{Cov}[X,Y]\)は
\begin{equation}\mbox{Cov}[X,Y] = \frac{1}{n-1}\sum_{i=1}^n (x_i-\mu_X)(y_i-\mu_Y) \end{equation}
となり, \(X\)と\(Y\)の不偏分散、\(\mbox{Var}[X]\), \(\mbox{Var}[Y]\)は
\begin{equation}\mbox{Var}[X] = \frac{1}{n-1}\sum_{i=1}^n (x_i-\mu_X)^2 \end{equation}
\begin{equation}\mbox{Var}[Y] = \frac{1}{n-1}\sum_{i=1}^n (y_i-\mu_Y)^2 \end{equation}
で求められる。
相関係数\(r_{xy}\)は、不偏共分散の代わりに共分散、
\begin{equation} \mbox{Cov}[X,Y] = \frac{1}{n}\sum_{i=1}^n (x_i – \mu_X)(y_i – \mu_Y) \end{equation}
を、不偏分散の代わり分散を使って
\begin{equation} \mbox{Var}[X] = \frac{1}{n}\sum_{i=1}^n (x_i – \mu_X)^2 \end{equation}
\begin{equation} \mbox{Var}[Y] = \frac{1}{n}\sum_{i=1}^n (y_i – \mu_Y)^2 \end{equation}
と計算しても同じ値となる。
Rを使って、上述のデータに対して相関係数を計算してみる。Rでは不偏共分散はcov()関数、不偏標準偏差はsd()関数で計算できる。
> cov(a)[1,2]/sd(a$Number_of_damaged_houses)/sd(a$Amount_of_damage_in_business_sectors.Million.JPY.)
[1] 0.911025
Rでは相関係数を計算するのに、cor()関数を使うこともできる。
> cor(a)[1,2]
[1] 0.911025
これより、被災家屋棟数と事業所資産被害額(百万円)との間には、相関係数0.911025という値が得られる。
相関係数\(r_{xy}\)は、-1から1までの値を取る。相関係数が1に近い場合は正の相関が存在しているという。一方の値が増加するともう一方の値も増加する関係にある。反対に-1に近い場合は負の相関が存在しているという。一方の値が増加するともう一方の値が減少する関係にある。相関係数が0に近い場合は無相関であるという。無相関の場合、多くの状況では2つの値には関連性が確認できない。
しかしながら、相関係数の絶対値が大きいからといって、必ずしも2変数間に関係があるわけではない。例えば、外れ値の存在によって大きな値になることがある。
また、相関係数の絶対値が小さいからといって、全く2変数に関係がないわけではない。例えば、2次曲線的な関係がみられる場合の相関係数はほとんど0に近い値となる。
相関係数を解釈するときには単に値だけを見るのではなく、散布図も図示して、その形状を考慮に入れて解釈することが重要である。