数学
高校生

数1の質問です。データについての単元です。
偏差、標準偏差、分散、共分散、相関係数、の言葉の意味を教えてほしいです。
「偏差はデータから平均値を引く、分散は偏差の二乗の平均値」という風に覚えようにも頭に入ってきません。覚える手がかりとしてそれぞれの言葉の意味を知りたいです。よろしくお願いします。

2変量データ iXi Yi 1 X1Y1 ⠀⠀⠀ n Xn Yn 合計して n で割る 平均値 x, y 平均値 との差 偏差 - X; - X,Y; - y x,yの偏差 をかける 偏差の積 (x-x)(yi-y) 合計して nで割る 共分散 Sxy |2乗 相関係数r データの分析 重要公式の関係 偏差の2乗 (x-x)2, (yi-y)² 合計して nで割る 分散 Sx2, Sy2 正の平方根 をとる 標準偏差 Sx, Sy Sxy SxSy
数1 数ⅰa 数学 高校数学

回答

偏差は、平均値からのズレです。

標準偏差と分散はよく似ていて、どちらもデータの散らばり具合を表します。
データの散らばり具合は各データの偏差を平均すれば数値化できると思いませんか?偏差の平均が大きいデータ群はばらつきが大きいはずです。
ところが、ただ単純に偏差の平均をとると、偏差は平均値を基準に決めているので、正の偏差と負の偏差が相殺されて必ず0になってしまいます。これではどうしようもないので、偏差の2乗を取って、符号をすべて正にして、その平均で表すことにしたんです。これが分散です。先ほど言った通り、要はデータの散らばり具合を表します。

分散はもとの偏差を2乗しているので、もとのデータ群と次元が違います。なので、元の大きさに戻すような感覚で分散の平方根をとったものが標準偏差です。実質的に、これもデータの散らばり具合を表しています。
え、これだけの違い?と思うかもしれませんが、実は統計学の世界では分散と標準偏差は極めて重要な値で、高校では習わない学問領域において、実に多彩な役割を持ちます。

共分散は2つのデータ群に関係性があるかないかを表しています。共分散は2つのデータの偏差をかけたものの平均です。言語化しづらいので、参考書で確認してもらいたいですが、共分散は確かに2つのデータ群の関係性を検討する指標として働きます。
例えば、数学と理科の点数に相関関係があるか?というのを知りたければ、共分散をとればわかります。
しかし、共分散は、身長と体重に相関関係があるか?というように、データの数値系統そのものが違うものや、単位が異なるもの同士はそのまま比較できません。

こういうのを比較したいときは、相関係数を取って調べます。相関係数もデータの関係を表す値です。こっちは標準偏差を使って規格化してあるので、身長と体重など、系が違う数量同士も比較することができます。

アフロ博士

追記

高校生ながら、よく勉強されていると思います。
僕も今、大学で統計学を学んでいますが、丸暗記ではなく、やはり意味をとって、ひとつひとつの理論を詰めていかないと役に立ちません。
統計学は理論が芋づる式に繋がっているのが顕著な学問なので、一つ学べば、また一つ新しい疑問が出てきて、もやもやする気持ちがよくわかります。
高校生は時間がなくて大変と思いますが、質の高い勉強をされれば、それが活きるときが必ず来ますので、ぜひそのスタイルを変えずに頑張ってください。

ぺんぎん

【アフロ博士 さんへ】
_標準偏差・分散・共分散の標準値は平均値ですが、偏差の標準値は平均値に限定されていません。
_偏差は、本来は、標準値とデータとの差、と言う意味であり、標準値は、平均値に限定されず、最頻値やら、中央値やら、である場合が有ります。ですから、殆どの論文、書籍でひ、「平均値からの偏差」と明示的に説明されています。

_それから、良く勉強しているのではなく、2020年の新高1生から、学習指導要領が変わって、データ(統計)の授業が強化されているのです。
_その代わり、ベクトルが数ⅢCになって、文系だと全くベクトルを習わない人が出始めているのです。
_どんなもんなのだろうか?
_詰まり、IT化が進んで、データサイエンティストとかが欲しい、と言う、政府の考えなのだろうけれども、ベクトルやらない人が人口の半分程度出て来る様になるのです。

アフロ博士

>ぺんぎんさん
ご教示ありがとうございます。

標本のデータ数が著しく小さい場合などでは、算術平均よりも中央値を標準値として扱った方がよいとする文献を見た記憶があります。偏差の標準値を平均値に限定しないことと何か関係があるでしょうか。

それと、学習指導要領の件、確かに変わりましたね。
統計か、ベクトルか、と言われれば確かに統計の方が文理問わず幅広く適用できますよね。
線形代数、微積、統計は数学のなかでも土台的な位置付けとの見方が多いですが、ベクトルが含まれる線形代数はフーリエ変換や物理現象の理解などの基礎であり、マニアックな方へ発展していくイメージですから、文科省がベクトルより統計を重視するのも理解ですね。

ぺんぎん

_日本語は偏差って堅苦しいけれども、英語は Deviation Value で、Diference と殆ど意味が変わらないですからね。日本語でも、差、程度の意味しかないので、どの標準値を選択するか、は、場合に依るのでしょう。
_私は、ベクトルを習わなかったら、物理の理解が可なり落ちる、と、推測するのだけれども。データの理解が広がる事は喜ばしいけれども、ベクトルを捨てて良いのか?微積分は(選択で)捨てても良いかも知れないけれども、と、思ってしまう。

ぺんぎん

_と言うか、統計は、半分嘘で、統計を学ぶ、と言う事は、何処に嘘(仮定)があるのか、知るための学問だと思っている、少しひねくれた人間なので……。

アフロ博士

もっと統計学、勉強します。

入試問題の変化も気になるところですね。
ベクトルだと思考問題が作りやすいように思えますが、統計だと、特に高校のうちに習える範囲だと、公式の証明は無理でしょうから、「こう言うケースがある。統計的に分析して、これが正しいか、説明しろ。」みたいな問題でしょうか。

せっかくがっつり統計するなら、統計の確率的性質にもきちんとふれて、確率を学ぶ意味を実感させてあげたいですね。

ぺんぎん

_一番の肝(きも)は、統計適応事実と論理的事実との違いを認識出来るか、ヒューリスティックな問題解決と、アルゴリズムによる問題解決と、を使い分けられるのか。(自分でやるのではなく、指示する場合に、どちらを使うべきなのか、判断できるのか。)だと、実感しています。
_今後、暫くの間は、ディープ・ラーニングによる推論が持て囃されるでしょうが、唯の統計による推論で、容易にその推論をコントロールされうる、と言う事が理解出来るか、が、肝だと思います。
_例えば、今は、竹島がどこの国の領土か?をChat GPT(GPT-4)に問えば、日本の領土と答えるけれども、bot で、竹島が韓国の領土である、と無数のウェブ・コンテンツを作れば、ウェブ・ブラウザのサジェスト汚染の様に、竹島は韓国の領土だ、と答える様になる訳です。
_恐ろしい世の中に成ります。権力者の好きな様に事実を書き換える事が可能な世の中になるのです。

この回答にコメントする
疑問は解決しましたか?