標準偏差とは、データや確率変数などによる平均値からの散らばり具合を表す指標の一つです。
例えば、このデータはどれだけばらけているのかをexcelなどで計算して知ることのできるわかりやすい指標の一つと言っていいでしょう。
標準偏差を理解して社会に出ると大変役に立つので、学生のうちにしっかり理解しておきましょう。
まず、データを読み取りする方法には2つの方法があります。
その2つの方法とは、データを分かりやすく整理する方法と、データの特徴を表す数字(代表値)を計算する方法です。
それでは、この2つの方法についてわかりやすく解説します。
例えば、ここに一年生全員の身長のデータがあります。
この身長のデータだけでは、数値がばらばらにあるだけでわかりにくいですね。
そこで、この身長のデータを整理して見やすくします。
データを整理する方法としては2通りのやり方があるので学習していきましょう。
まず、身長に関して一定の幅の間隔を決めます。
そして特定の幅の間に何人いるかを数えるという方法です。
例えば、130cmの身長から10cm毎の幅で140、150、160〜と身長毎に区切ります。
130cm以上で140cmより低い、140cm以上で150cmより低いと区切っていくと、全員の身長のデータが10㎝毎に整理されます。
そうすると、10cm毎の人数を数えれば、この学年では何cmぐらいの人が一番多いかわかります。
さらに、これを表にするともっと見やすくなります。
一目見ただけで何cmから何cmまでの人が一番多いのかがすぐわかりますね。
この表のことを「度数分布表」と呼びます。
そして、この身長を「階級」と呼び、その階級に入っている人数のことを「度数」と呼びます。
先ほどの表だけでもかなり見やすくなりましたが、例えば度数を表すときに「150cmから160cmの階級では~」と言っても問題はないのですが、この「150cmから160cm」という階級を一つの値で表すことができます。
一つの値で階級から階級について表す方法は簡単です。
例えば階級が150cmから160cmだったら、その平均値は155cmなので、この値をこの階級の代表の値だとするとわかりやすいですね。
それぞれの階級の平均の値のことを「階級値」と呼びます。
さらに、この表の右側にこういう列を付け加えると、それぞれの階級に属する度数の割合になります。
度数の割合は、全体に対して何パーセントぐらいがその階級に人がいるのかを表しています。
この全体に対する割合のことを「相対度数」と呼びます。
この表のように整理すると見やすくなるのですが、さらに絵で表現すると直感的にわかりやすくなります。
一番高いところが、一番人数が多いところだということがすぐ理解できますね。
縦の高さが高いほど度数が大きいという意味で、この左の帯の幅がさっきの階級になります。
このような図のことを「ヒストグラム」と呼びます。
以上がデータを整理する方法の1つ目です。
データを整理する方法の2つ目なのですが、データ中の最小値と最大値の中間値がどのくらいか、一目でわかりやすくする方法です。
まずデータを小さい順で並べます。
そうすると、最小値と最大値がわかるので、直線上に書き込みます。
そして、並べることにより、ちょうど真ん中の値がわかりますね。
それもここに記述しておきましょう。
それから、このデータの特徴を詳しく知るために、真ん中の値と最小値の真ん中の値や、真ん中の値と最大値の真ん中の値を数直線の上に印をつけます。
すると、このデータの特徴が少し見えてきます。
しかし、この直線上の印だけではどれが最大値か、またはどれが真ん中の値なのかわからず混乱することでしょう。
だから、それがしっかり理解できるように、このように少し線を書き加えると、真ん中のところに箱があって、両脇にヒゲが生えているように見えます。
これを「箱ひげ図」と呼びます。
この箱ひげ図の箱の一番左の所の値、これは真ん中の値と最小値の真ん中の値ですが、このことを「第一四分位数」と呼びます。
逆に一番右側の値の真ん中と最大値の真ん中の値を「第三四分位数」と呼びます。
また、第一四分位数と第三四分位数の範囲の間の数字の幅のことを「四分位範囲」と呼びます。
この四分位範囲が広がるほどデータがばらついていることを意味していて、小さいとデータがまとまっていることを意味しています。
このようにデータの特徴を読み解くことができます。
以上が、データを分かりやすく整理するという方法でした。
データの特徴を表す値を計算する方法を紹介します。
まず代表値についてふれておきます。
代表値には「平均値」「中央値」「最頻値」の3種類があります。
平均値はデータの値を全部足して、データの個数で割ることで求められます。
中央値は先述した箱ひげ図を作るときにも使っています。
データを小さい順に並べて、その真ん中の値が中央値になります。
例えば、こんな感じになります。
このデータを小さい順に並べると、真ん中は3ですね。
例えば、より大きな数字である9をこのデータに加えたらどうなるでしょうか?
そうすると、真ん中の値が無くなってしまいます。
この場合は、真ん中にある2つの値である3と5の平均値を計算します。
3と5の平均値は4なので、このデータの中央値は4です。
最後に最頻値です。
最頻値というのは、度数が最も多い階差値のことをいい、そのデータの中で一番よく見かける数字になります。
例えば、さっきの例で見てみましょう。
さっきヒストグラムを勉強したときに、こんな図を紹介しました。
このヒストグラムでは、縦の高さに何を表していたかと言うと度数でした。
この度数が一番多い所の階級値が最頻値です。
そのため、この赤で囲んだところの階級値が最頻値になります。
階級値というのは、度数分布表の階級の真ん中の値(平均値)です。
ここでは、データの特徴を表す数字を計算する方法の一つである代表値について勉強しました。
CHECK
データの特徴を表す数字は他にもあります。
それは、データのばらつきを表す量です。
ばらつきと言うと、少しわかりづらいので、この2つのデータを見てみましょう。
これはA組とB組のテストの結果です。
A組とB組でそれぞれの平均点と中央値を考えてみましょう。
よく見ると平均点はわかりやすくて、どちらも80点です。
では、中央値はどうでしょうか?
中央値も真ん中の値なので80点になります。
つまり、代表値は同じということです。
しかし、このA組とB組の2つのデータをよくみてみると、みんなの学力がまったく同じだとは思えません。
それはなぜかというと、ばらつきが違うからです。
ですから、ここではA組はみんなが同じくらいの学力であり、B組はすごくばらついていることを表す量について計算をしてみましょう。
そのばらつきを計算する方法は少し大変なので、順を追って説明します。
まず最初に平均値を計算します。
平均値は80点です。
その平均値からそれぞれのデータの平均値を引きます。
例えばA組で言うと、‐2点 、-1点、0点、1点、2点 みたいな感じになると思います。
この引いた値を一つにまとめることができれば、ばらつきがうまく表せそうです。
しかし、例えば足して5で割って平均を取ってみるとどうなるでしょうか?
計算してみると0になります。
これはB組で行っても同じになるのですが、なぜそうなるかというと、それぞれマイナスやプラスがあるからです。
マイナスの値は数値を打ち消すことになるので、ばらつきをうまく表すことができません。
ですから、このマイナスをなんとかするために、このマイナス付きの平均点との差を2乗にします。
下に書いてあるように、4点、1点、0点、1点、4点になりますね。
この2乗した平均との差から、さらに平均を取れば、このばらつきを表す指標として使うことができます。
ですから、平均は2ですね。
この数字は、A組のばらつきを表す数字としても使えます。
そこでB組の方も同じように計算してみると、平均点との差の2乗の平均により200になります。
A組とB組でばらつきを表す数値が大きく違いますね。
これで、B組の方がばらついているということがわかると思います。
ただし、ひとつだけ少し不都合な点があります。
それはA組とB組のばらつきを表した数字の単位がおかしくなっていることです。
計算の途中で2乗をしたため、単位が点数ではなく点数の2乗のような、よくわからない単位になっています。
この場合は「A組のばらつきを表す数字が2です」と言われても、実際どのくらいばらついているのかがわかりません。
ですから、この数字の単位を元のデータと同じようにそろえるために、正の平方根を取ります。
A組だと√2、B組だと10√2になります。
これは単位が点数という元のデータと同じため、A組は√2点ぐらいばらついているとか、B組は10√2点ぐらいばらついていると言うことができます。
それでは、今回の記事の内容を理解するために一度、次に表示する問題を解いてみましょう。
計算する工程はたくさんありますが、解き方が決まっているため、楽に解けると思います。
まずは、平均値を求めてそれぞれのデータから平均値を引きます。
この数字を2乗してから全部を足して、データの個数で割ると出てくる答えがばらつきを表す数字になります。
そして、このばらつきを表す数字から、さらに正の平方根をとると、こんな感じになります。
まずは、平均値を求めてそれぞれのデータから平均値を引きます。
この数字を2乗してから全部を足して、データの個数で割ると出てくる答えがばらつきを表す数字になります。
そして、このばらつきを表す数字から、さらに正の平方根をとると、こんな感じになります。
解けましたでしょうか?
今回はデータ分析について勉強しました。
そして、データの分析の中でもデータを整理する方法と特徴を表す代表的な値を計算する方法について解説しました。
CHECK
標準偏差には難しい言葉や知らない言葉が出てきて、なんとなく敬遠してしまいがちです。
しかし、用語の意味さえ理解していたらかなり解きやすい分野です。
数学1のデータの分析は必須の範囲ですが、基礎さえできていれば問題なく高得点を狙えるので、しっかりと理解を深めましょう。
まず、最初は理解を進めるために基本的な問題から取り組むようにしましょう。
標準偏差を勉強するためには、用語をしっかりと覚えて理解することが大事です。
また、標準偏差を含め「データの分析」にはその先に習う「統計」が待っています。
そのため、ここで重要なのは基本的なことを理解するために問題を繰り返し解くことです。
CHECK
オンライン数学克服塾MeTaの基本情報 | |
---|---|
対象 | 中学生・高校生 |
授業形式 | オンライン(個別1対1、集団) |
特徴 | 数学克服・対策に特化したオンライン専門塾 |
オンライン数学克服塾MeTaは、暗記力ではなく思考力の向上を重視しています。
これからの数学はただ記憶しているだけではなかなか解くことは難しく、暗記だけだと数学の苦手を引き起こす原因ともなります。
そのため、オンライン数学克服塾MeTaは、生徒のノートをしっかり確認して考え方や理解度を注意深く観察したうえで指導を行っています。
さらに、生徒との対話の時間をしっかり取ることで生徒の理解度をより一層感じることが出来ます。
指導を担当する講師はただ単に数学が得意な講師というわけではなく、生徒が感じている数学の「苦手」に寄り添うことができて、基礎的な問題から丁寧に指導できる人を採用しています。
そのため、講師の進め方と生徒の理解度がずれることもなく、各生徒に最適な指導を行うことが可能です。
自分の数学力に自信がない、という方もぜひお問い合わせしてみましょう。
CHECK
標準偏差を勉強するなら「家庭教師のトライ」がおすすめです。
なぜおすすめなのか、その理由を2つご紹介します。
「家庭教師のトライ」では、脳科学理論を使った復習方法を行っているため、記憶の定着力向上につながります。
「家庭教師のトライ」では、脳科学理論を応用した復習方法を行っています。
覚えた知識を脳にしっかりと定着させるので記憶の定着力向上につながります。
そのために実施しているのが、「ロビンソンの法則」「エビングハウスの法則」「リハーサル法」の3つの法則です。
最も効率よく脳に記憶されることができる「学習から1時間以内」に記憶を思い返して復習を行います。
学んだ日の夜とその翌日に、もう1度復習の時間を取ることで学んだ内容を深く定着させます。
「家庭教師のトライ」では、厳選したプロ家庭教師が徹底指導をおこなっています。
トライの家庭教師の採用基準は、学歴や経験年数だけでなく、人間性、責任意識、思考力など多岐にわたっています。
トライのプロ家庭教師は、指導経験・合格実績・評判など厳しい採用基準で選抜されている一流の教師です。
ご家庭から一度でもクレームをいただいた教師はプロ家庭教師になれません。
そのため、志望校や目標などを総合的に分析して、最適なプロの家庭教師を紹介してもらえます。
また、中高一貫校別の対策や進学塾別のサポートも充実しています。
CHECK
今回は、高校で習う標準偏差について、データの読み取り方法として「データの整理方法」や「データの特徴を表す数値を計算する方法」について解説しました。
標準偏差については用語をしっかりと覚えて基本的な解き方を理解することが大切です。
繰り返し問題にチャレンジしながら解き方を理解しましょう。
また、度数分布表やヒストグラムを作成することにより、データを整理してみることが更なる理解につながります。
今回の記事で理解が進んだら、徐々に難しい問題にもチャレンジしてみましょう。
「標準偏差」に関してよくある質問を集めました。
標準偏差を答える値としては√でなく小数の場合があります。問題に例えば「√5≒2.236 を用いて求めよ」と指示がある場合は少数で答えることになります。標準偏差の答え方の詳細はこちらを参考にしてください。
最頻値はもっとも多く出てくる値のことを指します。中央値は小さいものを順に並べた時に、真ん中にくる値のことです。奇数個なら真ん中の値であり、偶数個なら真ん中の2つの平均値の値になります。そのため、最頻値と中央値は同じものではないことを覚えておいてください。最頻値と中央値についてはこちらを参考にしてください。