個人的評価
授業の難易度:★☆(ふつう~やや易)
試験の難易度:★(易しい)
社会人へのおすすめ度:★★★(万人におすすめ)
仕事で数字を扱うようになると、単なる平均やグラフ化だけでなく、数字という事実を今後のマネジメントやマーケティングにどう活かすかなんてことも大切になってきたりします。
ニュースサイトなどを見ていても、貯蓄額や所得についてときどき平均値を用いて議論されることがあります。偏りや分布なども考慮しないと実態にそぐわないことがあるなんてことはよく聞きますが、ではどういうときにどう考えるのかなんてのももう少し深く知りたいと思っていました。
ちなみに私、大学の時に統計学をとったような記憶もあるので、おぼろげながらカイ二乗分布とかの言葉は覚えてたりするのですが、実際の扱いはさっぱり忘れています。
仕事においては必要に迫られるので独学でExcelなんかをいじりながら回帰直線を出したりして喜んでいたりするのですが、ネットで関数の使い方を見て当てはめるだけではなく、一度体系的に統計学をやろうかなとふと思い立ち、放送大学の統計関係の科目をとることにしました。
そんな感じで放送大学の「身近な統計」を取りましたのでちょっとしたレポです。
「身近な統計」は「基盤科目」に属するので簡単かなという印象を与えますが、しっかりとした現代の大学リベラルアーツ系学問ではないかと思います。どちらかというと教科書と抗議はかなりしっかりとした内容で進みますが、試験はちゃんと授業を聞いていた人であれば合格点は取れるちょっとやさしめな問題が出た印象です。私はⒶでした。
いきなり最初のページを開くと「大谷翔平(2016年)の球速の分布」という、2024年初めの結婚ネタで野球ファンではなくても大谷翔平の名前を毎日目にするタイミングでこの科目がいきなり「身近な」統計になっているというおまけつき。
目次はこんな感じです
第1章 論より数字,勘より統計 ~私たちの身近で活躍する統計情報~
第2章 データのばらつきの記述(質的データ) ~度数分布表とパレート図~
第3章 データのばらつきの記述(量的データ) ~度数分布表とヒストグラム~
第4章 データのばらつきを数字でまとめる ~平均値・中央値と箱ひげ図~
第5章 ばらつきの大きさを測る ~シグマ(標準偏差)の活用~
第6章 格差を測る ~ローレンツ曲線とジニ係数~
第7章 不確実な出来事を確率で考える ~2項分布~
第8章 不確実な出来事を確率で考える ~正規分布~
第9章 統計を作るー部分から全体を知る ~標本調査~
第10章 調査結果の誤差を知る ~推定値と標本誤差~
第11章 標本から仮説の真偽を判断する ~統計的仮説検定の考え方~
第12章 データから関係を探る ~クロス集計表の読み方~
第13章 関係のパターンを読む ~相関係数と傾向線~
第14章 時系列データの分析 ~変化の記述と将来の予測~
第15章 デジタル社会の意思決定を支える統計 ~全体のまとめ~
第1章はイントロで統計がどういうところに使われているかという説明です。講義そのもののイントロなので、筆者としては思い入れが強いところではあるのだろうけれど、1.5倍速くらいで飛ばしました。いわゆる読み物として、これからの統計学をやるメリットがおぼろげにつかめるので読まないのはもったいないです。
第2章も用語集という印象です。質的・量的データとは何か、それぞれの尺度については過去問でも出ていましたし、おそらく何等かは出てくると予想、実際出ました。度数分布表やパレート図はビジネスで出てくることも多いので、イメージがつかめるのであればこの章もそれほど難しくなかったです。こちらも1.5倍速でさらっと通過です。
第3章、ここはヒストグラムオンリーです。単峰性、多峰性、左右に歪んだ分布あたりを押さえておけば十分かと。棒グラフってなじみが深いですけど、その形の特徴を言葉で表現することはなかなかないので、そういった意味でよい復習です。
ここらあたりでは「思ったより余裕だなぁ~」と感じていました。
第4章、平均値と中央値。特に中央値という概念は社会人にとってとても大切だと思うのですが、なぜか義務教育ではやられていない(気がする)のが不思議です。65歳時点の「平均」貯蓄額だとか、東大生の親の「平均」年収だとかが時々出てきますが、そうした(あまり統計的な知識のない人)向けの説明がいかに実態を見誤る可能性があるのかを教えてくれます。72ページの箱ひげ図の見方は知っておくと吉。
第5章からはちょっと大学の授業っぽい感じでしょうか。第4章までは四則演算だけできれば理解できるものばかりですが、81ページでいきなりシグマ記号が出てくるので高校あたりでこの辺よくわかっていないまま卒業してしまった場合は、事前に参考書などで軽く理解しておくか、「初歩からの数学」などを受けておくほうがいいかもしれません。
ちなみに私は高校時代数列周りは得意でしたので、このあたりのシグマ記号は抵抗がなく、どちらかというと冗長に書かれるよりシグマ記号で書かれたほうが理解しやすいです。
所詮シグマ記号は 1+2+3+...+100 みたいな「1から100まで1つずつ増やして足していく」という日本語の代わりにシンプルな記号で記述するルールなんですが、真ん中にでかでかとシグマの記号があるため(大きく書く意味がよくわからない)、見慣れないと難しそうに見えるので慣れが必要です。
この章で出てくる「標準偏差」や「標準得点」の考え方は以降の章でも繰り返し出てきます。この章はじっくり取り組んで当たり前のように上の二つが出せるようにしておけるとかなり有利です。
第6章は歪度(わいど)と尖度(せんど)の計算でおなか一杯になるようなシグマ記号のオンパレードで難しそうに見えますが、ここは理屈だけ抑えておけば大丈夫。歪度は最頻値ともいえる「モード」と平均、中央値がそれぞれの並びがどうなるかさえ分かれば問題なしです。尖度も0より大きい小さいで尖り具合がどうなるかくらいが分かれば細かい計算や式は覚えている必要ないのでは。ローレンツ曲線とジニ係数を押さえれば大丈夫。
ジニ係数は計算できるに越したことはないのですが、数字が大きくなるにしたがってどういうことが起きるのか(ローレンツ曲線はどう変化するのか)くらいでしょうか。
第7章の二項分布は116ページでこれまた積分のインテグラル記号が出てきたりするので、いちおう数学が分かる人にはわかりやすいのですが、逆に数学にアレルギーを持っていたり、高校時代に文系などで数II以上をほぼやっていない人にとっては高度な印象になるかもしれません。とはいえ、インテグラルやシグマ記号のところは無視しても大丈夫かと。
むしろ期待値の計算(これは足し算と割り算ができればわかる)と、本題の2項分布の二つが山です。2項分布はCombination記号(nCxみたいな)がメインになります。これは欄外で詳しく解説されているので、この記号の意味さえクリアしてしまえば言っていること自体はそれほど難しくないです。ちなみにnCxという記号の意味は「nから始まってx個をかける」÷「xから始まって1までかける」です(簡潔に書いています)5C3なら
(5×4×3)÷(3×2×1)
です。ちなみに、計算式自体は忘れてしまってもBINOM.DIST関数というものが紹介されているので普段はそちらで計算すればよさそう。
第8章は正規分布の扱い方です。なかなか難しい。いわんとしていることは正規分布に従うものであれば、Excelの関数である値になる確率が簡単に計算できますよ、ということになるのだけれど、その裏側の理屈自体が結構複雑ですね。
とにかく正規分布に従うものであれば、実際の値が上位何パーセントなのかとかがすぐに計算できます。偏差値なども偏差値70以上の人は何パーセントとか、逆に偏差値62って上位何パーセントなのかとかを計算したりするときに使います。
この章で割と重要(だけどたぶん試験に出ない)のは中心極限定理というもので、どんな分布をするものであっても、その中から何個かを選んで平均をとるなんてことを繰り返すと、何回も記録した平均値は正規分布をするということが知られています。この考えは後程よく出てくるようになります。
第9章は標本調査の入り口です。ビジネスにおいては全数調査をすることはそうそうできないので、この標本調査という考え方と、その留意点については最初に押さえておきたいところです。とはいえここも概念だけなので1.5倍速でさらっと。
第10章、標本調査の醍醐味です。最初に母集団平均μと、標本平均の違いが説明されます。クラス全員を母集団とした平均点数と、その中から無作為に選んだ5人の平均点数がぴったり一致することはなかなかないと感覚的にわかります。ただ、その5人選ぶことを何回も何回も繰り返して、それぞれ図った5人の平均点を表にまとめてその平均値を出そうとすると、もともとの母集団の平均μに近づく(一致する)というのがこの中心極限定理になります。
これはなぜ大切かというと、標本平均は母集団の平均とは違うのだが、標本平均で出てきた値は母集団平均(本当の平均)を推定する値として妥当ということになります。言い換えると正確な母集団平均はわからないけれど、標本平均や標本の標準偏差から、母集団の平均はこのあたりの数字になる、という推定ができます。
数字だけ見ていて操作しているとなんのこっちゃなことですが、とにかく全体から何個か取り出したものの平均と標準偏差を計算すると、母集団の平均がとりうる範囲が計算できるということなんですね。さっきの例だと無作為に選んだ5人の平均点と標準偏差が分かると、クラス全員の平均点はこれくらいの範囲になるという感じです。
第11章の仮説の真偽は実際に観測されたデータからある事柄が起こりうるのかどうかを調べる方法です。
母集団μの検定あたりが試験に出そうでしたのでそこそこ力をいれました。これまでの考え方と同じように標本の平均値とその標準偏差を用いて、母集団の平均としてこの値が考えられるか、というようなものを検討します。教科書の例では1か月の平均支出額について、標本平均21.5万円、標準偏差10万円という値から、母集団の平均支出額が20万円といえるかどうかを検定するなんて感じです。
母集団平均は実際にはわからないのですが、観測したデータから「20万円といってもよいか」を検定します。
第12章はクロス集計表の読み方です。クラメールの連関係数くらいではないでしょうか。この章で取り上げられているカイ二乗検定は二つのデータセットを比較するときによく使われるのでもう少し深く知りたかったなという印象です。この章以降は計算などで手を動かすというよりは、関連性分析の概念などデータを扱う際に留意しておくべきポイントの比重が高いような気がします。
第13章、回帰直線です。ビジネスシーンでいろいろなデータを扱う際に、この相関係数や回帰直線を利用することは案外多いです(使えると便利です)。正の相関、府の相関とそれぞれの相関係数の意味が分かれば試験は通りますし、実務面としても計算自体はExcelなどの表見さんソフトで十分です。外れ値の考え方とかを知るだけでいいかと。
第14章は統計データの見方です。トレンドや異常値のとらえ方や、総額の伸び率に対する個別の寄与度など、ビジネス資料を作る際に有益となる視点があります。
株価などでおなじみの移動平均も、人件費率やミス率など単に単月に起きたものをプロットするのではなく、移動平均をとることで直近のデータにとらわれすぎずに傾向の把握ができることもあります。
第15章はテスト集です。ここは解くというよりはそれぞれを見返しながら教科書を参考にすれば答えが出せるところまでできれば上出来かと。試験の前に繰り返しやることで、試験に受かる気がしてきます。とにかくわからないところがあったらその単元に戻ってやり直し、まずは公式を丸暗記でもよいので、私はどんな知識が足りていないのかを測るのに使いまくりました。
数学の素養がない人でもテレビの授業を聞いて教科書をよく読めば試験の合格はできるようにできています。
ときどきうっかりと高校1、2年レベルの数学が前提となってしまうようなシーンもあるのですが、放送授業ではその辺使わずとも理解ができるように工夫されています。
試験自体も落とすというよりは合格させようという意図も見えますので、数学リテラシーを高めるつもりで受けてみるのもよいかと。入試のない放送大学の基盤科目として相当に配慮されていることを感じます。
もちろん、AI時代ということもあり心機一転統計学をやってみようという人にも入り口として基本的なところを押さえていくのもよいかと。私みたいに復習もかねてしっかり統計の基本的なところは知っておきたいな、なんて向きにも良いのかと。
これだけだと物足りない人は、より実践的にデータを使う「社会統計学入門」も結構おすすめ。