わりと難しかったけど面白い。
統計学をしっかりやりたかったので「身近な統計」と並行して受講。こちらのほうがコースの導入科目だからか、編著者や執筆者の先生方が社会学系だからか、よりデータの分析というところに力が置かれている気がする。
図表や練習問題がわりと社会学のまとめで出てきそうな内容に寄せているし、数学的というよりは実践を意識して深入りしていない感じ。内容は「身近な統計」と被るところも多いけれど、同じ内容でも違った角度から説明されると理解が深まるので、同時に受講したことでこの辺りの理解が深まった気がする。あくまでも気がする。
シラバスには「社会調査の基礎」を学んでおくことが望ましいと書いてある。
僕は「社会調査の基礎」は受講せず、教科書だけ買ってざっと目を通した上で受講。あらかじめ知っておくと見通しが良くなる感じはするものの、その知識がないとわからないというところはなさそう。
生成AIがいろいろな計算をしてくれるようになったいまでは、計算が自力でできること自体の価値はなくなっている。ただ、データをどう分析するか、どう判定するかのリテラシーは必要だと思う。その判定もGPTは教えてくれるけれど、やっぱり最後にその有用性を判断するのは人間だし、そもそもどんなデータを渡して何を得たいのかという設計や仮説は人間がやる意味もある。この「社会統計学入門」はかなりしっかりとデータ分析について学ぶことができるのではないかと思いました。
試験は電卓を使えば計算時間は十分に足りる感じ。放送大学の典型的な試験でひっかけ問題もなく選択内容がはっきりしているので落ち着いて取り掛かれば時間はたっぷりある感じ。教科書の後半を進めているときは試験は厳しいなぁと思っていたけど試験結果はⒶ。この科目はコースの導入科目ですが、試験自体は易しめ。社会科学をやる人であれば心理系の人も含めて取っておいてもいいんじゃないかなぁ。
第1章 社会調査のデータと統計分析の考え方
第2章 データの基礎集計(1):変数の分布を記述する
第3章 データの基礎集計(2):分布の中心、散らばりを測定する
第4章 標本に基づく推測統計(1):標本抽出と標本分布
第5章 標本に基づく推測統計(2):統計的推定
第6章 標本に基づく推測統計(3):統計的検定
第7章 グループ間の平均の差の検定(1):Z検定・t検定
第8章 グループ間の平均の差の検定(2):分散分析とF検定
第9章 離散変数間の関連(1):クロス集計表と独立性の検定
第10章 離散変数間の関連(2):関連係数と多重クロス集計表
第11章 連続変数間の関連(1):ピアソンの積率相関係数
第12章 連続変数間の関連(2):さまざまな相関係数
第13章 回帰分析(1):回帰分析の基礎
第14章 回帰分析(2):回帰分析の応用
第15章 講義のまとめと発展学習
第1章は言葉の定義も含めたイントロ。放送大学の教科書の第1章は、この授業の位置づけとか基本的な用語の説明が多い。ある意味「身近な統計」よりも身近に感じるようなデータをもとに、統計の考え方を説明するところから始めて、全体の構成や指針など。導入がとても分かりやすくて、とりかかろうという意欲が湧くね。
第2章、用語とヒストグラムや累積度数分布表のといった基本的なグラフの説明。ここでヒストグラムと棒グラフの違いが説明されてびっくり、いまさらながらこの違い初めて知りました(常識?)。互いの棒が隣接しているのがヒストグラムでカテゴリー間に順序があることを示していて、棒グラフはそれがないのだそう。これまでビジュアル面だけを考えて作っていた。こういった基本的なことがすっぽり抜けていたと思うと恥ずかしい。
第3章は導入科目ということもあり少し飛ばしながら平均値や中央値、分散や標準偏差の説明と、やっと定義っぽくなる。シグマ記号が高校と違っていたりするので一瞬独特な記法のように思えてしまうけど、こういうお作法もあるみたいね。
この章は統計学の基本中の基本が詰まった章という感じです。分散はあちこちで出てきますし、標準得点の考え方も統計学ではよく使いますし。ビジネスではまずz得点が理解できて、平均±1σみたいな感覚になれるとだいぶ違う。
第4章からはいわゆる統計学っぽい内容かな。標本分布というサンプルの平均という新しい考え方の登場。このあたりからが母集団の全数を確認することができない社会を扱う社会統計学っぽい。「標本」というものになれるのが統計学かなという気がします。標本の平均だとか標本の出現範囲などの概念は一瞬わかりにくい。標本が母集団の一部であるからこそ、母集団が均一でない限り無作為であっても一部を切り取るだけだと母集団からは少しずれたものが出てくる可能性が高い、でも何度も何度も標本セットを繰り返し取り出して平均をとっていけば母集団に近い値が得られるというところが大切なところのよう。
第5章、母集団から何度も標本を取り出せればよいけれど、実際の調査では一回きりなので、それをどうするかを考えるってこと?母集団から標本を取り出して計算する際に、母集団の平均が分かっているときと分かっていない時では結果変わるってそりゃそうだよな。実際、母集団そのものが分かっていないなかで標本を採るので、では一体母集団とどのくらい離れている可能性があるのかなんかを推定していく方法を細かくやる感じ。
第6章、統計的検定。何度やっても検定はわかったようなわかっていないような気がする。教科書の練習問題をしっかりやればパターンマッチで試験はできる気がするものの、どうも身についた感がしないのもこのあたりから。このサイコロに不正がされていないかなんてのはこの考え方を使うと検定できちゃうっぽい。ただ、理解をするって難しいなあ。Z検定、t検定ともに計算方法は同じなので計算自体はできちゃいます。
第7章はグループ間の平均の差の検定。ふたつのグループの平均、分散、度数から平均値に差があるといえるか、みたいな検定でクラス間での平均点に差があるといえるかみたいなことを検定できる。ビジネスではセグメントごとに比較するなんてことがよくあるから、アンケート調査などで規模が影響するのかしないかとか、特定の属性間の比較に使えそう。
第8章もグループ間平均の検定。3グループ以上の時に使われるF検定の話で、例に出ている労働時間みたいなのは部課間でどうなの、みたいなときに使えそう。教科書では2グループの例を中心に全体の平均を使ったり、それぞれのグループ内の平均を使ったりでいくつかの計算をすると検定ができるという紹介もされている。計算ルール自体は簡単なのでExcelなどで簡易な表を作って計算すると理解が早かった。
第9章はクロス集計表という個人的には身近な表。いわゆる縦計横計総合計の票をもとに、縦(行)と横(列)のパーセントを計算したり、合計の値を使って期待度数や期待相対度数を計算したりする。これもExcelなどの表計算ソフトの得意技。こういう値計算しているといかに表計算ソフトが便利かがわかる。
で、この章の後半はカイ二乗分布について。期待度数からの差を使って表全体を一つの数値に置き換えるようなものかな。
第10章は二つの表がどれくらい関係しているかをクラメールの連関係数というものを使って算出する。後半の疑似相関、媒介効果、無効果あたりはわかったようなわかってないようなで結局よくわかっていないまま進んだ気がする。このあたりから少し疲れ始めてきてちょっと手抜きが始まる。
第11章散布図をもとに共分散や相関関係。個人的にはここはよく仕事で使っていたことがあるので楽勝だった。共分散は式で書くとなんだかおどろおどろしい形になるものの、定義自体は実は簡単で、それこそ意味さえわかれば表計算ソフトで一発で出てくる。こう考えるとExcelってすごいよな。作っている人はこの計算パターンを理解した上でプログラムしているのだからすごいよなぁ。
第12章ではいろんな相関係数が出てくる。最初のうちの層別相関分析はある意味当たり前のことを言っている気もしないでもなかったが、まぁではどのように層を分けるのかによって結果も変わってくるので、層の決め方は結構重要なのだろう。
偏相関係数は考え方は試験にも出そうだし、元のデータの形を考慮しながらスピアマンをうまく使うなんてのは大切そう。章末の練習問題見てもそう思う。
第13章の回帰分析は相関係数と同じく、個人的には一時期ばりんばりんに使いっていたので見慣れた話。データをぶち込んで散布図を作り、なんとなく見た目で相関がありそうなときはExcelで一発作成がビジネスシーンでは有効。
第14章、前半で言わんとしていることは離散変数(例えば男女)別の集計データから、男性が1増える、女性が1増えるごとの結果への影響を出すようなものだと思うのだけど、ダミーという文字のせいかかえってわかりづらい感じ。2変数でダミー変数は0と1だけなので、0のほうを固定して1のほうが単位数量増えるごとの影響、っていうのは何となく感覚的にもわかるのですが、3変数になった場合は何なんだ、という感じでよくわからん。
第15章はまとめ。ざっと視点のおさらいという感じかな。先生が講義の中ではできる限り我慢して使わなかった考え方を一気に紹介している印象。統計上の制限とか各種バイアスの存在を前提に、やっぱり何も考えずにデータだけ見ていてもダメだよね、ということを言おうとしているようにも思える。後半は社会科学においての分析ツールとしての統計について熱く語られます。
データを取り扱う際に「分析」という言葉を使う人がたくさんいて、ビジネスのシーンでもすぐに「分析」という言葉が結構耳にするものの、多くの場合は「集計」どまりであることが多い。
「98%が満足している」みたいな結果が出たということを前面に出して優位性をアピールしている広告などについても、社会統計学を学んだ人であればその怪しさに気づくかもしれない。
統計学ではサンプルごとに計算するものがあったりで、サンプルが多くなるほど息の長い計算がたくさんあるため難しそうに感じることがあっても、言っていることは自体は結構シンプルなものが多い。日本語という自然言語で書いたら余計に面倒になりそう。
統計学はビジネスで使い勝手が良いので将来少しでも戦略とか分析とかに関わりたい人にはいいかも(すでに関わっている人にも)
数字って見せ方で全く違う印象になるけど、その背景とか意味を考えずに鵜呑みにしちゃうと人生に大きなダメージを与えることがあるから、こういうリテラシーって結構大切だと思っている。実務的にざっくりと全体を学び直すなんてことができたので、個人的には大満足の授業だった。
試験は思ったより簡単な気がしたけど、2024年1学期の平均は50点台だから難しめに入るのかな。