2006年 10月 08日 ( 1 )

<授業のはなし> 私の大好きなあなたへ

心当たりのある人もない人も、自分宛の手紙だと思って読んでみてください。でもあまり本気にして読んだら、「何じゃこりゃ」と一瞬裏切られた気持ちになるかもしれないことを先にお伝えしておきます。


-----
お元気ですか。私は元気です。9月から秋学期が始まって以来、毎日リーディング課題や演習問題に追われている日々です。

突然ですが、世の中のあらゆる状況を数値で摑むにはどうすればいいと思いますか?例えば日本で子育てをするには子供に教育費がかかると言うけど実際のところはどうなの?と思って中学3年生一人あたりに保護者がかけている教育費は一体どれくらいなのかを調べたくても、全ての中学3年生がいる世帯について調べるわけにはいかないよね。お金と手間がかかることはもちろん、母集団が一体どれだけあるのかを知ることが困難だし。そのため、全体のうちの一部をランダムに抽出してそれらについて調べることにより全体について推測するのが最も現実的な方法です。このランダムに抽出されたものを標本データといいます。標本データはこの例のような平均値の他にも、比率(例:支持=1、不支持=0とした場合の安倍政権の支持率)や差(例:喫煙者と非喫煙者での肺がん罹患率の差)の形をとることもできます。

で、この標本データから母集団の分布を推定するわけだけど、この推定方法には2つのステップがあります。最初のステップは点推定といって、標本分布のデータをもとに母集団の分布の平均値・比率・差といったパラメータがだいたいこれくらいではないか、とピンポイントで当たりをつける作業です。次のステップは区間推定といって、点推定で推定したパラメータ自体のバラツキや、○%信頼区間(その区間内に推定値が入るということを○%の自信を持って言える、ということ)を示す作業です。また、仮説検定といって、母集団についての仮説が正しいかどうかを調べる方法もあります。

例えば中学3年生のいる世帯1000世帯にアンケート調査を行った結果、教育費の平均値(標本平均)が年間30万円で標準偏差が5万円だったとします。そうすると、その標本平均の標準誤差を計算すると(計算過程は興味があったら教えてあげるけど…)約1600円になるのですが、これは1000世帯に対するアンケート調査を何回も繰り返した場合、その平均値の標準偏差が約1600円になることを意味します。この計算結果をもとに信頼区間というものが計算できるのですが、それを計算すると(これも知りたかったら教えてあげる)、例えば95%信頼区間は

29万7千円<標本平均の期待値<30万3千円

となります。これは、「1000世帯に対するアンケート調査を何回も繰り返した場合、『教育費の平均値が29万7千円から30万3千円の間に入る』と言えばそれは95%の確率で正しい」ということです。逆に言えば残りの5%の確率で平均値がこの範囲から外れた値になる可能性があるということです。

一方、文部科学省が「いや、教育費の平均値が28万円だ」という説を唱えている場合、この説が正しいかどうかを調べるのに使うのが仮説検定です。まず「教育費の平均値が28万円だ」という仮定を立てて、この仮定が上記で求めた信頼区間の中に入るかどうかを見ます。95%信頼区間でみると(5%の有意水準で、とも言います)この場合は入るので文部科学省が言っている仮説は棄却できる「、つまり文部科学省はウソをついている(あくまでこの問題の設定上、ですよ)ということになります。

これは統計学の限界だと思うのですが、95%信頼区間や99%信頼区間は計算で決められても100%信頼区間は定められない(無限大になる)ので「これだ」と言い切れない歯がゆさを感じるかもしれません。でも世の中の出来事って「そういうものだ」と100%言い切れるものはないと思います。だから真理を明らかにすることではなく、誤謬をできるだけ減らすことに意義があると考えれば、これらの統計学的手法を学ぶことは今後統計資料を作ったり、あるいは統計資料を正しく解釈したりするスキルを身につけるのに非常に役立つと思います。それに、世の中を見る方法っていろいろあると思うけど、数値で世の中のスナップショットを得るのにこんな方法があるのだと知って、毎回の授業で私は興奮していました。そのうれしさをどうしてもあなたに伝えたくて、ついつい統計学について熱く語ってしまいました。頭のいいあなたのことだから、私のこの気持ちわかってもらえるかなと思って…。ナイーブだとかいって軽蔑しないでね。

こちらマサチューセッツ州はそろそろ紅葉シーズンに入ってきました。今週末はちょっと行けそうにないけど、来週末あたりクラスメートを誘って行ってみようかと思っています。去年は10月の週末はあいにく全部雨だったので、今年が最後のチャンスです。日本は紅葉まだかな?こちらの紅葉はかなりきれいらしいけど、私はやっぱり自分の生まれ故郷である京都の紅葉が一番きれいだと思っています。

それじゃ健康に気をつけてお互い頑張ろうね。


-----
実はこれ、今週の統計学の宿題なんです(もちろん提出する文面は英語ですが)。今回の演習問題はかなり変わっていて、毎回3問出されるのですがそのうちの1問が、

「先日友人から電話がかかってきて近況を聞かれました。あなたが統計学の先生の教え方や宿題の分量についてぼやいた後、その友人(統計学を学んだことがないという想定)から『今統計学の授業でどんなこと勉強してるか説明して』と言われました。あなたは彼に対して(なぜか男という設定)、今までの授業で学んだ重要な概念およびそれらがどう結びついているかを説明するメールを書くことにしました。どんなことを書きますか?ただし、文面では推定量・推定値・標本分布・信頼区間・仮説検定について触れること。」

というものでした。相手に対する思い入れの度合いによって語る熱意の度合いが変わってくるだろうと考え、とりあえず「私の大好きなあなた」を想定しその人に対して授業で学んだことを熱く語っている自分を想像(妄想?)しながら文面を考えました。(間違っているところがあれば教えてください!)

この授業の演習問題は計算問題に加えこういった「書かせる系」の問題が多いです。統計学の素養のない人に対して、専門用語を使わなくても本質が伝わるように言語化する能力の重要性を授業でも強調されます。今回の問題は半ばこじつけに近い感じもしなくはないですが、今までに出た演習問題では、エイズウイルス検査の信頼性についての計算問題の後、「UNAIDS(国連エイズ計画)に対して、全ての大人を対象にエイズウイルス検査を推奨するかどうか、また推奨度が国によって異なるかどうかについて2~3パラグラフでレターを書きなさい」というものもありました。実際の業務の場ではこういったスキルが重要になってくるということだと思います。


「私の大好きなあなた」は…今のところいないので、今回はひとまずイモムシさんに代役をお願いしました。真面目に考えると机の前でこのイモムシに向かって、しかも統計学について語りかけている姿はかなり滑稽に映るかもしれませんが、その辺はあまり追及しないでください。

a0079741_143138100.jpg


※今朝(10/10)見直していたら、標準誤差を計算するときに位取りを間違えていたことに気づき、慌てて直しました。仮説検定の結論も変わっています。お恥ずかしい限りです…。「私の大好きなあなた」に対する熱意が足りなかったみたいです。
[PR]
by coast_starlight | 2006-10-08 14:40 | 授業のはなし