静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

統計検定2級試験の合格率と設問分類で重回帰分析してみた

そろそろ試験実施日が近くなってきたので、統計検定2級試験の設問分類をあれこれ弄るシリーズも、ここでいったん締めたいと思います。
勉強に集中せねば。

ラストは、合格率に影響を与えている小項目があるかどうかを回帰分析で探ってみます。*1

 

 分析は、因子分析の時にもお世話になったフリーの統計分析ソフトHADを使わせていただきました。

 

チェックひとつでステップワイズ変数選択までしてくれる、お手軽かつ強力なツールです。

f:id:cyclo-commuter:20181115130413p:plain

合格率を従属変数に、小項目ごとの問題数を独立変数にして重回帰モデルを推定しました。分析結果は以下のとおり。

f:id:cyclo-commuter:20181115130814p:plain

おお! なんだかやたらと当てはまりのよいモデルになりましたね。
正直、自分でもビックリです。

 

有効とみなされた説明変数は二つ。

 

一つは、確率ですね。
確率の問題が1問増えるごとに、合格率が0.5%上がる と出ました。マジか。
苦手な私にはにわかに信じられませんが、みなさん、確率問題を苦にしてないんですね。ぐぬぬ

 

で、もう一つは実験計画の概念の理解
なんのこっちゃ? という感じですが、項目でいうと分散分析
分散分析の問題が1問増えるごとに、合格率が0.9%下がる と出ました。マジか。

どうやら、分散分析こそが真のラスボスのようです。

f:id:cyclo-commuter:20181115142926p:plain

御覧のとおり、2015年6月に初登場し、3回間をあけてから3回連続で出題されています。ですが、

f:id:cyclo-commuter:20181115145902p:plain

問題数は、たかだか1~3問しかありません。

推定された重回帰モデルを真に受けると、この問題が解けなかったがために不合格になってしまった人が、各実施日で14~39人いた計算になります(ちょっと乱暴ですが)。

ここからは仮説、というか単なる憶測ですが、分散分析の問題が「解ける/解けない」は、試験範囲全体の学習の深度を測るバロメータになるのかもしれません。
分散分析の問題が解けないるくらい勉強している人は合格安心圏内だが、そうでない人はその他の項目も学習が十分でない、とか。

この項目も回数を重ねるにつれ難易度が急上昇しましたが、2018年6月の問題でその上限に達してしまったように思われます。
つまり、一元配置分散分析について、これより難しい問題はもう出ないでしょう。

とすると、次に出てくるのは二元配置分散分析に関する問題かもしれませんね。

*1:本当は項目で分析したかったのですが、変数の数が多すぎるのと、多重共線性の問題が解決できないのであきらめました。