質問から得たデータを分析せよ！『デザイン解析論』前編 -産業技術大学院大学授業レポート-

産技大「人間中心デザイン」の『デザイン解析論』の全10回中6回の授業を終えたので前半戦レポート。

この授業は昨年の履修者から、すべてのユニットの中で一番難しかったという声が出た講義だそう。講師の井ノ上先生から「分からないところは切り捨てて全体を押さえれば良い」「データ解析をなんのために使うのかを理解できれば良い」と前置きがありました。

統計的手法がなぜ必要か

デザイン要素の分類は、主観で行ってもなんらかの知見や気づきを得ることができますが、その基準や再現性はあいまいで、対象が多くなると分類しにくくなります。デザイナーは無意識にその分類をしているようですが、統計であれば対象が多いときでも分類でき、再現性があるとのこと。似たデザインの分析を主観でやるか、統計的にやるかがポイントだそうです。

統計は"わけること"が基本だそうです。私たちはなにかを考えるときに「わける」作業をしていて、基準を持って分けられるということは「わかっている」ということだと話がありました。

統計的手法のステップ

今回学んだ統計のステップは以下のような感じでした。

調査目的の設計
質問表の設計
生データを電子化する
データの2次加工（クロス集計）
クロス表の読み取り（独立性の検定、対応分析法）

調査目的の設計

なにを明らかにするために調査を行うのか、調査目的を設計します。対象（5W1Hに近い）を決めると良いそう。主観（仮説）が他のひとにも通じるかということを調査するのに近いと思いました。講義では以下の例が挙げられました。

SNSユーザが使いたいと思うフォントを、理由と対応づけて明らかにすることを目的とする

質問表の設計

調査目的に応じて、今度は質問を設計します。目的に応じて適切なデータを集めれば、いかようにも分析できるとのこと。逆に、データの集め方次第ですべてが変わるため、どういう由来でデータが出てきたかを抑えないと意味がないそうです。ただ集めればいいというわけではないみたい。。。

後半、グループワークで実際に設計から分析を行うのですが、先生からは「みなさんに成功してほしいなんて全然思ってなくて、むしろまず失敗してほしい」と言われました。そもそもの目的が検証不可能だということもあるからだそうです。

質問のユーザービリティは大丈夫か？

その質問で収集したいデータが収集できるか？
言い回しが重要。理解できなかったり人によって解釈の異なる言葉を使っていないか？
１つの質問で聞けることは１つということを把握しているか
国籍や文化で言葉の伝わり方が異なるので注意
直感的に読めるような文章量か？

生データを電子化する

まず、質問表で得られた回答を、分析できるように電子化します。生データをどう扱うかが難しいのですが、行列型にするのがポイントだそうです。回答者を行に、回答を列に取り、観測したケースを１行にします。119人に調査したのであれば、119行になります。

列を質問とする方法と、列を質問の選択肢とする方法があります。こうすることでデータを"行列型"にします。行列、数Cでやったな。。。

データの2次加工（クロス集計）

選択肢ごとに、回答の選択頻度を集計します。例えばフォントの調査であれば、フォントF1と選択肢C3が同時に選択された頻度はx回である、ということが分かります。

この二次加工の段階で、"回答した人が行"というルール（誰がなんと回答したか）は失われますが、データがどういう傾向を持っているかがなんとなく分かってきます。

クロス表の読み取り（独立性の検定、対応分析法）

ここで問題となってくるのが、以下の２点。クロス集計の結果から、主観で"なんとなく"判断はできますが、ほんとうにそうである確証はありません。

回答の偏りは偶然ではないか？
偏りの特徴を見落としていないか？

そのために、統計的仮説検定の『独立性の検定』と統計的データ解析の『対応分析法』を用います。どちらも計算量が必要となってくるので、先生から提供されたRのプログラムを使って分析をしました。

偏りは偶然ではないのか？『独立性の検定』

質問の対象者が100人だった場合、たった100人のデータの結果は偶然の範疇である可能性があります。では母数を増やせば安心かというと、どこまで増やせばいいか分かりませんしリソースもかかります。独立性の検定を行うと、偶然ではなく統計的に意味のある関係であるということが言えます。クロス表にカイ二乗統計量を用い、カイ二乗値というのを算出し、p値により偏っているかどうかを判断します。p < 0.05（20回に１回くらい）であれば統計的に意味があると言えるそうです。しかしこれでも偶然の可能性は5パーセント残っているそう。

計算がいかに大変かを体験するためのワークシート。こーんな計算結果が一瞬で！Rならね！的な。

偏りをわかりやすく可視化する『対応分析法』

次に、評価対象や質問の選択肢の関係をわかりやすく可視化するために対応分析法を用います。これにより、結果を２次元の散布図として表すことができ、各回答項目間の類似性や関係性を読み解くことができるようになります。

対応分析法は、回答の頻度を表したデータに適用できる分析法です。クロス表の回答比率を３次元上にプロットすると、同じ平面上に乗るのでその中でデータが一番散らばっている方向に軸を取れば２次元の散布図にできるよ、ということらしい。詳しく考え出すと頭が混乱しそうなのでざっくり雰囲気だけメモ。

クロス表が大きくなってもわかりやすく可視化できます。ただし、あまりにも質問を多くしてしまうと２次元で表すのが難しくなってくるとのこと。ここでも質問設計がキモになってきます。

前半のまとめ

今回は座学で学んだ部分を中心に前編としてまとめました。調査も目的の設計が一番大事だということと、データを読み解くための流れが理解できました。定量データもその数をただ眺めるだけではないんだなと。。。今回提供されたRのプログラムは、購入したら20万くらいするらしく、個人の利用範囲であれば自由に使っていいよ！これだけでも授業料の元取れるよ！とのことw

後半は出されたお題を元にグループワークで調査目的の設計から分析までを実際に行った際に得たポイントや感想をまとめたいと思います。