統計学が最強の学問である(その1)

随分前にちまたで騒がれた本を読んでみて、書評を書くのが今になった。先のビッグデータとデータサイエンティストがクローズアップされたことに乗じた本かと思って舐めていたら、予想外に面白く「統計リテラシー」に興味を持たずにいられない。まぁタイトルの釣り具合もなかなかのものなので読んでみる価値はある。特に数学科出身だが紙とペンによる統計学に何も興味を抱かず、成績もイマイチだった私には興味を呼び起こすのに十分な内容だった。筆者の言葉を借りれば「ITによる統計学のパワフルさ」を感じたというところである。今回は、統計の面白さというよりも、ビジネスの世界でデータ分析をどう活かせるのか、活かすために考えるべきことを(その1)としてまとめてみた。近いうちに(その2)として統計学にもう少し踏み込んで統計的リテラシーを身につけるという面白さを書いてみようと思う。

何て書いておきながら、今回は書評というより、本文を引用しながら思ったことを綴っていこうかと。

統計学が最強の学問である

統計学が最強の学問である

ビッグデータ」という言葉が流行るワケ

ITはビジネスにとって欠かせないものとなった昨今では、ほとんどの業務プロセスがIT化されている。今後はどうなっていくのか、ビジネスとしてITで武装した集団どうしのせめぎ合いはどこへ向かっていくのか、そんな回答のひとつもここにあるのかな、と思う。

一通りの業務がIT化されてしまうと、ITがらみのビジネスは行き詰ってしまう。いくらハードウェアやソフトウェアの処理性能が向上しても、これ以上IT化すべき業務プロセスはないし、顧客が特に性能に不満を持たなければ、商品を売り込むことはできない。だから、ハードウェアメーカーも、ソフトウェアメーカーも、それらを使ってITのサービスを提供しようとする者も、ITに関わる企業はすべて、すでに満足している顧客に、十分すぎる性能を持った新しい技術を売り込む「理由」が必要なのである。 ポジティブな建前としては、この十分すぎる性能を使って「いかに価値を産み出すか」という考え方が必要になる。またネガティブな本音としては「価値を生み出そうがなんだろうが、大量の処理が必要になる使い道」を提案しなければならないし、それを売り込むためには「一見ビジネスの役に立ちそうなお題目」が必要にもなる。

ここの正直な記述がなかなか面白い。要は技術の進歩によって出来ることが広がったが、その技術を売るための理由が必要で、それには「統計学」の力が必要だということだ。つまり、ビッグデータが流行るということの根本には飽和した市場に何とかして技術を売るために腐心する売り手側の苦労の証とも言えなくもない。ただし理由はどうあれ、マイクロソフトGoogleも「これからの10年で最もセクシーな職業は統計家」と言っている事実もあるため、そうした企業が主導する以上、本当にそうなっていく可能性は高い(というより大企業側の先導でそうしていくのだろう)。

サンプル数は多いほど良い!?

統計学を駆使する前には事前にデータを準備する必要があるが、そのデータは多ければ良いのだろうか。ここには標準誤差という考えを入れる。標準誤差を説明すると、サンプルから得られた割合に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が約95%、という値である。

ほんの1%やそこらの精度を改善することは、果たして数千万円も投資する価値のあるクリティカルな影響を持つのだろうか。その答えがYESならその会社は間違いなくビッグデータ技術に投資を惜しむべきではない。だが、もしNOと答える会社なら数千万円分の投資のうちいくらか、あるいはそのすべてについて、お金をドブに捨てるようなものと言えるのかもしれない。

つまり統計的な「精度の改善」と「投資」のバランスをこの標準誤差によって保つことができる、例えば8000名分の解析程度ならエクセルでできてしまうが100万人分の解析にはビッグデータ技術が必要というときに、その精度は1%しか違わないというならどうする?という判断を正しくする必要がある、ということだ。

あなたの会社にはデータ分析が必要か

「データ解析が必要だ」と思える局面は多々ある・・・がコスト以上の利益を自社にもたらすような判断につながるかどうかが問題である。データをビジネスに使うためには次の3つの問いに答える必要がある。

【問1】何かの要因が変化すれば利益は向上するのか!?
【問2】そうした変化を起こすような行動は実際に可能なのか!?
【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか!?
この3つの問いに答えられた時点ではじめて「行動を起こすことで利益を向上させる」という見通しが立つのであり、そうでなければわざわざ統計解析に従って新たなアクションを取ろうとする意味はない

自社でもコンサル会社でも良いが、調査結果として提示されたグラフがこの問に答えられるものでなければ、その解析結果は意味がないということは、ビジネスに携わり利益をあげようとする人なら疑いようのない事実だろう。それは、ビッグデータを使ったとしても同じことなのである。ここに筆者は厳しく突っ込んでいる。

あなたが行なおうとしている、あるいは誰かに依頼しようとしている分析が、そもそもまったく【問1】〜【問3】の質問に答えられるものでないのだとすれば、精度がどうとかスピードがどうとか言う以前にそもそもやるだけムダである。

ビジネスを推し量れないデータ分析は無駄だということだ。

製品を買ってくれる人は誰か!?

 自社の製品は誰かが買ってくれるから成立するわけだが、誰が買っているのだろうか。もう一歩踏み込むとなぜ買ってくれるのだろうか。それは価値があるからに他ならない。マーケティング的には価値を追求するのだが、本書では当然ながら統計的な検知から考えている。つまり、「なぜか分からないが買ってくれる人」と「そうでない人」の違いをコントロールしようというわけだ。例えば、DMを送付するかどうか、DMを送付するにしても売上を伸ばす顧客とそうでない顧客の違いはなにか、というところをデータを用いて集計できればそれは売上の数%を左右することになる。仮に1%の差でもその違いを明確に見つけることができれば、100億の売上企業では1億売上が増加するわけなので、バカにはできない。こうした何となく、とか経験的に、という部分を明確に数値化して裏付けがとれると今一番何をすべきかという戦略目標が見えてくる。

誤差を考慮する

 さて、実際にはこういったクロス集計だけでは中々難しく、「誤差」についての考慮が必要となる。誤差を考慮するとどの程度の誤差までが意味のある数値と考えることができるかを明確化できる。要は、ある条件下で統計をとったとき、その差が本当に売上に影響のある結果なのか、単なる誤差なのかが分かる、ということだ。統計的にはこの「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率」のことをp値という。慣例的にこのp値が5%以下であれば、その結果は偶然の偏りではなく意味のある偏りだと判断できる(誤差とは考えにくい)。本書はこの誤差についてこう書いている。

誤差を理解し、誤差を考慮したうえでも意味がある結果といえるかどうか、という統計学の考え方を身につければ、こうした間違いから解放されることだろう。

どのようなデータを解析するべきか

 先ほどの「なぜか分からないが買ってくれる人」と「そうでない人」の違いをコントロールするには「適切な比較を行うこと」と、「ただの集計ではなく、その誤差とp値についても明らかにする」ことを意識すればよい。そうなると次の課題は、何を比較すればよいか、ということになる。つまり、違いを生み出しうる要因を探し当てるには何を比較すればよいかという話に他ならない。
 結論としては、「利益をあげる」か「そうでないか」の違いを比較すればよい。それは需要が伸びるか、とか生産性を上げるか、といった要素とも言える。ビッグデータという言葉が一人歩きする中で重要なことは、ここである。データがあるからと言って「ここから何かわからないか」という視点では誰の得にもならないような結果を導き出してしまうかもしれない。それはそれで無用だとは言わないまでも、ビジネスという局面の中においては、直接的な利益になるか(またはそこに至る因果関係が明確なか)が導き出せなければならない。まさしくそれらが売上(等)と比較するデータになるわけだ。繰り返しになるが、どのような関係で利益とつながっているデータであることが分からないままに漠然と解析することは意味がなく、まずはそうした比較対象や差異を得るデータを見つけ出すことが重要になる。
※こう書いていると、結局のところビッグデータブームとやらで一番儲けるのは、データサイエンティストというより、コンサルタントなのではないか、と思ったり思わなかったり。。。

まとめ

 ビジネスが飽和する中でのこうしたビッグデータブーム、顧客企業のデータ解析を売りにする意外にも、自社でデータを保持しているのであればそれは解析すると売上があがる結果を見いだせるかもしれない。その際に重要なことは「このデータを利用できないか」というありがちな落とし穴にはまらず、ビジネスのゴール、つまり利益をあげることができる対象は何か、というものを見つけ出すことだ。また、仮にそれを見つけ出したとしても、そのコストと想定の利益との比較をもって実施有無を判断しなければ、有用なデータを見つけたが利益よりも解析コストが上回って赤字、なんて笑えない話になりかねない。あくまで、ビッグデータも統計もビジネスのためであることを忘れてはならない、ということだ。