うさぎどんの日記

主に読書メモ、考えたことを中心に書きます

【読書メモ】「それ、根拠あるの?」と言わせない データ・統計分析ができる本

・分析をするための発想とコツ
・分析手法
・結果の伝え方、見せ方

上記3つの観点が分かりやすくて実際に仕事でつかえそうだったのですごく為になった

読書メモ================

【発想とコツ】
 ■分析とは
  ・仮説を確認(検証)すること

 ■仮説が必要な3つの理由
  ①無駄な分析をさけることができる
   何を調べるかが明確だとそのためにどのデータが必要でどの手法を使えばよいかについてのブレが減る

  ②分析の目的が明確になる
   「何をしりたくて調べていたのだっけ?」と本来の目的を忘れ「分析結果を出すこと」だけを追いかけてしまう状態をさけることができる  
  
  ③大局的な視点でストーリーが作りやすい
   仮説は目的を達成するための要素である。
   その複数の仮説(要素)に対する分析結果を組合わせることで、目的に対する多面的、大局的な視点を持つことができ、より説得力のある答えを引き出すことに繋がる
  
 ■仮説アプローチの罠
  ①見えない課題を見逃すリスクがある
   最初から課題ありきで始まる場合、もし同じデータにより重要な情報が埋まっていた場合それを見逃す可能性がある
   
  ・仮説アプローチの対極にある「網羅的アプローチ」
   目的や課題を限定せずに片っ端から網羅的に分析にかけること
   「大きな仮説がとくにない」というときに使える
   労力がかかるが想定しない発見に出会う可能性を秘めている

  ②バイアスのリスク
   「仮説」は、検証前の「思いつき」でしかないため、
   その仮説が、個人の主観にある程度頼らざるを得ない限り、その人の思い込みやバイアスに左右されるリスクは避けられない。
   いくら分析テクニックを身につけようが仮説作りに失敗してしまうと、集めるべきテータや分析手法が最適でなくなりアウトプットの質が下がる

 ■仮説を効果的にたてる為のポイント
  ①モレなくダブりなく(MECE
   仮説を立てる範囲に抜けがあれば大事な視点を見逃す可能性がある
   またダブりがあると無駄な分析につながる
   最初の段階でこれらのリスクをできるだけつぶしておくことが大事
   
  ②現状の制約条件にとらわれない
   手元にデータがない、今まで調べたことがない社内に知見を持った人がいないなどの理由から、それらに関わる仮説を最初から排除してはいけない
   そこに大事な発見がある可能性があるため

  ③複数の仮説を立ててみる
   問題の原因や、機会の存在は1つとは限らない。
   何かしらのストーリーやロジックをもって相手を説得する場合にも1つの根拠だけに頼るよりも、複数の切り口からお互いの仮説を保管し合う主張のほうがより強いメッセージとなる

  ④最初から100点を狙わない
   最初からある程度本質をついた仮説のほうがより効率的に答えにたどり着くことは事実
   しかしそれにこだわると発想も広がらず思い込みが入りやすくなる
   「仮説は完璧でなくてこも良い」ということを常に念頭において置く

 ■「仮説構築のための分析」と「仮説検証のための分析」
  限られた時間では仮説のあたりを付ける精度を上げて分析をより効率的にすすめる必要がある
  そのようなときにも「分析」が活躍する 
  ラフな分析を短時間で行い、その結果を見て深堀すべきポイント、仮説の優先度を見極めることができれば分析作業全体の効率が上がる
  例)お店ページのSEO順位をあげるための問題をみつけたい
   ・ある都道府県に問題があるのでは 
   ・投稿数が多いと少ないで問題があるのでは
   ・あるジャンルで問題があるのでは?
   ・お店名のパターンによって問題があるのでは?

  上記のように問題になりそうな仮説を網羅的にだす
  それぞれの仮説ごとに傾向をだして、問題がありそうな傾向が見られた仮説に対してさらに深く分析する

  「さらっとあたりを付けるための分析」と「しっかりとした論理作りのための分析」をうまく使い分けられるようになれるとよい

【データの集め方と分析の視点】
 ■データ集積のポイント
  ①仮説の一歩外までデータを集める
  ②データの軸ごとに分解する
   例えばお店UUの軸として「投稿数」「ジャンル」「都道府県」という軸がある
   それらの軸ごとに分解することで軸ごとに違いが見えてくる
   ・分解しすぎることの問題
    ーコストがかかる  
    ーおおきなばらつきの問題
     雑音となり得るデータが含まれている可能性があるため
    
  ③データの範囲を意識する
   どこまでのデータを採用するかによっても分析結果は変わる
   一日、週間、月間、年間によって傾向がかわるため目的に沿った範囲でとること
   とくにこれという正解はないので取れれば多く取っておいたほうがいい

  ④外れ値は理由を考えて処理する
   分析する上で最も大事なのが「外れ値が存在していることを認識していること」
   もし外れ値が正当な理由なく入っている場合、それを外しておくべき
   ・散布図にして外れ値を見つける

【平均・中央値】
 ■平均の罠
  ・平均は常に真ん中にあるとは限らない
  ・平均の周りに最も多くのデータがあるとは限らない 
 ■中央値はポジショニングを知るヒントになる
  ・データの中にある極端な値の影響を回避できる
  
 中央値と平均を比べて極端な「外れ値「など極端な値のデータの有無のフィルターとして機能することもわかる

【相関分析】
 ■相関の強さを示す「相関係数」
  相関の大きさには強い弱いがある
  一方のデータがどの程度他方のデータの動きに連動しているかで決まる
  相関の強さは「相関係数」という指標で示される
  相関係数は+1〜ー1までの範囲
  相関係数がプラスだと正の相関「2つのデータの増減方向が同じ」
  相関係数がマイナスだとマイナスの相関
  ゼロだと全く相関がないということになる
  -1 ~ -0.7:強い負の相関
  -0.7~-0.5:負の相関
  ~0.5~0.5:相関なし
  0.5~0.7:正の相関
  0.7~1.0:強い正の相関
 
 ■見せかけの相関と因果関係
  ①単なるデータの偶然(たまたま傾向が似ていただけ)
   例えば株価下落と季節が冬に向かっているときの気温は同じく数値が現象していて相関係数は高くなるが
   これにはなんにも理論的なつながりがない

  ②単に”関連”のあるデータの組み合わせ
   身長と体重など
  
  ③疑似相関 
   2種類のデータには全く相関関係がないのに、その他の要因が影響して計算上相関があるようにみえること
   例えば「年収」と「起床時間」の関係である
   「早起き」→「年収が高い」は計算上では相関関係が高いことが出てしまう
   しかし実際は「早起き」→「年寄り」、「年寄り」→「年収が高い」(年功序列がまだあるため)
   のように「年寄り」は「早起き」と「年収が高い」ことと相関があるが「早起き」と「年収が高い」には実は相関がない
   このような見せかけの相関を「疑似相関」と呼ぶ
   従って早起きすれば年収が上がるとは言い切れない
   大事なのは疑似相関があるということを常に意識すること

 ■相関分析で、データ範囲を扱うときに覚えておきたい重要ポイント
  ・データがあったからそのまま分析に使うのではなく、目的にあった範囲のデータを使うこと
  ・相関係数の計算だけを鵜呑みにせず、散布図で視覚化することで全体の様子をみること
 
【見せ方、伝え方】
 ■分析することと伝えることは違う
 分析タスクと結果を伝えるタスクは全く別ものだと考えること
 ・データ分析の目的
  データから特徴を見出す
  予測やシュミレーション結果を得る

 ・プレゼンテーション(伝える)
  伝えたいメッセージを理解、共有
  同意、承認

 ■伝え方のポイント
  ①分析したことを全てみせようとしない
   受けてにとって必要なことのみを見せる
  ②分析結果を文章で言い換えてみる
   相手に理解してもらうために文章にしてわかりやすく伝える(メッセージ+図で分かりやすく伝えるほうがいいかも)
  ③情報源の出所を明記
   データソースに信頼がなければ結果の質を下げる
 
 ■数値だけではなく視覚に訴える
  ・伝えたいポイントを吹き出しで入れる
  ・比較してメッセージを強調する