2022年2月10日 星期四

臥底經濟學家的10堂數據偵探課

  1. 用你的心去感覺
    1. 當人產生情緒反應時, 理解和評估就變得較難辦到
      1. 通常會找方法對不喜歡的證據視若無睹, 反之亦然
    2. 心理學家把這種現象稱為動機性推理, motivated reasoning
      1. 人有意識或無意識的帶著目的去思考某個主題, 以期得出某種結論
      2. 常以"一廂情願"的方式呈現
        1. 舉例:太希望covid早點過去, 導致對資料尚不足的統計數據, 給予了過高的信任
      3. 當此情況發生在專家身上時, 其領域知識可能放大效果
        1. 專家能找到更多資料來堅持己見
        2. 主動運用自己的專業知識, 閃避讓自己不自在的資訊
          1. 懷疑是武器, 細節就是彈藥
      4. 偏見極化
        1. 知道的東西越多, 在有爭議的議題上就更有偏袒的觀點
    3. 時時留意自己的情緒狀態,  有助於提升判斷力
      1. 這個資訊給了我什麼感覺? 
        1. 我氣炸了, 想要為自己辯白? 
        2. 很得意, 沾沾自喜.
      2. 覺察訓練有幫助

  2. 回想你的親身經歷
    1. 當統計數據和日常生活各說各話時
      1. 統計數據不一定能反映事情的全貌
        1. 統計的方法會影響結果
          1. 平均每輛巴士上有多少人 vs 平均每個人在巴士上會碰到多少人
    2. 素樸實在論, native realism
      1. 認為自己看到的現實情況是真實無誤, 沒有扭曲的
        1. 把這種個人觀點誤認為普遍觀點
        2. 可以產生嚴重的認知錯誤
          1. 同溫層效應
          2. 把媒體上引人注目的新聞當作普遍事件
    3. 統計指標若用來控制世界, 而非理解世界, 他就成為有害的東西
      1. 如果為了控制的目的而施加壓力, 觀察到的統計規律就會失效
      2. 當手段成為目標, 他就不再是好的手段
      3. 任何量化社會指標, 如果成為政策的依據, 容易受到貪腐壓力的影響, 因而扭曲或破壞他原本要監督的社會過程
    4. 蟲之視點與鳥之視點
      1. 透過個人經驗來了解世界, 蟲之視點
        1. 個人經驗給予了豐富但狹隘的認知
      2. 透過統計數據來了解世界, 鳥之視點
        1. 統計數據給予了概括性, 嚴謹且無趣的洞察

  3. 別急著算數字
    1. 想要了解統計結論時, 應當做的第一件事情是去追問這個結論是什麼意思
      1. 計算和衡量的目標是什麼, 以及用什麼方法計算?
      2. 舉例來說, 將墮胎視做早夭或是流產, 大幅影響嬰兒死亡率
    2. 急著算數字, premature enumertion
      1. 一頭進入統計的技術性問題, 探討數字的趨勢, 卻沒先了解最根本的問題, 
        1. 計算的對象和定義是什麼?
        2. 對於數字背後的人性故事缺乏好奇心.
    3. 舉例來說, 玩暴力電玩的孩子, 比較可能在現實生活展現暴力
      1. 暴力電玩的定義
        1. 如何定義暴力電玩? 小精靈算嗎?
      2. 如何定義遊玩?
        1. 時間和頻率
      3. 展現暴力的定義
        1. 是真的有暴力行為, 還是侵略性行為?
        2. 侵略性行為又如何被衡量

  4. 退後一步, 看見全局
    1. 什麼是新聞, 取決於我們的關注頻率
      1. 新聞頻率, 會改變新聞的定義
      2. 需要長時間觀察, 緩慢的改變很難被放進快節奏的新聞裡面
        1. 氣候變遷/赤貧人口的減少
      3. 現今快節奏的新聞, 往往過於捕捉顫動, 而非趨勢
    2. 預先記憶一些地標數字, 當作數字比較的基準
      1. 全世界人口
      2. 地球的圓周
      3. 中等小說的字數
      4. 地標大樓的高度
    3. 人們容易被意料之外的新聞吸引, 而令人意外的多半是壞消息
      1. 真確的負面型直覺偏誤
        1. 人生往往是慢慢好轉, 而突然急轉直下
    4. 好幾天依然成立的事實, 往往比最新的消息可靠
      1. 顫動vs趨勢

  5. 取得背景故事
    1. 個人周遭接觸到的一切, 並無法正確的代表這個世界
      1. 接觸到的資訊存在系統性的偏誤
      2. 我們讀的多半是暢銷書, 但大多數書並不是暢銷書
    2. 媒體, 新聞甚至論文的審查機制, 偏好新奇且令人驚訝的新發現
      1. 發表偏誤
        1. 複製實驗的發現, 並不受到歡迎
      2. 一個符合我們認知的常識, 往往很難進入視線範圍
        1. 人有預知未來能力人沒有預知能力的訊息更容易被選上
      3. 抓取目光的甜蜜點:奇妙到讓人留下印象, 但不至於讓人斥為不可能
    3. 科學實驗與統計門檻
      1. 統計檢驗的假設是, 所有數據是一次蒐集完成, 然後進行檢驗
        1. 並不是蒐集一點資料並檢驗, 然後再蒐集再檢驗, 直到通過門檻
      2. 統計門檻往往是5%, 換言之, 就算檢測的變因和結果完全獨立, 只要檢測的變因夠多, 也有5%的機會通過門檻
      3. HARK, Hypothesising After Result Known
        1. 得到結果後提出假設
        2. 正確的方法:提出假設之後, 要在收集新的數據
    4. 再現危機
      1. 許多受矚目的心理學研究往往無法重現.
      2. 情況正在好轉
        1. 預先註冊
          1. 在研究者展開實驗之前, 必須先在公開網站說明他想要研究什麼
        2. 越來越多人願意進行複製實驗
          1. 逆火效應被後續實驗證明相當罕見
    5. 檢驗科學新聞
      1. 實驗是如何進行? 發現到的效果有多大? 其他研究者的看法?

  6. 誰被遺漏了?
    1. 接觸統計結果時, 人們童常預設數據反應了"沒有立場的觀點"
      1. 但是數據可能隱藏了微小但根深蒂固的偏誤
        1. 早期的統計結果有時自然而然的排除了女性
        2. 對教授而言, 大學生往往是簡單好獲得的群體
        3. 以家庭而非以個人為單位的統計, 可能使結果偏向取樣自男性.
    2. 增大統計母體並不一定比較好
      1. 規模大的統計可以降低誤差, 但不一定能降低偏誤
      2. 容易被統計到會在大規模民調的原始數據中造成偏誤
    3. 大數據的時代帶來樣本數=全體的概念
      1. 但是, 這邊的全體一樣具備了偏誤
        1. fb只能看到所有在使用fb的人
    4. 多注意統計中是否遺漏了什麼人或是什麼東西

  7. 當電腦說"不"時, 要求公開透明
    1. 極端的大數據支持者主張 : 先以數學的觀點檢視數據, 再建立脈絡, 讓數字自己說話
      1. 大數據的分析能舉出相關性, 但是相關性並不一定代表因果性
    2. 因果性很重要, 只靠相關性支持的分析, 長久看來容易被推翻
      1. 如果不知道什麼導致相關性成立, 意味著不知道什麼時候相關性不成立.
        1. 好比Google流感趨勢分析從成功到失敗
    3. 小數據裡面會碰到的問題, 在大數據中依然存在.
      1. 偏差有問題的數據收集再多還是有偏差
    4. 演算法的表現可能比人好, 也可能比人差, 如何評斷
      1. 這邊作者提到一些針對現有數據模型演算法的案例分析, 並試圖舉證人工判斷的結果更好
      2. 個人認為, 演算法的可重複性得以讓他人進行分析, 這反而是個優點
    5. 資訊公開
      1. 多數擁有大數據的公司, 都將數據和衍伸的演算法視為機密
      2. 針對公領域做決策的演算法, 該如何受到監理?
        1. 資料如何取得? 演算法表現如何評估? 

  8. 別把統計基石視為理所當然
    1. 統計是一種手段, 而不是目的
      1. 統計不該成為執政者粉飾太平的工具
        1. 不應該只為政府服務
        2. 不應該成為政府的壓迫工具
    2. 統計的成本看似很高, 但是和其對決策的幫助相比, 其實很划算.
      1. 統具數據是基石, 成為其他研究或是決策時的依據

  9. 別忘了, 錯誤的訊息也可能美得令人目眩神迷
    1. 南丁格爾將枯燥的數字轉成令人注目的圖表, 視覺化後的資訊為其論述增加說服力
      1. 視覺化可以增進影響力, 但這是手段而不是目的.
      2. 我們要的是事實, 事實是所有統計研究應遵循的座右銘
    2. 在電腦軟體輔助下, 統計數字可視化已經是現代的常態
      1. 但是過度強調視覺化, 可能會讓圖表淪為裝飾
      2. 甚至可能為了強調視覺效果, 降低了統計資料的嚴謹性
        1. 不透明的數字來源, 不應當拿來對比的資料
    3. 生動的圖表, 容易在網路上被人瘋傳, 無論真假
      1. 我們應當覺察自己看到圖表的情緒反應, 淡化他, 讓自己能客觀地審視資訊
        1. 審視自己是否能了解圖表背後的基本原理
          1. 被統計的對象是誰? 統計的方式?
          2. 各軸的意義是什麼?

  10. 保持開放的心態
    1. 留給自己犯錯的空間, 留給大眾犯錯的時間
      1. 市場保持非理性的時間, 要比你保持償付能力的時間來得長
    2. 人腦總是根據不完整的訊息來理解周遭世界
      1. 依據期待來進行預測, 並傾向根據少量訊息來泥補空缺
      2. 選擇性的接受事實, 甚至會改變記憶, 來避開需要承認自身錯誤的難堪
      3. 拒絕接受數據, 因為不相信世界已經改變了.
    3. 超級預測者
      1. 跨能制勝一書中強調超級預測者的知識多樣性
      2. 這邊強調超級預測者的開放心態, 綜合局內和局外觀點的分析
        1. 局內觀點 : 將焦點放在眼前要分析的案例上
        2. 局外觀點 : 比較類別為整體, 多半是統計數據
      3. 當有新證據和主張時, 願意放棄自己的成見, 能接受他人和自己的不同, 當成學習的機會
        1. 信念是必須驗證的假設, 而不是需要保護的寶藏

沒有留言: