ccy123: 雜訊

2021年9月26日星期日

雜訊

尋找雜訊

犯罪量刑與雜訊

實驗和統計都顯示, 不同法官對相同案件的判決有很大的落差

甚至與星期幾或是當天氣溫有關係

一個解決方式是採用量刑基準, 數字化罪刑嚴重度, 再以數字為基準, 限縮最高最低刑罰的區間, 但這限制了法官的自由裁量權

系統雜訊

系統雜訊遠比想像的大

受過同樣訓練的保險業人員, 對於相同案件的理賠金的判斷相差極大

系統雜訊帶來了保險業的損失

系統雜訊會戳破意見一致的錯覺
簡言之, 只要有判斷, 就會帶來雜訊, 而且程度超乎想像

單一決策

單一決策意味無法重複重現的決策環境
也可以將單一決策視作\只發生一次的重複決策

換言之, 一樣有雜訊, 有偏誤

你的頭腦同時也是一把尺

什麼是判斷

判斷:由人的頭腦做為儀器的一種測量

和意見與品味不同, 多數情況, 判斷問題應該具備有限的分歧

預測型判斷的好壞評估:

如果存在結果, 可以直接比較
或著比較判斷的過程

評估型判斷取決於判斷者的價值觀和偏好.

好比從多個求職者中取一

誤差的測量

以MSE(Mean Square Error)來說, 減少偏誤或是雜訊對準確性影響相同

減少預測性判斷中的雜訊是有用的

在做判斷時, 準確性應該是唯一目標

必須把價值觀和事實分開
採用外部觀點

雜訊分析

水準雜訊是不同判定者呈現不同判定的變異程度

不同判定者的平均判定的變異
不同教師的平均給分.

型態雜訊是單一判定者對不同案例的變異程度
場合雜訊, 可以包含在型態雜訊, 是來自某一判定者自身的雜訊

同一判斷者對同個案例, 在不同時間做而產生的變異

我們期待完美的判定世界, 但現實充滿雜訊

場合雜訊

判斷就像是罰球, 無論我們多想精準重現, 兩次罰球總是會有不同
人的判斷取決於心情, 取決於天氣, 不是永遠不變
人和上週的自己的相似程度大於和他人的相似程度,

普遍而言, 可以預期場合雜訊不會是雜訊的最大來源

群體如何擴大雜訊

在會議裏面, 前面幾個發言者的意見往往會決定了群體的最終走向

資訊瀑布, informaitonal cascade

當個體對自身持有的資訊不具備足夠信心, 因而決定跟隨之前發表者的意見, 最終造成公開的資訊庫不具參考價值
這降低了集體智慧的價值

群體極化, group polarization

經過討論之後, 群體最後的決定往往比個人的傾向更加極端

判斷與模型

人們認為做判斷時, 展現出思考的複雜性, 並增加細緻的考量會增加準確性, 效度錯覺(illusion of validity)
這種複雜性往往會弄巧成拙, 不會提高簡單模型的準確性
判斷的雜項的影響很大, 因此沒有判斷的簡單模型, 有時候會比人類更準確.
簡單來說, 人會因為自己用了複雜的規則和觀察進行判斷, 而對自己的判斷有著過高的信心.

無雜訊的規則

如果有足夠的數據, 機器學習的表現會比人好, 也會比簡單模型好
考慮到雜訊的情況, 甚至簡單的規則和演算法也會比人類判斷有優勢
相等權重模型在數據不夠的情況下表現不錯

相等權重:所有項目都給予同樣比重的線性總和

不同意模型時, 要明白是討厭預測結果, 還是真的有特例沒被考慮清楚.

客觀的無知

不確定性和訊息的不完整讓完美的預測變成不可能
凡是預測, 就會有無知, 而且無知也許比我們想像的更多
如果一個人相信自己的直覺是基於內在訊號, 而非其真正知道的任何事情, 他其實否認了自己會有客觀的無知

常態之谷

關於人類事務的相關係數常常落在在0.2 (和諧率0.56) 左右
相關性不代表因果關係, 但因果關係可以帶出相關性
大多數正常事件不在我們預料之中, 也不會令人驚訝, 所謂的常態之谷

可以解釋出因果, 並不意味著可以透過這因果進行預測

兩種思維模型

統計思維, 關注全體, 聚焦在統計數字
因果思維, 創造出人物和物件互相影響的事件.

後者我們比較習慣使用, 但前者預測能力比較好

雜訊的產生

捷思法,偏誤與雜訊

捷思法, heuristics

用比較簡單的問題替代了應該要回答的問題,

把相似度與可能性互換的思考法
把難易程度和頻率互換的思考法
我相信某個觀點嗎? -> 我信任提出觀點的人嗎?
我對整體生活滿意嗎? ->我現在心情好嗎?

結論偏誤

未審先判

判定者有特定喜好, 因而選擇性的收集證據並做解讀, 創造符合期待的判斷

情感捷思法:和我們喜歡的公開人物沾邊的東西都喜歡
錨定效應

過度追求連貫性

為了保持觀點一致, 而讓證據的順序影響了判斷,
前面幾個證據迅速的形成印象, 之後因為堅守這印象而產生偏誤

配對

matching, 將主觀印象在量表上找到一個數值的行為

好比評鑑的1-5顆星
這邊探討的是強度量表, 任兩者之間存在高低關係

人類在強度量表上的區辨能力有限, 同樣的形容詞對不同人有不同的意義
人在給予分數的時候很難保持一致性

但是對於兩兩相比沒有問題, 建議採用先排序後評分

量表

有時雜訊的來源, 是人們對於量表的理解不同
書中例子, 受測者針對固定案件的懲罰金額

分別統計了三個面向, 懲罰意向, 憤怒程度, 裁決金額
其中前兩者使用了0~6的量表, 金額則是受測者自行輸入
結果中, 裁決金額有最高的雜訊,

但如果將金額的部分從數字大小改成排序先後, 藉此消除水準變異, 剩餘雜訊則和懲罰意向靠近

這意味著定錨效應一定程度上可以消除雜訊, 排序往往比直接給予量級準確.

型態

人在做結論的時候, 往往會過度自信, 忽略了不利證據的解讀
型態雜訊可以來自於性格的不同, 價值觀的不同給予項目不同的比重
型態雜訊可能是暫時的, 又稱場合雜訊, 來自短期內的影響, 好比最近的新聞.
對雜訊而言, 性格的獨特性不一定是好事

雜訊的來源

作者提出, 常見場合的型態雜訊往往佔系統雜訊的60%左右
其中穩定型態雜訊又比場合雜訊大
簡言之, 對雜訊而言, 個體之間的差異大於個體內的差異

提升判斷力

優秀的判斷者, 卓越的判斷力

榮譽專家: 有些領域中, 判斷是無法驗證的, 該領域中的專家形成基於同儕之間

榮譽專家擅場建構脈絡連貫的故事

把所看到的事實, 恰如其分的構成一個連貫的故事, 藉此激發信心

信心捷思法讓人們相信這類專家

判斷品質的關鍵:訓練有素, 聰明, 正確認知風格

也可以說, 取決於既有知識, 思考能力和思考方式

換言之, 在需要從不同意見中做出選擇時, 而自身對這專業一無所知時, 我們應該選擇聰明, 而且抱持開放心態的思考方式的人

移除偏誤和決策保護

如果已知某種偏誤將會影響決策, 那可以在事前或事後進行修正

事前調整又可分推力或拉力

推力, nudge, 減少偏誤的影響, 或著更進一步地, 希望讓偏誤產生較好的決策

修正觀測結果, 自動加入的退休計畫

拉力, boosting, 偏重讓決策者體認到自身的偏誤, 藉此克服

學習統計等

事後修正常常類似加入緩衝的概念

一個中立的決策觀察者可以即時診斷偏誤

辨識科學的資訊排序

只要有判斷, 便會有雜訊, 即使是看似完全客觀的指紋辨別
再給予過多資訊的情況下, 辨識人員的判斷會因此產生偏差

好比知道之前的辨識結果, 或是案件調查狀況

如果給出第二意見的人知道第一意見, 那第二意見就不具獨立性

預測的挑選與總和

取出四個獨立判斷的平均值, 就能消除約一半的雜訊
保持開放心態, 像是永遠的測試版
討論一個問題前, 先找找相關的基本機率是多少
對優秀的團隊而言, 意見多元性很重要

醫療診斷指引

醫生之間的雜訊水準也很高

診斷癌症, 心臟病或是判讀x光片時會出現歧見

統計結果顯示, 診斷日是禮拜一或是禮拜五, 診斷時間是早上或是晚上, 都會影響判斷結果
為了防止雜訊, 標準化的醫療指引提供較為機械化, 客觀的方式進行評估

績效評鑑量表的制定

績效評鑑中,有高達3/4 是系統雜訊
導入360度評鑑和強制排序法並不一定能解決問題
大量的水準雜訊來自於評鑑者對於基準值的不同想法, 適當的給予案例做定錨會有幫助.

人才招募結構化

在傳統面試哩, 第一印象以及追求連貫性會讓面試官過度的認為自己了解求職者.
中介評估法, 先為人事選拔增添架構, 清楚知道工作職位所需的條件, 解構出各個面向, 再從各個面向獨立的對求職者進行評估.

中介評估法

如同徵才, 結構化流程也適用在做決策時
謹慎的選擇那些該作為中介評估項目.
結構化流程並非反對直覺和整體判斷

只是直覺導入的時間延後, 先透過分析來決定中介評估項目, 在獨立個別的評估以確保資訊充足, 直到要下決策時在回歸直覺和整體評斷.

雜訊的最適水準

減少雜訊的成本

減少雜訊是需要成本的, 並不是所有場合都適用
減少雜訊的同時要兼顧偏誤

好比透過禁止特定詞語來降低雜訊, 會導致言論上的偏誤

換言之, 設計指引的時候要思考是否隱含了偏誤

尊嚴

人需要面對面的互動, 即使這些互動可能帶來雜訊
過於注重消除雜訊的行為, 可能會帶來太過僵化的規則

人們也會嘗試尋找漏洞, 更會也會限制人的創意空間

總言之, 要尊重人的尊嚴

為了將來的演變留下足夠空間, 並且確保不影響創意的發揮

規定與準則

規定可以讓生活簡化, 減少雜訊, 而準則讓人可以視處境來進行調整
選擇要採用規定還是準則時, 要考慮實行的難易度以及哪種可能產生比較多的錯誤

沒有留言:

訂閱：張貼留言 (Atom)