- 要變得更像是瑞典嗎?
- 不要過度簡化問題
- 並非所有曲線都是直線, 不是線性的東西就不應該用線性去思考
- 拉弗曲線
- 拉弗曲線也不是完全正確的, 曲線上會有區域性的梯型或是山腰變化.
- 局部平直, 大域彎曲
- 主要從經典的極限理論探討到微分和導數
- 衍伸討論了非標準分析, 嚴格定義的無限小的數(infinitesimal number)的概念來構建分析學。
- 每個人都肥胖
- 如同真確裡面的直線型直覺偏誤
- 局部看起來很像是線性的關係, 廣域來看並不一定也是線性
- 好比在拋物線上, 上升區段看起來會像是直線
- 線性廻歸是好工具, 但要注意適用範圍和結果是否合理
- 好比拿百分比跟時間做線性回歸, 最後得到超過某個時間點, 百分比會超過100% 的結論, 這就是明顯的錯誤
- 相當於死了多少美國人?
- 套用比例的時候要小心
- 如果要檢驗某個數學方法, 試著用不同途徑去計算同樣的東西, 如果答案相異, 方法可能有問題
- 好比, 比較911的罹難者時
- 用罹難者人數:紐約人口去論述好比在台北被炸死了多少人
- 用罹難者人數:台灣人口去論述好比在台灣被炸死了多少人
- 上兩者答案不同, 可以判斷出方法有錯誤
- 取比例時, 要考慮母體大小與採樣次數
- 大數法則
- 樣本數量越多, 則其算術平均值就有越高的機率接近期望值.
- 換言之, 極限值較容易出現在樣本數較少的地方
- 好比只上場一次的運動員的命中率
- 常態分佈告訴我們
- 樣本增加一百倍, 標準差變成十倍
- 距平均值
- 小於一個標準差:68.27%
- 小於二個標準差:95.45%
- 小於三個標準差:99.73%
- 不過別忘了是每個事件是獨立事件
- 派餅比盤子還大
- 數字會變負的時候, 免談百分比
- 在計算和考慮比例的時候, 如果構成裡面允許負數, 那最終數字可能沒有意義
- 簡單舉例來說, 好比有投資A, B, C三個項目
- A賠了500
- B,C 賺了500
- 總共賺-500+500+500 = 500, 所以B佔了500/500 = 100%
- 破解聖經密碼迷思
- 在思考低機率事件發生的可能性時, 要考慮樣本數
- 當樣本數夠大, 低機率事件的發生期望值往往不低
- 曖昧模糊的規則會給予迴旋空間, 增加樣本數
- 以聖經密碼來說, 人名的拼法和縮寫方式可以大量增加樣本數
- 不可思議的事情常常發生
- 樣本數夠大, 生存者偏差
- 死魚不會讀心
- H0, Null hypothesis, 虛無假說
- 虛無假說的內容一般是希望能證明為錯誤的假設,與虛無假說相對的是對立假說,即希望證明是正確的另一種可能。
- 做實驗(取樣)
- 令虛無假設為真, 計算符合實驗結果的極端機率值p
(有多少機率會產生這樣的實驗結果) - 若p很小, 則可以說有統計上的顯著性可以排除虛無假設
- 要記得這只是工具, 錯誤的運用或取樣可能會影響p
- 歸謬法
- 流程
- 假定H為真
- 由H推出F不可能成立
- 然後F必定成立
- 所以H必為假
- 虛無假定
- 假設H為真
- 從H可以推出, 觀察到O的可能性很低
- 然而觀察到 O
- H不太可能為真
- 但是套用在機率上時, 要謹慎
- 假設有50人, H說他們是人類
- 觀察到他們之中有一個白化症病患
- 白化症相當罕見
- 假設H為真的前提下, 在50個人中觀察到白化症病患的機會相當低
- 換言之, 在H條件下觀察到O, 而O的可能性很低
- H不太可能為真
- 科學研究的可信度
- 常見的統計顯著閥值是0.05
- 也就是藉由觀察到一個5%的結果來否定虛無假設
- 換言之, 有5%的機率, 我們錯誤的否決了虛無假定
- 舉例來說, 如果對1000個因子個別做虛無假定的實驗,
就算實際上他們都不符合所需, 根據期望值, 也會有50個因子的實驗會做出有統計上顯著差異的結果 - 另一個潛在問題是, 由於閥值是0.05, 透過調整數據, 增加變因可以讓p通過閥值
- 結果是很多研究結果的p都略小於0.05
- 上帝, 你在嗎? 是我, 貝式推論
- 貝式推論
- P(H | E) = P(E | H) * P(H) / P(E)
- H 是假說
- E 是證據, 新觀測的結果
- P(H) 是事前機率, 在未知E之下對H的假設機率
- P(H | E) 是事後機率, 也就是E發生後, 新的H的機率
- P(E | H) 是假設H成立時, E發生的機率
- P(E) 邊際概似率, 對不同H是定值,
- 概念上來說, 透過貝式推論我們可以結合新的證據和之前推斷出來的機率, 進行機率的更新
- 以丟硬幣來舉例
- H1 : 硬幣60%正面, 40%反面
H2 : 硬幣50%正面, 50%反面
H3 : 硬幣40%正面, 60%反面 - 事前機率假設
P(H1) =0.05
P(H2) =0.9
P(H3)=0.05 - E : 連續出五個正面
- 則
P(E|H1) = 0.6 ^ 5 =7.76%
P(E|H2) = 0.5 ^ 5 = 3.125%
P(E|H3) = 0.4 ^ 5 = 1.024% - P(H1|E) = P(E|H1) * P(H1) / P(E) = 7.76% * 5% / P(E) = 0.0039 / P(E)
P(H2|E) = P(E|H2) * P(H2) / P(E) = 3.125% * 90% / P(E) = 0.0281 / P(E)
P(H3|E) = P(E|H3) * P(H3) / P(E) = 1.024% * 5% / P(E) = 0.0005 / P(E)
P(H1)+P(H2)+P(H3) = 1
得到P(H1|E) = 12%, P(H2|E)=86.5%, P(H3|E) = 1.5% - 你期望贏得樂透時, 是在期望什麼?
- 期望值
- 隨機試驗在同樣的機會下重複多次,所有那些可能狀態平均的結果
- 也可以視作大數法則下多次實驗的逼近值
- 期望值可以相加
- E(X+Y) = E(X) + E(Y)
- 兩件事物加再一起的期望值, 等於個別的期望值相加
- 套在樂透上, 可以用總分發獎金/總投入金額得到期望值
- 錯過更多班機
- 主流的經濟學認為, 人依靠理性做決策時會追求效用(utility)的最大化
- 導入U值來度量效用, 可以計算各種決策的期望值
- 舉例來說, "起飛前多久到機場"的問題中, 設定一小時的成本為U, 錯過飛機的損失為6U
- 起飛前 2 小時到機場, 有2% 次會錯過
- -2 + 2% * -6 = -2.12U
- 起飛前 1.5 小時到機場, 有5% 次會錯過
- -1.5 + 5% *-6 = -1.8U
- 起飛前 1 小時到機場, 有15% 次會錯過
- -1 + 15% * -6 = 1.9U
- 聖彼得堡悖論
- 投硬幣直到正面出現, 假設擲了n次, 則給予2^n的報酬
- 期望值為 1 * (1/2) + 2 * (1/4) + 4 * (1/8) ... 結果發散
- 換言之這遊戲期望值發散
- 已知的未知 vs 未知的未知
- 前者稱為風險, 後者稱為不確定性
- 具備不確定性的問題往往影響效用理論.
- 火車鐵軌相交之處
- 射影幾何
- 公設1 :每一對點都恰屬於一條共有的線
- 公設2: 每一對線都恰包和一個共有的點
- 法諾平面
- 漢明碼與漢明距離
- 在資訊理論中,兩個等長字符串之間的漢明距離(英語:Hamming distance)是兩個字符串對應位置的不同字符的個數。
- 在電信領域中,漢明碼是一種線性錯誤更正碼,最小距離為3的碼中能達到最高的位元速率。
- 編碼保證了任意兩碼的最小距離, 並且盡量佔滿空間.
- 平庸會出頭
- 均值回歸
- 統計結果告訴我們, 利用公司現在的表現去看未來表現, 會有均值回歸現象
- 好的公司變爛來接近平均, 壞的公司變好來接近平均
- 個人認為這邊排除了死掉的公司
- 數學上的解釋是, 未來的表現除了受到現在表現的影響, 也受到環境和機會因素的影響
- 好的母代只能控制前面的變因, 但無法影響後者
- 於是, 子代雖然會受母代表影響, 但考慮到隨機的環境和機會, 結果會偏向均值.
- 換言之, 只要研究的對象受機率影響, 就會有均值回歸的趨向
- 高爾頓的橢圓
- 關聯性
- 肺癌會讓你抽煙嗎?
- 相關並不等於因果, 就算統計上發現肺癌和抽煙有相關, 其實也有這些可能:
- 肺癌是因, 抽煙是果, 肺癌的人特別想抽煙
- 抽煙是因, 肺癌是果, 抽煙的人容易肺癌
- 第三方的原因造成抽煙和肺癌的相關性, 好比伯克森謬論
- 伯克森謬論
- 假設1000人裡面, 300人有高血壓, 400人有糖尿病, 120兩者兼有(因此兩者無相關)
- 假設所有病患都入院, 在醫院的580裡面
- 180有高血壓但是沒有糖尿病
- 280沒有高血壓但是有糖尿病
- 120人兩者都有
- 換言之, 從醫院來看
- 糖尿病患30%有高血壓, 而沒糖尿病的人100%有高血壓
- 可以推得高血壓和糖尿病負相關的謬論
- 沒有民意這種東西
- 多數決的方法簡單漂亮又讓人感覺公平, 然而它能發揮最大效果的地方, 是在兩個選項中取一
- 一旦超過兩個選項, 會有矛盾滲入多數所偏好的選項
- 舉記來說, 對於歐巴馬健保的民調:
- 37%的人傾向撤銷健保
- 10%的人傾向削弱法條
- 15%的人傾向不變動
- 36%的人表示應該強化
- 這兩個敘述都成立:
- 多數人反對歐巴馬健保
- 多數人要保留或強化歐巴馬健保
- 同樣適用在超過二選項的多數決的選舉
- 黏菌實驗
- 多頭絨泡黏菌的許多個體會形成一個變形菌體
- 分散式的思維還是可以進行相當有效的決策
- 黏菌喜歡燕麥, 討厭紫外線
- 實驗結果顯示
- 如果選項有 3公克的燕麥(3黑) 和 紫外線照射的五公克的燕麥(5光), 黏菌偏好是1:1, 兩者喜好差不多
- 如果是 3黑 vs 10光, 黏菌會選擇10光居多
- 但是如果是三選擇, 3黑, 5光, 1黑, 那3黑的次數會遠遠大於5光
- 換言之, 第三選項雖然沒人選擇, 卻影響了最終結果
- 不對稱控制效應
- 假設一半的黏菌以食物量為優先, 喜好順序是5光, 3黑, 1黑
另一半的黏菌以光亮為優先, 喜好順序是3黑=1黑, 5光 - 給第一名2分, 第二名1 分, 第三名0分
- 5光 : 2*0.5 + 0*0.5 = 1
- 3黑 : 1.5*0.5 + 1*0.5 = 1.25
- 1黑 : 1.5*0.5 + 0*0.5 = 0.75
- 如果只有5光和3黑參戰
- 5光: 1 * 0.5 + 0*0.5 = 0.5
- 3黑 : 0* 0.5 + 1*0.5 = 0.5
- 這符合觀察結果
- 換言之, 一個相似但比較差的選擇(1黑)讓原本的選擇(3黑) 看起來更好了
- 我從虛空中創造出一個新奇宇宙
- 歐幾里德幾何與非歐幾何
- 歐幾里德幾何的五個公設
- 從一點向另一點可以引一條直線
- 任意線段能無限延伸成一條直線
- 給定任意線段, 可以以其一個端點作為圓心, 該線段作為半徑作一個圓
- 所有直角都相等
- 通過一個不在直線上的點, 有且僅有一條不與該直線相交的直線
- 第五公設又稱作平行公設
- 在其他幾何裡面, 平行公設不一定成立
- 數學的形式主義
- 簡單說, 建立精確和完備的公設
- 希爾伯特計畫
- 所有數學的形式化
- 意思是,所有數學應該用一種統一的嚴格形式化的語言,並且按照一套嚴格的規則來使用完備性。
- 我們必須證明以下命題:在形式化之後,數學裡所有的真命題都可以被證明(根據上述規則)。
- 一致性。我們必須證明:運用這一套形式化和它的規則,不可能推導出矛盾。
- 保守性。我們需要證明:如果某個關於「實際物」的結論用到了「假想物」(如不可數集合)來證明,那麼不用「假想物」的話我們依然可以證明同樣的結論。
- 確定性。應該有一個算法,來確定每一個形式化的命題是真命題還是假命題。
- 皮亞諾公設
- 0是自然數;
- 每一個確定的自然數a,都有一個確定的後繼數a' ,a' 也是自然數;
- 對於每個自然數b、c,b=c若且唯若b的後繼數=c的後繼數;
- 0不是任何自然數的後繼數;
- 任意關於自然數的命題,如果證明:它對自然數0是真的,且假定它對自然數a為真時,可以證明對a' 也真。那麼,命題對所有自然數都真。
- 哥德爾不完備定理
- 邏輯上,一致性(consistency)、相容性、自洽性,是指一個形式系統中不蘊涵矛盾。
- 任何自洽的形式系統,只要蘊涵皮亞諾算術公理,就可以在其中構造在體系中不能被證明的真命題,因此通過推理演繹不能得到所有真命題(即體系是不完備的)。
- 任何邏輯自洽的形式系統,只要蘊涵皮亞諾算術公理,它就不能用於證明其本身的自洽性。
2021年7月10日 星期六
數學教你不犯錯
訂閱:
文章 (Atom)