Optimal Stopping - The Secretary Problem

Optimal Stopping
Author

Tai-Ning Liao

Published

February 26, 2026

柏拉圖有一個很有名的故事:他要弟子去麥田裡,不准回頭地摘下一株最大的麥穗。

結果弟子為了等後面「可能」更大的,最後什麼都沒摘到。

這個故事大家可能都聽過,但如果我們把它變成一個嚴格的數學問題呢?

1. 問題設定

假設你現在是老闆,要面試 \(N\) 個秘書,面試完必須立刻決定要不要錄取,不能吃回頭草。

  • 你遇到第一個人,他是目前最好的機率是百分之百,也就是 1。
  • 遇到第二個人,他比第一個好的機率是 \(1/2\)
  • 第三個人,剛好是目前這三人裡最優秀的機率,是 \(1/3\)
  • 以此類推,第 \(k\) 個人成為「目前為止最好」的機率,剛好就是 \(1/k\)。這每一個都是獨立事件。

問題來了:你要怎麼選,才能讓自己選到那個「絕對第一名」的機率最大?

2. 逆向歸納法 (Backward Induction)

遇到這種不知從何下手的問題,最暴力的解法,就是從結果往回推。

秘書問題的本質,其實是最簡單的一種動態規劃。 如果你有學過任何 Dynamic Programming 的話,現實中的 DP 絕對比這個還要複雜非常多。 這裡 optimal stopping 是一個特別簡單的情形,數學上叫做 Backward Induction,逆向歸納法。

如果你沒學過也完全沒關係,因為我們現在馬上來看一下,它到底在幹嘛。

想像一下,你站在面試的最後一關。如果前面都沒選,最後一個就算再爛,你也只能硬著頭皮選下去。因為你已經知道最後一步的下場,所以我們可以開始「往回倒推」。

3. 確立解的形狀:黃金交叉

在往回推的過程中,我們每一步其實都只在做一件事:拿「天平」秤兩邊的重量。 左邊是「我現在就停下來」的期望值;右邊是「我繼續面試下去」的期望值。哪邊重,我們就選哪邊。 - 如果你太早停下來,樣本數根本不夠,所以「停下來」的期望值一開始是很差的。 - 但反過來說,如果你一直撐著不選,隨著剩下的人越來越少,「繼續找」的期望值也會無情地往下跌。

既然一邊在漲、一邊在跌,這兩條線,注定會產生一個「黃金交叉」。

這個交叉點非常重要,它幫我們確立了「解的形狀」: - 在交叉點之前,繼續找的期望值比較高,所以不管遇到誰,我們一律放棄; - 但是,一旦越過了這個門檻,只要遇到「目前為止最好的人」,我們就毫不猶豫地錄取他!

4. Bruss Algorithm 與 Odds 的推導

既然知道了策略是切出一個門檻,那這個門檻具體到底在幾趴?這時候,我們就要請出 Optimal Stopping 領域最漂亮的公式:Bruss Algorithm。

我們畫一個狀態圖來推導。

假設每一個面試者是最好人選的機率是 \(P\),不是最好的機率是 \(Q\)。如果選到了不是最好的人,比賽就要繼續,這就是走 \(Q\) 的路線;如果抽中最好的人,就是走 \(P\) 的路線。 假設我們在第 \(S\) 個人的時候決定停下來,我們把天平的兩端拿出來比:

  • 天平的一邊,是你選擇「現在就停」。那你後面必須全部槓龜,才會證明你現在選的是對的。 所以機率是從第 \(S+1\)\(Q\),一路連乘到第 \(N\)\(Q\)。(語音讀法:從 Q s 加 1,一路連乘到 Q n)

  • 天平的另一邊,是你選擇「繼續找」。要贏的話,代表後面「至少要發生一次」選到最好的人。也就是把剛才那一長串的 \(Q\) 連乘裡面,把其中一個 \(Q\) 換成 \(P\) 的所有組合,全部加總起來。

當我們把天平兩端相等,也就是找出那個黃金交叉點的時候,神奇的事情發生了。 只要把右邊的一大串加總,除以左邊的 \(Q\) 連乘。每一個組合裡的 \(Q\) 都會被消掉,只剩下 \(P\) 除以 \(Q\)

\(P\) 除以 \(Q\) 是什麼?在機率論裡,這就叫做 Odds,賠率! Bruss 演算法證明了,只要你從最後面開始,把每一個人的 Odds 加起來。當這個總和「剛好超過 1」的那一瞬間,就是你該設立門檻的完美停損點!

5. 結論

這個數學公式非常漂亮,算出秘書問題的答案大約是 37%。很多人看完這種影片,就會傻傻地把 37% 當作人生真理去套用。 但說實話,這在現實生活中是不完全合用的。

為什麼?因為數學公式把「選到絕對的第一名」當作 100 分,選到第二名、第三名,甚至是倒數第一名,全部當作 0 分。

但在現實面試、甚至找伴侶的時候,如果你已經看過了 80% 的人,此時遇到一個綜合評估是「目前第二好」的人選,你真的要為了那虛無縹緲的「絕對第一」,而把眼前的第二名放棄掉嗎?當然不該!

現實世界不是非黑即白的 0 與 1。當我們把第二名、第三名的價值也考慮進去時,這個遊戲的規則就會改變。解的形狀不再是單一一個門檻,而是會出現多重門檻(Multiple Thresholds)—— 隨著時間流逝,你會願意妥協的標準會像階梯一樣慢慢放寬。

至於這個「多重門檻」在數學上又該怎麼計算?這其實是 Optimal Stopping 裡更進階的變體。如果大家對這種「更貼近真實人性」的數學推導有興趣,我們下一支影片再來好好聊聊。