《魷魚遊戲》這部韓劇講述著一群負債累累的人,被捲入了一場生存遊戲——贏了便能拿走巨額獎金,輸了就是死路一條。
在魷魚遊戲中,有時得獨自作戰擊敗對手,有時則需要找到隊友並肩作戰。而每當來到團隊合作關卡,就會出現最關鍵的時刻——選隊友。
幾個有領袖氣質的角色開始挑人,被點名的興奮、被略過的絕望。
還記得當我看到這一段時,自己還很入戲的在想:如果是我,我會選誰?又或者,我會被選嗎?
在生死關頭,你會看重什麼能力呢?是體力?是智慧?又或是抽象的默契?
在不同的情境下,有哪些「指標」能夠幫助我們找到「完美隊友」呢?
專項能力
當我們在評估一個隊友時,往往會評估:這個隊友是專才還是通才?
他是否有深度的「領域知識」,在特定情境下能夠帶來效用。
魷魚遊戲中的拔河遊戲就是個很好的例子。表面上看,這關需要的是「力氣大的人」,但真正讓弱隊逆轉的,是那個懂拔河技巧的老人。他知道重心要放低、節奏要一致、在對手放鬆瞬間全力猛拉。這些「專業知識」讓十個瘦弱的人,擊敗了一隊年輕壯漢。
再看彈珠遊戲。這一關不需要體力,也不需要智商,需要的是「懂人性、會操控情緒」的人。有人用真誠博取信任,有人用演技製造混亂,有人甚至裝失智來降低對手戒心。在這個情境下,一個心理學家可能比一個運動員更有價值。
創造力
這個隊友是否有獨到的見解與創意?能在意想不到的時刻,提出一個看似古怪卻有奇效的創意解方?
椪糖遊戲就是最好的例子。所有人都在小心翼翼地用針挑、用手剝,深怕一個失手就讓糖餅碎裂。主角更慘,抽到了最難的雨傘圖案——那個彎曲的傘柄簡直是惡夢。眼看時間一分一秒過去,他突然想起小時候買椪糖時的「作弊技巧」:用口水融化它。
於是他開始狂舔碰糖。 一開始旁邊的人都以為他瘋了,但仔細想想後變成一群人一起狂舔碰糖,真的是又緊張又充滿惡趣味的一幕。這不是寫在規則裡的方法,也不是靠蠻力或智商就能想到的,這是把「兒時調皮的創意」,重組成當下的生存策略。
可靠度
這個隊友是否在面對類似情境時,都能穩定地給出接近範圍的成果?他會不會今天說東、明天說西?跟 A 合作是一個樣,跟 B 合作又變了個人?
最可怕的不是能力差,而是「不穩定」。 彈珠遊戲裡,老人看似失智、記憶混亂,但你永遠不知道他是真的忘了,還是在演戲。這種不確定性會摧毀整個團隊的信任基礎。
更危險的是那種「記錯了還很有自信」的隊友。他告訴你玻璃橋第三塊是安全的,語氣篤定、表情真誠,結果一踩就碎。
在生死關頭,一個錯誤的資訊比沒有資訊更糟——因為你會基於錯誤做決策。 可靠度不只是「做得好」,更是「做得穩」,而後者往往更難評估。
互相理解的能力
這個隊友能否理解「字面意思」跟「真實意圖」的差距?
拔河遊戲裡,當隊長喊「預備——拉!」有人真的在「預備」時就開始用力,結果整隊節奏全亂(俗稱天兵)。 在高壓情境下,沒人有時間把每個指令說清楚。
更難的是,每個人的溝通習慣天差地別。有人說話直白,有人習慣旁敲側擊;有人的「隨便」就是真的隨便,有人「隨便」其實是心裡有別的答案不好意思說。
一個好隊友往往擅長「讀空氣」。他會觀察你的個性、理解你的習慣,然後在你開口前就知道你要什麼。
隊友揭曉
看到這裡,如果你以為我在教你怎麼選《魷魚遊戲》的隊友,那你只對了一半。
因為現在,我們每個人都在進行一場更真實的「選擇」——不是選人類隊友,而是選擇 AI 協作夥伴。
而評估 AI 的標準,與評估人類隊友的標準,驚人地相似。

當我在閱讀這本《AI工程》第四章「評估AI系統」時,作者提出了幾個評估 AI 是否能有效解決問題的評估準則:
1. 特定領域能力 (Domain-Specific Capability)
就像玻璃橋需要玻璃工匠、拔河需要懂技巧的教練,AI 也有專精領域。醫療 AI 模型能讀懂 X 光片,但不會寫詩;ChatGPT 擅長寫作,但我通常不會用它來寫 Code。選錯專長,就像帶著運動員去比下棋。
2. 生成能力 (Generation Quality)
就像椪糖遊戲需要創意解法,AI 需要能產出新穎、有用的內容。但這裡有個矛盾:生成能力越強的 AI 模型,往往越容易「幻覺」(Hallucination)。
當 AI 被訓練得更有創造力,它會更敢「腦補」、更願意「聯想」。這在創意工作裡是優點——寫科幻小說時,它能編出不存在的星球;發想行銷標語時,它能組合出意想不到的詞彙。適度的幻覺,就是創意的本質。
但在醫療、法律、金融領域,這種「創造力」就變成災難。它可能編出聽起來專業但根本不存在的醫學術語、想像出從未發生過的判例編號。
3. 事實一致性 (Factual Consistency)
當 AI 開始幻覺時,會用無比自信的語氣,告訴你一個根本不存在的統計數據、編造一篇論文標題、虛構一個歷史事件。而你很難察覺,因為它說得太像真的了。
我們如何測試事實一致性?給它多個類似問題,看答案是否趨近一致。 但這裡有兩個層次:
「局部一致性」:同一對話中回答是否穩定?問三次「台北 101 有幾層樓」都該得到相同答案。
「全域一致性」:跨對話、跨用戶是否一致?今天告訴 A 用戶某藥物安全,明天卻告訴 B 用戶有致命副作用——問題是,每個用戶都只看到自己那次「很一致」的回答,沒人知道 AI 在別處說了相反的話。
在醫療、法律等領域,全域一致性至關重要;但在創意工作裡,適度變化反而是優點。
4. 指令遵循能力 (Instruction Following)
簡單來說,就是「聽得懂人話」的能力。
你說「寫一份簡短的報告」,AI 給你三千字;你說「用專業但易懂的方式解釋」,它卻寫得像教科書一樣枯燥。問題不是 AI 不聽話,而是「字面意思」跟「真實意圖」之間有巨大鴻溝。
AI 面對的真正挑戰是人類的隱含需求。 你說「幫我整理會議記錄」,一個低階的 AI 模型會逐字謄打每句話,一個高階的 AI 模型會知道你要的是「重點決策」和「待辦事項」。
這也是為什麼提示工程(Prompt Engineering)變得如此重要,本質上,這是在學習用 AI 能理解的方式溝通。
- 不是說「幫我寫得好一點」,而是說「用三個段落、每段 100 字、舉兩個實際案例」
- 不是說「分析這份數據」,而是說「找出前三大趨勢、計算年成長率、用表格呈現」
把隱含的期待,變成明確的指令。
下方是 LMSYS 一個有趣的統計:AI前10大使用情境
| 排名 | 使用案例 | 示例提示 |
|---|---|---|
| 1 | 寫作 | 撰寫一篇關於AI叛亂的短篇科幻小說。 |
| 2 | 角色扮演 | 假裝你是一名偵探,解決我的線索之謎。 |
| 3 | 推理 | 如果所有A是B,且部分B是C,則A與C的關係是什麼? |
| 4 | 數學 | 求解這個微積分積分:∫ x² dx 從 0 到 1。 |
| 5 | 編碼 | 撰寫Python二進制搜索樹的程式碼。 |
| 6 | STEM知識 | 簡單解釋量子糾纏。 |
| 7 | 人文/社會科學 | 討論文藝復興對現代藝術的影響。 |
| 8 | 提取/總結 | 總結這篇關於氣候變化的文章。 |
| 9 | 創意頭腦風暴 | 為遠端工作腦力激盪出5個應用程式創意。 |
| 10 | 建議/諮詢 | 我該如何談判加薪? |
這份清單透露一個訊息:人們期待 AI 既能做高創意的事(寫作、腦力激盪),也能做高精確的事(數學、編碼)。 但這兩種任務需要完全不同的指令風格,創意任務你要給空間,精確任務你要給限制。能否針對不同任務調整溝通方式,決定了你能否把 AI 用好。
結語
當然,評估 AI 還有其他關鍵準則:安全性(會不會被駭客操控或洩漏機密?)、成本(每次呼叫 API 要燒多少錢?)、延遲(使用者能等30秒還是只能等 3 秒?)。
但上方提到的四個核心能力,讓我深刻感受到,選「AI 隊友」跟選「人類隊友」,本質上是同一件事。
你不會期待找到一個「體力好、智商高、情商高、永遠穩定、還能讀心術」的完美隊友,因為那不存在,就算存在,那個人大概也不會選你。
你只能根據任務需求,選擇「在關鍵指標上夠可靠」的夥伴。
在 AI 時代,人類的 edge 不是比 AI 寫得更好、算得更快,而是:
- 理解模糊的真實需求:客戶說「要有質感」是什麼意思?老闆說「再優化一下」具體指什麼?
- 判斷情境的優先順序:這個任務的績效指標是準確度重要還是創意重要?是要質還是量?
- 選擇恰當的工具組合:什麼時候用基礎模型?什麼時候用專業模型?什麼時候根本不該用 AI?
AI 是強大的隊友,但它需要一個好隊長。
那個能把「客戶皺了眉頭」翻譯成「需要更溫暖的語氣」、把「老闆說還可以」解讀成「完全重來」、把一個模糊的商業目標拆解成十個可執行指令的人——那才是 AI 時代最稀缺的能力。
本週紀錄
這禮拜更有意識的在 Peak Pals 上紀錄自己每天進行有效輸出的時間,但我認為是遠遠不足的,也因為這禮拜塞入了許多社交活動(2場慶生、一場高中聚會),讓我覺得自己在工作與獨立創業這一塊的進程沒有達到自己的自我要求,也感到焦躁。
但無論如何,看見重要的朋友、與家人相處,我覺得很開心富足,在每個相處的過程中我也都提醒自己,要活在當下,珍惜這些關係。


