※ 引述《huabandd (我是阿肥巴你頭)》之銘言: : https://is.gd/U7lWC8 : 看到一個影片,非新聞報導,僅創作者想法 : 討論蘋果揭露關於人工智能當中的最大謊言 : 之前也看過一個影片指出 : AI無法產出指針在10:10以外的手錶 : (網路手錶圖片通常指針停留在10:10) : 自己嘗試過幾次確實是這樣 : 因為AI的訓練是基於現有大量資料 : 去產生一個與大量資料相似的產物給你 : 無法產生未曾有過資料的產物 : (以上為個人猜測,若錯誤請指正) : 雖然現在已有研究嘗試將AI接入人類神經元 : 未來思考的方式有可能因此改變 : 不再只是記憶,而是真正的推理 : (但是這好像也是一件滿恐怖的事情?) : 如果說給AI一個圍棋組,但不教他玩法 : 也不讓他參考棋類玩法,讓他自行摸索 : 就像嬰兒拿到玩具後自己亂玩那樣 : AI能夠自行生成玩法是不是就算是成功? : 中文翻譯 : 蘋果剛剛揭露了人工智慧中最大的謊言,即「思考」的假象,證明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問 : 題,而是創造了這些模型從未見過全新謎題。結果令人震驚。 : 對於簡單問題,標準 AI 模型表現優於昂貴的推理模型,同時消耗更少的資源。對於中等複 : 雜度問題,推理模型顯示出一些優勢,但對於模擬現實世界情境的高複雜度問題,兩種類型 : 的模型都崩潰到 0% 的準確度。 : 這是確鑿的證據:蘋果給予 AI 模型逐步的演算法,就像給某人食譜一樣,但它們仍在相同 : 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據,得 : 出結論認為其行為最好用複雜的模式匹配來解釋。 : 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔(Tower of Hanoi)謎題,模型 : 在超過 100 步的移動中成功了,但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶 : 模式,而不是進行邏輯推理。 : 隨著問題變得越來越難,「思考」模型使用的 token 越來越少,放棄得更快,而不是更深 : 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤 : 前提上的。 : 公司將複雜的模式匹配宣傳為真正的推理,誤導消費者對 AI 能力的認知。我們離通用人工 : 智慧(AGI)的距離並沒有大家想像的那麼近;我們正在處理的是非常複雜的自動完成系統 : 。當先進的 AI 推理模型連遵循簡單指令都失敗時,我們是否正生活在一個建立在幻想之上 : 的 AI 炒作泡沫中? : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions?