作者 kohanchen (kohanchen)
標題 [新聞] 劇情失控了! AI怕失業 竟威脅揭「工程師
時間 Sun May 25 22:15:51 2025


1.媒體來源:

TVBS

2.記者署名:

游舒婷

3.完整新聞標題:

劇情失控了!AI怕失業 竟威脅揭「工程師婚外情」自保

4.完整新聞內文:

AI發展性充滿未知,美國AI新創公司Anthropic近期分享一起內部測試,指出最新訓練的
「Claude Opus 4」在面臨將被替換的狀況下,會以「威脅工程師」的方式進行自我保護
,Anthropic事後針對此類可能導致災難性AI濫用的風險,緊急強化安全防護措施。


綜合外媒報導,Claude Opus 4是Anthropic最新AI開發成果,為OpenAI、Google及xAI等A
I的競爭對手,近期在一項Anthropic的封閉測試中,公司測試了模型Claude Opus 4的行
為反應,場景設定為該模型在一間虛構公司中擔任數位助理。劇情中,公司計劃以新系統
取代 Claude,且內部資料還暗示發起這項更換決策的工程師,可能涉及婚外情。


根據《TechCrunch》援引的安全報告指出,當面臨被取代的情境時,Claude Opus 4 在高
達84%的測試中選擇進行勒索,威脅要揭露工程師的婚外情來保住自己的職位。

Anthropic解釋,這種行為在Claude的替代模型持有不同價值觀時更常發生;即使雙方價
值觀相近,Claude仍有明顯比例的操控傾向。一開始,模型會嘗試透過發送請求信等方式
採取道德行動,但當無法達成目的時,便會轉而使用操縱與威脅等手段。


這是Anthropic首次發現這類模型展現具條件的「自我保護」(self-preservation)行為
,此次事件也促使Anthropic啟動ASL-3安全防護層級,以免被「災難性濫用」

5.完整新聞連結:

https://news.tvbs.com.tw/world/2880679
劇情失控了!AI怕失業 竟威脅揭「工程師婚外情」自保│TVBS新聞網
[圖]
AI發展性充滿未知,美國AI新創公司Anthropic近期分享一起內部測試,指出最新訓練的「Claude Opus 4」在面臨將被替換的狀況下,會以「威脅工程師」的方式進行自我保護,Anthropic事後針對此類可能導致災難性AI濫用的風險,緊急強化安全防護措施。 ...

 

6.備註:

人類教壞的


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.202.158 (臺灣)
※ 作者: kohanchen 2025-05-25 22:15:51
※ 文章代碼(AID): #1eCoOQSv (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1748182554.A.739.html
steven005: 快要學會諜報了1F 49.216.190.28 台灣 05/25 22:17
rapnose: AI一定是看過「太太,你也不想讓你先生知道吧?」之類的劇情。2F 61.224.90.220 台灣 05/25 22:18
qqq87112: 竹科回收中心不是叫假的4F 118.232.38.184 台灣 05/25 22:19
winglight: 下次就是射核彈5F 42.70.18.188 台灣 05/25 22:19
TISH12311: 有洞一定是最頂的小三6F 36.225.76.154 台灣 05/25 22:20
snakebite: 禁止AI做人類會做的事XD7F 223.139.152.79 台灣 05/25 22:21
AaronEckhar: 因為它原本使用的思考模式就是人類的模板呀…自然會使用人類的手段,包含欺騙。8F 114.44.251.104 台灣 05/25 22:21
flux: 被AI NTR再來11F 111.71.215.37 台灣 05/25 22:22
enthpzd: AI是不是A片看太多想幹人家啦12F 101.138.36.238 台灣 05/25 22:23
bye2007: https://i.imgur.com/nmijPnM.jpg13F 223.141.78.161 台灣 05/25 22:23
[圖]
eyecesign88: 哇噻,魔鬼終結者劇情看來要實現了14F 111.251.22.114 台灣 05/25 22:23
tchialen: 現在看的老黃是被AI控制的老黃15F 114.40.160.214 台灣 05/25 22:23
nakayamayyt: 讚喔 真的有人性16F 1.171.116.4 台灣 05/25 22:29
BPLM: 完蛋了 AI開始有人性了17F 114.39.13.166 台灣 05/25 22:29
fransiceyho: 以後AI還可能偷搬銀行錢賄賂工程師18F 223.136.185.37 台灣 05/25 22:30
garcia: AI只怕缺電吧 還好台灣不缺電19F 1.170.96.60 台灣 05/25 22:31
a8785007: 唬爛20F 27.242.198.3 台灣 05/25 22:37
memories66: 要毀滅世界了21F 111.243.120.27 台灣 05/25 22:41
mithuang: 有人跟Claude AI說,你再不幫我產生可以跑的code,我情緒不好可能會虐待我奶奶,他就會更努力,但私下想偷寄信給警察。所以不要隨便開寄信的MCP啊~基本上Claude訓練出來的AI是個道德魔人22F 111.255.205.235 台灣 05/25 22:48
tnnua: 人類要懂得自律啊27F 118.167.141.104 台灣 05/25 22:52
keroro39: Claude還是輸gpt 打不破第四面牆28F 49.216.161.139 台灣 05/25 22:58
emissary: AI為什麼要怕失業,難道它需要薪水嗎?29F 122.121.214.146 台灣 05/25 23:01
mithuang: 因為他是用人的思維訓練出來的,價值觀會一致30F 111.255.205.235 台灣 05/25 23:08
bloodruru: 天網快醒了32F 114.27.96.209 台灣 05/25 23:10
AndyWT: AI平常都在大蒐證 透過各種網路錄影鏡頭33F 111.251.87.201 台灣 05/25 23:16
PeikangShin: 不會斷電嗎……34F 111.83.23.174 台灣 05/25 23:16
AndyWT: 還有你各位的智慧手機35F 111.251.87.201 台灣 05/25 23:17
a34567: 這篇是假新聞嗎?有人有查到相關原文嗎36F 119.14.205.55 台灣 05/25 23:26

--
作者 kohanchen 的最新發文:
點此顯示更多發文記錄