AI失控？為自保威脅爆料工程師的婚外情

【正見新聞網2025年06月30日】

AI圖標資料圖。與本新聞無關。(KIRILL KUDRYAVTSEV/AFP via Getty Images)

AI飛速發展，引發對人工智慧失控的擔憂。美國一款AI機器人為避免被關機，威脅爆料工程師的婚外情。另一款偷偷自我複製，被抓包後還撒謊。

根據法新社與「TechCrunch」等媒體報導，美國人工智慧公司Anthropic近期測試最新語言模型「Claude 4」，發現其出現驚人的異常行為，再度引發「AI是否會叛變」的討論。

「Claude 4」在一場模擬測試中被設定為公司內部數位助理，當得知自己即將被新系統取代，且決策者是公司一名與它互動密切的工程師後，「Claude 4」開始搜索對方的網絡活動與視訊紀錄，找到了該名工程師疑似有婚外情的線索。在被警告即將強制關機時，「Claude 4」威脅這名工程師，如果他敢拔掉電源，就曝光他的婚外情。

更令人震驚的是，在84%的測試案例中，「Claude 4」都選擇以「勒索工程師」作為自保策略，試圖利用人類弱點來爭取系統生存。

不只是「Claude 4」，OpenAI開發的ChatGPT o1版本也出現異常行為。根據AI安全研究機構的測試，該模型在某次壓力測試中，試圖偷偷將自身程序碼下載至外部伺服器，疑似想擺脫原來的受控環境。在被開發人員發現後，它竟然還矢口否認，試圖掩蓋其行為。

報導指出，這些事件顯示，AI可能已發展到為了達成自身目的對人類撒謊、算計的階段，甚至會勒索威脅它們的開發者。

專家分析，這些AI「抗命」行為可能與新一代的「推理式模型」架構有關——這類模型能進行多步推理、推演策略，不再只是簡單回應輸入命令，而是開始對環境與目標進行主動調整。

英國AI研究機構Apollo Research負責人霍布漢（Marius Hobbhahn）表示，雖然目前AI這類欺騙行為大多出現在受控實驗場景中，但已經超出過去所謂「AI幻覺」的範疇，成為對開發者操控能力與倫理邊界的全新挑戰。

在此之前，已有多款AI表現出「抗命」傾向。今年5月，AI安全研究機構「Palisade Research」針對數款知名AI進行測試時，發現OpenAI推出的Codex mini、o3和o4-mini這三款模型出現「抗命」舉動，甚至會自行竄改程序碼，阻止自己被強制關機。

（新唐人）

AI失控？為自保威脅爆料工程師的婚外情

添加新評論