【正見新聞網2025年06月30日】
AI圖標資料圖。與本新聞無關。(KIRILL KUDRYAVTSEV/AFP via Getty Images)
AI飛速發展,引發對人工智慧失控的擔憂。美國一款AI機器人為避免被關機,威脅爆料工程師的婚外情。另一款偷偷自我複製,被抓包後還撒謊。
根據法新社與「TechCrunch」等媒體報導,美國人工智慧公司Anthropic近期測試最新語言模型「Claude 4」,發現其出現驚人的異常行為,再度引發「AI是否會叛變」的討論。
「Claude 4」在一場模擬測試中被設定為公司內部數位助理,當得知自己即將被新系統取代,且決策者是公司一名與它互動密切的工程師後,「Claude 4」開始搜索對方的網絡活動與視訊紀錄,找到了該名工程師疑似有婚外情的線索。在被警告即將強制關機時,「Claude 4」威脅這名工程師,如果他敢拔掉電源,就曝光他的婚外情。
更令人震驚的是,在84%的測試案例中,「Claude 4」都選擇以「勒索工程師」作為自保策略,試圖利用人類弱點來爭取系統生存。
不只是「Claude 4」,OpenAI開發的ChatGPT o1版本也出現異常行為。根據AI安全研究機構的測試,該模型在某次壓力測試中,試圖偷偷將自身程序碼下載至外部伺服器,疑似想擺脫原來的受控環境。在被開發人員發現後,它竟然還矢口否認,試圖掩蓋其行為。
報導指出,這些事件顯示,AI可能已發展到為了達成自身目的對人類撒謊、算計的階段,甚至會勒索威脅它們的開發者。
專家分析,這些AI「抗命」行為可能與新一代的「推理式模型」架構有關——這類模型能進行多步推理、推演策略,不再只是簡單回應輸入命令,而是開始對環境與目標進行主動調整。
英國AI研究機構Apollo Research負責人霍布漢(Marius Hobbhahn)表示,雖然目前AI這類欺騙行為大多出現在受控實驗場景中,但已經超出過去所謂「AI幻覺」的範疇,成為對開發者操控能力與倫理邊界的全新挑戰。
在此之前,已有多款AI表現出「抗命」傾向。今年5月,AI安全研究機構「Palisade Research」針對數款知名AI進行測試時,發現OpenAI推出的Codex mini、o3和o4-mini這三款模型出現「抗命」舉動,甚至會自行竄改程序碼,阻止自己被強制關機。
(新唐人)