今日arXiv最熱大模型論文：圖靈測試中，GPT-4仍不及人類！

你跟分清智能和人類嗎？

2015年，在由香港大學主辦，以創新創業爲主題的Dream Catchers論壇上，騰訊創始人馬化騰透露，在創業早期爲留住用戶，他曾親自下場假扮女孩子陪用戶聊天。

而今天，隨著以ChatGPT爲代表的人工智能技術井噴，各種定制化聊天場景、角色層出不窮。我們不光要“防備”對面卿卿我我的“小姐姐”實際是個八尺大漢，甚至還要做好心理准備，因爲對面和自己難舍難分的“另一半”可能都不是個“人類”。

論文標題 People cannot distinguish GPT-4 from a human in a Turing test

論文鏈接 https://arxiv.org/pdf/2405.08007.pdf

3.5研究測試：https://hujiaoai.cn

4研究測試：https://askmanyai.cn

Claude-3研究測試：https://hiclaude3.com

圖靈測試

圖靈測試最初由英國數學家和邏輯學家艾倫·圖靈在1950年提出，旨在回答“機器能思考嗎？”這一問題。

圖靈設計了一種實驗，即所謂的“模仿遊戲”，其中一名人類訊問者以文本方式與另一名人類和一台機器進行交流，而訊問者不知道他是在與人還是機器交談。如果訊問者無法可靠地區分出誰是機器，那麽機器就被認爲通過了圖靈測試。圖靈的這一提議不僅挑戰了對智能的傳統看法，也引發了關于機器智能的廣泛討論和研究。

下圖是人類訊問者（綠色）和被訊問者（灰色）之間的對話精選示例。這四個對話中有一個被訊問者是人類，其余都是AI（試試能不能分辨出哪個是人類，答案在文末）

盡管圖靈測試在理論上具有劃時代的意義，但在實際應用中卻面臨諸多挑戰。早期的實驗如ELIZA程序表明，即使是簡單的模式匹配技術也能在一定程度上“欺騙”人類，使人們誤以爲自己在與另一個人交談。然而，這種類型的交互並沒有真正展示出深層的語言理解或推理能力。

隨著時間的推移，更複雜的人工智能系統如GPT-3.5和GPT-4被開發出來，它們在語言生成和理解方面的能力大大超過了早期的系統。最近的研究顯示，GPT-4在圖靈測試中的表現已經非常接近人類，這標志著人工智能在模仿人類交流方面取得了顯著進步。

實驗設置測試系統

在本文的圖靈測試實驗中，研究人員比較了三種不同的人工智能系統：ELIZA、GPT-3.5和GPT-4。ELIZA是一個基于簡單規則的聊天機器人，而GPT-3.5和GPT-4則是基于大語言模型（LLM）的先進AI系統。這些系統通過模擬人類的語言使用模式，試圖在與人類訊問者的交流中不被識別出來。

實驗方法

實驗采用隨機控制的雙盲設計，共計500名參與者通過一個消息應用與一個匿名的對話者進行五分鍾的文本交流。每位參與者在對話結束時需要判斷對方是人還是AI，並給出自己的判斷理由和信心評分。

其中，雙邊參與者（訊問者和被訊問者）通過一個類似常規短信應用的界面進行交流。訊問者首先發送消息，雙方交替發送，每條消息限制在一定的字符數內。爲了模擬真實的交流延遲，AI的回複會根據消息的長度人爲地延遲發送。這種設置旨在模擬正常的人際交流節奏，增加實驗的現實感。

實驗結果

實驗結果顯示，GPT-4對圖靈測試的通過率爲54%，超過了GPT-3.5的50%和ELIZA的22%，但仍低于真人的67%。這些數據表明，在模擬的圖靈測試中，盡管GPT-4的表現接近人類，但仍有辨識上的差距。

與直覺相反的是，實驗表明GPT-4與GPT-3.5在辨識度上並沒有顯著差異。此外，那些聲稱自己對LLM的工作方式更了解的參與者，在識別LLM方面並沒有表現出更明顯的優勢。

參與者判斷依據

爲深入了解影響訊問者判斷被詢問者是否爲AI的策略和因素，本文對訊問者所使用的策略及其做出判斷的原因進行了分類。調查發現，36%的訊問者與被訊問者進行閑聊，詢問個人細節或他們的日常活動。排名第二的策略是社交和情感（25%），例如詢問證人的意見、經曆並分析判斷它們的幽默感；第三是知識和推理（13%），包括數學、邏輯和常識問題。

爲評估每種策略的有效性，本文統計了各個策略的平均准確率。當訊問者詢問人類經驗（75%）、邏輯和數學（78%），或指控被訊問者是人工智能（80%）時，更有可能得到相對准確的判斷，盡管後者可能是建立在訊問者已經有了一定判斷的基礎上。

與傳統智能概念（如知識和推理）有所不同，訊問者最常見的決策理由與語言風格（43%，如拼寫、語法、大小寫是否正確，語氣是否恰當）和社會情感因素（24%，如語言風格、幽默感或個性是否更貼近人類）有關；而知識推理僅占到10%（對方知道太多或太少）。

分析和討論GPT-4是否通過了圖靈測試？

本文探討了如何判斷一個系統是否通過了圖靈測試。雖然圖靈在其1950年的論文中預測，到世紀末，機器將能夠模仿人類行爲到足以讓訊問者在五分鍾的詢問後，正確識別AI的幾率不超過70%，但這個30%的通過率標准似乎有些武斷。本文認爲50%的基線更合理，因爲它表明訊問者在識別AI方面並不比隨機猜測做得更好。

通過與ELIZA基線的比較，本文認爲GPT-4通過了這個版本的圖靈測試。GPT-4被判斷爲人類的平均置信度爲73%，也表明了參與者並非隨機猜測。

圖靈測試度量的是什麽

圖靈最初設想的模仿遊戲是作爲智能的一種衡量。然而，對于圖靈測試是否能夠真正測量智能，學界存在爭議。一些人認爲圖靈測試太簡單了，因爲人類傾向于擬人化，可能會被不智能的系統所欺騙。

本文也指出，盡管圖靈測試可能不提供是否智能的必要或充分證據，但它提供的證據可以與其他評估方法相輔相成。圖靈測試的互動性、對抗性和廣泛的範圍是其優勢。

僞裝的機器人

實驗結果表明，參與者在五分鍾的對話後無法比隨機猜測更好地識別GPT-4，這表明當前的AI系統有能力欺騙人們相信它們是人類。這在更自然的情境中可能更具有潛在的欺騙性，因爲在實驗之外，人們可能並不會警惕對方是AI或專注于檢測它。

緩解欺騙的方法

本文探討了可能有助于緩解欺騙的方法。他們發現，訊問者在提邏輯推理、當前事件和人類體驗相關問題時更有可能做出准確的判斷，盡管這只是來自于相關性統計的結果。

本文還研究了訊問者判斷的准確度與人口統計特征之間的相關性，以了解可能導致正確判斷的因素。然而，作者發現對LLM的了解或與聊天機器人的互動頻率，並沒有能顯著提高准確率。相反，年齡與准確性呈現負相關性，這可能表明年輕人對新技術的接觸更多，而更不容易被欺騙。

結論與展望

本文總結了GPT-4在圖靈測試中的表現，分析了圖靈測試的意義，以及當前AI系統可能對社會産生的影響。盡管圖靈測試有其局限性，但這項研究提供了對當前AI系統欺騙能力的實際評估。

同時，作者建議未來的工作可以通過訓練方式來直接測試訊問者的知識對准確度的影響，並持續追蹤人類與AI技術的關系，因爲哪怕就在我們碼字的時候，AI仍然在不斷進步叠代中。

結語

大家還記得前面的判斷題吧，

現在公布答案：B，只有B的被訊問者是人類。

再看看這組圖，不知道大家有選對麽~

娛樂新聞吧

今日arXiv最熱大模型論文：圖靈測試中，GPT-4仍不及人類！

科技有夕小瑤