ChatGPT大火背後——切忌當韭菜

面對Chat GPT的原理，我用一個小栗子帶你深入淺出不用任何數字和公式；面對ChatGPT的各種吹噓，我帶你看看它的Bug；面對ChatGPT的過度炒作，我希望你理智而冷靜，我來告訴你機會在哪裏；面對各種知識星球和搞錢群我希望你不要當韭菜。最後文章中所有的圖片都是我用StableDiffusion自己生成的，喜歡這類圖片的可以隨時聯系我 2023年，被AI業內人士稱爲“AI元年”，隨著NLP領域的ChatGPT和CV領域的Stable Diffusion大火，人工智能徹底從決策性AI邁入到生成式AI時代，過去針對一個問題，收集數據——標記數據——訓練模型——模型應用的模式，也被如今百億級大數據集上訓練出的通用性千億參數量的大模型所取代。具體而言，傳統的NLP有四大任務（序列標注，分類任務，句子關系判斷，生成式任務）過去針對每類任務我們會訓練一個模型【基于Bert在最末端加入線性層進行Fine-Tuning】,現如今，通過Prompt引導ChatGPT能夠一次性解決這四類問題。未來可以預見，CV領域也會延續此趨勢，只不過可能是一個大模型解決一個特定問題，比如：最近Meta發布「分割一切」AI 模型——SAM一統了語義分割領域，相信後期對于目標檢測、實例分割等場景也會出現類似的大模型一統天下。 ChatGPT問世後，很多粉絲都留言或私信問我，ChatGPT的背後技術以及對我們生活和工作的影響，說實話一直以來，我對ChatGPT都不是很感冒，ChatGPT也不是什麽新的技術革命，只不過是50年前的模型在當今時代因爲大數據量的積累和大算力芯片的問世，取得了跨越式的出乎人類預料的效果而已。 ChatGPT國外很涼，國內巨熱 ChatGPT起源于美國，有意思的是現在美國除了技術人員很少談論ChatGPT了，而在中國，它的話題一直高溫不退。就跟幾年前的區塊鏈，去年的元宇宙一樣，類似技術上的過度炒作似乎成爲了近幾年我們的習慣，在這個過程中，很多小的互聯網公司靠著噱頭獲得大量融資，這也是互聯網泡沫出現的一個主要原因，也有很多渾水摸魚的個人從中賺錢，比如各種公衆號所謂的技術大佬組織的各種Chat GPT知識星球和搞錢群，瘋狂收割韭菜，這就讓我想起了之前看過的一個故事： 1503年，哥倫布的兒子記下來的這麽一件事兒，哥倫布往西航行，去往新大陸，結果航行到中途，到了牙買加這個地方，船上就沒吃的了。于是，哥倫布和船員只能寄希望于當地人來提供飲食。但是，提供了幾天以後，船員就跟當地人發生了矛盾——有些船員偷了當地人的東西，所以當地人就斷了飲食的供應。爲了擺脫這個困境，哥倫布想到了一個妙招。哥倫布當時隨身帶著一本萬年曆，在日曆上標著說某年月日會出現日食、月食等等所有這些信息。哥倫布當時就把當地的部落首領找來，說你們不給我提供食物，已經得罪了上帝，上帝會發怒，月亮就會變紅，然後上帝就會把月亮收走。當然，我們現在基本上都知道，在月全食發生的時候，也就是地球還沒有完全擋住月亮的時候，月亮確實是紅的，就是我們所謂的“血月”。但是，當時的牙買加人並不知道。結果，到了晚上，牙買加人就發現，月亮果然變紅了，然後慢慢地就一點點消失了。當地人就陷入了恐慌，大家紛紛說，上帝要懲罰他們了。這個部落首領慌忙去求哥倫布，承諾答應哥倫布的所有條件。哥倫布就說，好，我去帳篷裏向上帝禱告，讓他不懲罰你們，但是我需要一點時間，然後哥倫布就走進了帳篷。其實，進了帳篷之後，哥倫布就是拿著一個沙漏，在看那個計時。今天咱們有天文學知識，肯定知道月全食的時間，也就會維持大概48分鍾，到時候月亮就會重新出現。但是，這些牙買加人不知道。他們看到的就是，哥倫布從帳篷裏出來，月亮也就出來了。然後哥倫布說，這是上帝已經聽了我的勸解，答應寬恕你們，但是你們必須要給我們好好地提供食物。所以，當地人千恩萬謝，給他們不斷提供食物。這個故事說明什麽呢？月全食這件事，它的發生背後自有其原因，但是在人們不知道這個原因的時候，往往只能把這個自然現象歸結爲一個神的作用。而這個神，本身又是人創造出來的。也就是說，人自己創造一個神以後，然後趴在神的腳下，成爲了他的奴仆。希望閱讀完本文的各位，不要再當牙買加部落的土著居民。 ChatGPT的背後技術 ChatGPT的背後技術是70年代就提出的語言模型，是一種概率模型，簡單的說就是根據一句話前面幾個字來預測後面的字【出現概率最高的字】，我自己總結的ChatGPT就是四步： Step1，大數據集上訓練的大參數量的預處理語言模型【GPT-3】這個過程就是語言模型，在一個大語料庫中根據前面的詞來預測後面的詞，比如：山東經濟最發達的城市是_____，語言模型的輸出可能是70%的可能是青島，20%的可能是濟南，9%的可能是煙台，0.1%的可能是威海，這個過程給出的答案是隨機的，大概率是青島而已，所以需要人工標注來給出正確答案，這就迎來的第二個階段。 Step2，人工標注正確答案Fine tuningGPT-3參數在這個階段OpenAI成立了專門部門標注了幾萬條問題答案對用來進一步訓練模型，以學習自然語言的規則和模式。這些標簽告訴ChatGPT文本的正確性和上下文，從而使ChatGPT能夠生成更加准確和連貫的文本。在這個過程中，人工標注山東經濟最發達的城市是__青島___，這個過程的模型就知道了這個問題標准答案，但是對于沒有標注答案的問題，模型是無法給出正確答案的，OpenAI就想到了將強化學習加入到模型訓練中。 Step3，將強化學習加入到模型訓練中強化學習簡單來說就是給定一個獎勵機制，模型基于現在的環境，以及決策集，從決策集中選擇出得分最高的決策，AlphaGo的底層就是強化學習。在這個階段OpenAI針對部分用戶開放了API試用，用戶可以跟算法對話，但是需要對同一問題，算法給出的不同答案進行排序，比如上面的問題青島>濟南>煙台=威海，模型經過這個過程之後，針對某個問題，算法就傾向于給出符合人類意願的答案，獎勵機制使ChatGPT能夠生成更加自然、流暢和有邏輯的文本。具體來說，當ChatGPT生成合理、有條理和通順的文本時，回報模型會給出正面的獎勵值。而當ChatGPT生成不合理、有誤導性或無意義的文本時，回報模型會給出負面的獎勵值。 Step4，訓練出符合人類意願的得分模型【Teacher Model】這個階段就是將強化學習中的獎勵機制自動化，通過算法訓練得到獎勵模型，ChatGPT通過該模型獲得獎勵，並根據獎勵值對模型進行調整。這也就是基于人類反饋的強化學習【RLHF】的由來。看完原來是不是有一種：明白了很多道理仍然過不好這一生，明白了ChatGPT的原理仍然無法訓練他的感覺。 ChatGPT的bug ChatGPT的牛逼的案例，全網已經汗牛充棟爛大街了，我就帶大家看一下ChatGPT不成功的案例大規模語言模型自身的局限：身爲大規模語言模型，ChatGPT 難免有著 LLM 的通用局限，具體表現在以下幾個方面： 1. 可信性無法保證：ChatGPT 的回複可能是在一本正經地胡說八道，語句通暢貌似合理，但其實完全大相徑庭，目前模型還不能提供合理的證據進行可信性的驗證； 2. 時效性差：ChatGPT 無法實時地融入新知識，其知識範圍局限于基礎大規模語言模型使用的預訓練數據時間之前，可回答的知識範圍有明顯的邊界； 3. 成本高昂：ChatGPT 基礎大模型訓練成本高、部署困難、每次調用花費不菲、還可能有延遲問題，對工程能力有很高的要求； 4. 在特定的專業領域上表現欠佳：大規模語言模型的訓練數據是通用數據，沒有領域專業數據，比如針對特定領域的專業術語翻譯做的並不好； 5. 語言模型每次的生成結果是 beam search 或者采樣的産物，每次都會有細微的不同。同樣地，ChatGPT 對輸入敏感，對于某個指令可能回答不正確，但稍微替換幾個詞表達同樣的意思重新提問，又可以回答正確，目前還不夠穩定。 ChatGPT能帶來什麽新的機會？很多人問說，ChatGPT有什麽新機會？坦率來講，你沒機會，因爲太耗資源了，你耗不起。那麽什麽人能夠受益？那就是賣資源的這些人。我可以打個比方，就是說在這個加州淘金熱的時候，很多人蜂擁而至，去淘金，單我們到今天爲止還不知道哪一個淘金者真的掙得著錢，沒一個人把名字留下來。但是最後誰掙著錢了？是賣水的人和賣牛仔褲的人。ChatGPT也是一樣的道理。大家跟著一起去淘金，其實你是掙不著錢的，但是在過程中，你還不斷地要買水喝，買牛仔褲穿，最後就是這兩撥人掙到錢了。李維斯Levi's，就是那時候産生的這麽一個公司，它就是做牛仔褲的。那麽最後你可能是給幾家大的做雲計算的公司在交錢，這可能是一個結果。

娛樂新聞吧

我是智能取經人