蘋果的大模型分層策略，實在是妙

蘋果提出了一種按 Query 難度分發模型的策略，利用 3B 小模型、大模型和 GPT4o 來處理不同場景的任務。未來，蘋果可能會爲每個用戶提供一個 Personal SLM，通過定期微調個性化數據，提升用戶體驗。這種綜合了硬件、軟件和雲端的安全方案，爲蘋果在應用生態中帶來了巨大優勢，我們來具體聊聊。

蘋果講了一個按 Query 難度分發模型的模式：

3B 小模型：大多數場景，包括自動回複、改寫、語法檢查、Summary 都用端側的小模型跑。蘋果大模型：推測在幾十 B 左右，按目前的芯片能力可以跑通，估計不會是 7B 因爲 7B 的模型不會比 3B 有非常大的性能提升，跑在蘋果的 Private Computing Cloud 上面。GPT-4o：現在 Private Computing Cloud 上面做安全處理，然後脫敏數據再調用 GPT-4o，計算跑在 Azure 上面，除了可以做對話，還可以做郵件等場景複雜（不涉及個人信息）的寫作輔助。

在 Windows Copilot 等應用産品中，也多見大小模型混用的場景。

蘋果 PCC 的價值：

PCC 是蘋果的 Private 節點，這個主要是通過加密、IP 隱藏、無狀態化、收緊特權權限、環境加固實現的，涉及個人隱私的數據（如個人生活照片、Message 和郵件）通過加密進去了就不會再去外部環境了。

而 GPT-4o 不會部署到 PCC 節點裏面（OpenAI 不會把模型給 Apple），所以 GPT-4o 只能處理非 Personalized 處理後的數據和相關的 request。編排層是 PCC 和手機端聯動模式（如果純放在雲端加密傳輸，延遲增加，用戶體驗不好，所以放在終端可能性大）。

要保證和大模型交互端到端的隱私數據安全，盡最大可能保證被攻擊面的縮小，整體來看蘋果這套 PCC 的方案非常複雜複雜，涉及到芯片、軟件、雲端、終端整套的硬件、軟件的安全方案，還要考慮到最後的用戶體驗的優化，對于其他手機廠商來說複刻出來非常有難度。

3B 的小模型能做什麽場景：

我們首先說一個結論，小模型處理問題的難點不在于長度，而在于任務難度。所以在蘋果所列的場景裏，因爲其場景主要是 Summarize，3B 模型已經可以勝任。包括更複雜的郵件場景，類似 Outlook Copilot 這樣一次處理幾十封郵件，在現有的 3B+64K context window 也可以跑了。在未來，特別是 GPT-5 後，小模型可以直接在 B 卡上通過蒸餾的方式完成，用更強的大模型、更高質量的數據，來幫助訓練小模型，端側的能力也會進一步提高。

未來可以想象到什麽：每個人都有一個屬于自己的小模型。

我們未來很可能會見到每一個用戶都有一個 7B 規模的 Personal SLM，用戶可以將行爲與數據上傳到 iCloud 上，然後經過脫敏定期 Finetune 屬于自己的模型。

如果我們抽象來看這就像是一個推薦系統算法，只是推薦系統算法是一個很稀疏的模型，只有不到 10 層，大部分的用戶數據都存儲在第一層，通過激活不同的參數來實現個性化推薦。

那在小模型時代，可以只存儲你自己的參數，Predict Your Next Token，預測用戶的下一個行爲。

這就像自動駕駛場景，端側公司有著最閉環的駕駛數據（用戶數據），而且可以更安全的做到脫敏。

未來的 Personal Agent 流量入口在手機不在 Super APP。

這幾天我們又與十幾位 Top Research 一起討論了下 Persenoal Agent 的未來。

除了上面提到的 Personal SLM 外，大家都非常認同未來手機廠商做 Personal Agent 因爲數據以及權限上的巨大優勢，幾乎是碾壓現在 App 應用自己做的 Personal Agent 的。

這也讓蘋果在未來的應用生態上又拔高了一個身位。

Apple 與 OpenAI 合作了什麽？

目前來看 Apple 大概率沒有付錢給 OpenAI，在現有的調用模式來看，GPT-4o 應該也不在 Private Computing。

整個的合作形式，相當于 Apple 給 ChatGPT 開了一級入口，Apple 免費用 ChatGPT 的用量。

ChatGPT 得到了近似于預裝的機會，未來有升級到付費版的可能。

如果蘋果 11 億 DAU 裏面，有 2 億 DAU 是 ChatGPT 付費版用戶，那相當于 OpenAI 獲取 500 億流水，蘋果抽成 100 億，然後 Azure 拿到 200 億的 GPU 租金。

ChatGPT 200mnMAU 的話，DAU 估計在 50mn 左右，用了～3 萬 H 卡算力支持推理。如果 iOS 端全部用 GPT-4o，能做到 200mnDAU 的話，相當于人數 4 倍 * 單人算力 10 倍，要到百萬卡算力。如果未來用到 Personal SLM 的話，數字就更難估算了。

本文轉載自公衆號：共識粉碎機，經作者授權轉載，點擊查看原文。

共識粉碎機由對沖基金投資人、軟件從業者、AI phd、AI 産品經理一起運營，主要討論 AI 在各場景的落地情況。

娛樂新聞吧

程序員咋不禿頭