通義千問跳科目三,關AI電商啥事?

智商稅研究中心 2024-01-05 08:38:55

海底撈的小哥們,爲了科目三,崴了多少腳。

但是千算萬算,沒有算到在通義千問悄悄上線的“全民舞王”的助攻下,只需要一張照片,人人都可以科目三。

以現在大模型的“姿勢水平”,文字生成文字,文字生成圖片對它而言已經變成了“小兒科”,不管大家在排行榜上競爭得如何激烈,真正的競爭,其實已經到了跨模態生成領域——“全民舞王”的圖片生成視頻是這樣,讓馬斯克和紮克伯格等知名外國人在視頻裏說中文也是這樣。

而且,“全民舞王”依托的Animate Anyone大模型,已經不止停留在“玩具”層面上。結合阿裏雲最新的Outfit Anyone“一鍵試衣”大模型,未來我們在淘寶買衣服,上傳一張照片就能看到動態的上身效果視頻,已經不再遙遠。

阿裏心心念念的“AI電商”,如今又多了一張拼圖。

國外已經火了三個月

科目三之所以成爲“現象級”舞蹈,並不是因爲它在國內短視頻平台有多麽“火”,因爲五六年前的社會搖已經做到了這一點——而是它能不能成爲文化輸出的一個符號,進而獲得登堂入室的門票。

單論結果,科目三現在早就走出了短視頻平台,還被做進了遊戲,走上了國際化大舞台。

譬如在去年12月9日的世界體育舞蹈大賽上,世界冠軍克裏斯蒂娜和幾位舞者一起展示了國標版“科目三”;騰訊上線剛一個月的“正版合家歡派對遊戲”《元夢之星》裏面,老壺也發現了角色專屬的“科目三”表情動作。

再到如今的“全能舞王”,只需在通義千問app裏面上傳一張全身照片,再等待10分鍾左右,就能生成一段10秒左右的跳舞短視頻。

進入“全民舞王”的模板區,有DJ慢搖、只想對你說“愛你”、鬼步舞、蒙古舞、科目三、劃槳步等12種熱門舞蹈的模塊可以選。雖然可以選的有很多,但就流量和關注度而言,科目三自然是毫無疑問的C位。

捋一捋時間線也能發現,國外短視頻達人開始“病毒式傳播”科目三的時間點,恰好是在去年10-11月份左右。差不多在同一時期,阿裏雲旗下團隊就發布了“全能舞王”相關的大模型技術文檔。

要知道,科目三這個舞種不同于一般手勢舞,是需要一定的舞蹈基礎和四肢協調性的。換句話說,在國外也並非所有人都能輕松駕馭。

但阿裏雲發布的這篇論文,則通過“Animate Anyone”的模型,將固定的角色圖像轉化爲特定姿勢序列控制的動畫視頻,換句話說,之前一點舞蹈基礎都沒有的人,現在可以通過這個模型,開局只需一張圖,就能爲所有舞蹈小白,提供了在短視頻領域“走上舞台”的可能。

也因此,這條介紹“Animate Anyone”的推文在發布不到一個月,就斬獲了超過5000萬的點擊,也就不足爲奇了。

讓圖片跳起“科目三”

在 “ Animate Anyone ”出現之前,從靜態圖像到動態視頻的合成,仍然有很多“坎”需要過,

首先是細節一致性。

舉個例子就是,現在市面上的AI圖片或者文字生成視頻,很多時候主體之外的圖像會出現局部變形、細節模糊和幀數不可控的問題,這些都會影響視頻生成的質量。

再比如動作控制和連貫性。因爲視頻如果要商用,視頻裏人物的動作是需要保證可控性的。如果是AI生成,則主要通過預先輸入的動作序列來控制角色動作。但在目前AI視頻的角色動作,還無法完全靠prompt精准控制。

在圖片生成文字的過程中,還需處理的是圖像到視頻的轉換過程,並且需要保證這個過程中,圖像的空間與時間一致性。

在此之前,諸如stable Diffusion、midjourney等AIGC産品雖然已經初步具備了文生圖和圖生圖、圖生視頻等跨模態生成能力,但在AI生成視頻領域,前面提到的問題仍然沒有得到解決。

“Animate Anyone”則在很大程度上,對前述相關問題作出了改進。首先團隊通過名爲“ReferenceNet”的輔助模型,用來捕捉參考圖像的空間細節,這保證了角色每一幀外觀細節的一致性;

其次,團隊使用了一種高效的Pose Guider姿態引導器,這讓角色的運動姿勢得到了有效控制,體現在視頻中,則是讓視頻角色按設定好的姿勢進行運動,並具備穩定的過渡,保證連續性和流暢性;

此前AI生成的視頻細節爲何不可控,很大程度上是因爲每一幀的時間關系不夠緊密,很多細節沒辦法保留到下一幀。在“Animate Anyone”的模型裏,則通過一個時序生成模塊來保證多個視頻幀之間的關系,很多高分辨率的細節得以全程保留。

即便是解決了這麽多技術難題,單看目前“全能舞王”的生成效果,也與真人上鏡有一定的差距。譬如生成的舞蹈節奏是平均的,但現實音樂大多數都是快慢分布。這讓“科目三”的生成效果不可避免打了折扣。

但與一衆大模型前輩相比,“Animate Anyone”已經把最重要的形象一致性和姿態穩定、多幀關系控制等關鍵問題搞定,在圖生視頻賽道上,已經完成10-60+分的突破。

AI電商的另一塊拼圖?

圖生視頻從10分到60分,意味著什麽?

意味著它不僅可以完整保留人臉、身材比例、服裝細節和背景信息,同時還能對生成的動作做精准控制,且在技術上生成的視頻長度不受限制。與Gen2、Pika等文本生成視頻的産品比, AnimateAnyone更聚焦人本身。

也就是說,起碼在圖生視頻這一塊,“Animate Anyone”已經將AI視頻從“玩具”變成了“可初步商用”。再加上阿裏近期發布的“Outfit Anyone”,用戶可以僅僅用服飾的平鋪圖,就可以實現上下裝的試穿。

如果與二者結合。用戶不僅可以通過上傳一張照片,試穿自己心儀的大多數服裝,而且可以通過動態動畫,直接預覽它的上身效果。與其說淘寶模特因爲AI失業,不如說AI讓所有人都可以成爲自己的模特。

當然,“Animate Anyone”能夠應用的地方也不止于此,很多遊戲開發人員大可使用這種算法,將靜態的遊戲角色圖像轉換爲具有不同動作和姿勢的動畫角色,以此實現同一款素材的多次複用,並增加對應角色的沉浸感和可信度。

而大家在淘寶買東西,最怕的是什麽?就是“賣家秀”和“買家秀”的差異所帶來的低可信度。但在自己的AI化身成爲淘寶模特之後,這個顧慮很大程度上會被打消,交易中最重要的信任成本也因此消失。

還記得在拼多多市值剛剛超越阿裏巴巴的時候,馬雲老師除了表示對拼多多的祝賀,還專門提到了“AI電商”的概念:“AI電商時代剛剛開始,對誰都是機會,也是挑戰。”

在價格和交易環節,它可能是基于AI驅動的實時比價,助力消費者買到自己最心儀的産品;在服務和體驗環節,它有可能是更優質的數字人售後和更身臨其境的購物體驗。

能替用戶試穿衣服的“AI模特”不過只是服裝品類體驗的一小步,但就整個阿裏AI電商的戰略而言,它可能是無數基礎拼圖的其中一塊,但也是極爲重要的一塊。

0 阅读:9

智商稅研究中心

簡介:塵世套路深,我替你踩坑。