中文字幕一本到无线,日韩欧美中文字幕精品,日本不无在线一区二区三区,亚洲аv天堂无码

從“無到有”走向“有到優” 國產視頻生成大模型漸入佳境

2024-08-09 06:07 來源:經濟參考報
查看余下全文
(責任編輯:歐云海)
記者專欄
當前位置首頁 > 科技新聞 > 正文

從“無到有”走向“有到優” 國產視頻生成大模型漸入佳境

2024-08-09 06:07 來源:經濟參考報

   文生視頻大模型Sora誕生半年后,它的中國“挑戰者”列隊登場,爭奪下一張AI殺手級應用的“船票”。過去一個月,4款國產視頻生成模型陸續上線、走向大眾。

   與Sora僅釋放小樣、未開放使用不同,中國的視頻生成大模型發布即上線,便于使用者“拿來就用”。眼下,在應用端,一批內容創作者已初嘗“會打字就會生視頻”“生視頻不求人”的樂趣;在技術側,還有一批孵化中的視頻生成模型正在路上。盡管國產工具還不具備一次性“分鐘級”的生成能力、無法實現比肩實拍的“無縫”“絲滑”,但視頻生成已解決了“有”的問題,逐步向“優”進化。

   想象力“動”起來

   最近,文生視頻賽道擠滿了強有力的中國選手。7月下旬,我國人工智能獨角獸智譜AI推出視頻生成模型“清影”、愛詩科技發布視頻生成產品PixVerse V2、生數科技上線視頻生成模型Vidu的同時,快手6月發布的“可靈AI”已積累百萬用戶。

   “Sora還停留在實驗室的小樣階段,國產視頻生成工具已密集上線,并向C端開放使用,令人振奮。”北京大學深圳研究生院信息工程學院助理教授、博導袁粒說。

   Sora的中國“挑戰者”有何本領?

   清晨,大熊貓坐在湖邊彈吉他、兔子在餐廳里看報紙、袋鼠和金絲猴在一旁吃早餐,然后去動物城的運動場上集合,觀看一年一度的自行車大賽……這部由可靈AI生成的動畫微電影,盡管時長只有62秒,卻表現出了對現實世界物理規律(反射定律、重力定律等)的理解與呈現能力,以及一定的想象力與故事的實現能力。

   進入“奧運時間”,不少刷屏朋友圈的、可銜接不同場景和運鏡的短片,也同樣出自國產視頻生成大模型之手。

   “視頻生成,簡言之是通過生成式AI技術,將文本、圖片等多模態輸入,轉化為視頻信號。”快手視覺生成和互動中心負責人萬鵬飛說,“與過去我們常見的相機拍攝、圖形渲染獲得視頻的方式不同,視頻生成的本質是從目標分布中采樣計算得到像素。這種方式能以更低的成本,達到更高的內容自由度。”

   進入Vidu的視頻生成頁面,記者體驗了“一鍵生成”的自由。上傳一張照片設置為“起始幀”或作為“參考的人物角色”,在對話框里輸入想要生成場景的文字描繪,點擊“生成”鍵,一條栩栩如生的短視頻就自動生成了。從進入頁面到下載完畢,不足1分鐘。

   一名技術負責人告訴記者一個“生成秘籍”:“試試‘鏡頭語言+建立場景+細節描述’的提示詞公式,不出5次就能獲得想要的視頻內容。”比如,在對話框中輸入“寫實風格,近距離,老虎伏在地上,身體微微起伏”的文本。1分鐘后,一段視頻出現在屏幕上:微風拂過的草地上,老虎的身體隨呼吸起伏,它的毛發、胡須隨風而動,甚至能“以假亂真”。

   視頻生成技術的快速迭代,建立在對生成內容效果的精準評價之上。如何區分視頻生成模型性能的優劣?“一看可控性,即生成內容與輸入文本的對應程度;二看穩定性、一致性;三看合理性,即生成內容是否合乎物理規律;四看風格、審美、創意;最后一點,看生成的實時性。”香港大學計算機系教授、歐洲科學院外籍院士徐東這樣歸納。

   成本降下去 速度提上來

   國外網友已經用行動表達了對中國自研視頻生成模型的贊許,不少Twitter賬號發布的文字已經配上了可靈AI、清影AI生成的視頻。

   “坦白說,現在技術還沒有到成熟的階段,視頻生成模型的技術天花板高,可以提升的空間大。但是,我們看到了影視、動畫、廣告、游戲行業的痛點:制作周期長、制作成本高,而這是技術可以努力解決的。”生數科技聯合創始人、首席執行官唐家渝告訴記者。

   一項技術想要成為“剛需”,須在增強可用性、可控性的前提下降低成本。作為直接拉低創作與制作門檻的技術,視頻生成模型的出現,讓影視動畫從業者看到了“小團隊制作動畫”“小成本內容創作”的春天。

   “創作AIGC(生成式人工智能)動畫短片是一次有趣的經歷。我們先是有了一個創意,把它畫成故事版,然后用AI生成圖像,再用Vidu把圖像生成了視頻。”北京電影節AIGC短片單元最佳影片得主、Ainimate Lab AI負責人陳劉芳告訴記者。

   視頻生成,將讓科幻、奇幻、動畫不再是大廠才敢玩的“燒錢游戲”。陳劉芳說,用上Vidu之后,制作周期與制作成本的降低堪稱顯著。

   “拿動畫短片《一路向南》來說,創作團隊僅由三人構成:一名導演、一名故事版藝術家和一名AIGC技術應用專家。而傳統流程需要20人,包含導演、故事版、美術、建模、材質、燈光、渲染等不同‘工種’,周期在一個月左右。這樣算下來,成本降低了90%以上。”陳劉芳說,當然,目前視頻生成技術的精致程度還不夠,約為傳統動畫性能的三分之一。

   然而,更低的成本、更高的效率,已讓傳統的影視、動畫、游戲從業者感受到技術顛覆前夜的凜冽。“‘人人成為設計師’‘人人成為導演’的時代將會到來,就像當年進入‘人人擁有麥克風’的時代。”智譜AI首席執行官張鵬說。

   “這對于動畫行業而言,是挑戰,也是機遇。比如一名武林高手,哪怕用最簡單的武器、最普通的招式也會威力十足,核心在于他的內功強大。對于動畫行業而言,‘招式’好比新技術,‘內功’則是創意、是視聽表達、是對審美的品控判斷。”中國傳媒大學動畫與數字藝術學院教授、動畫系主任艾勝英說。

   技術固然帶來了性價比更高的工具,但也凸顯了創意的關鍵作用。“當影視、動畫、游戲的制作環節投入占比大幅降低后,比拼的就更加是創意。”陳劉芳說。

   “煉”一個殺手級應用

   大語言模型敲開生成式AI的大門后,視頻作為圖像模態的再擴展,將AIGC的技術推向高潮,也讓AIGC的應用離大眾越來越近。

   當前,全球視頻生成的技術路線主要有兩種:一種是擴散模型,這其中又分為兩類,一類是基于卷積神經網絡的擴散模型,如Meta的Emu Video、騰訊等推出的VideoCrafter;另一類是基于Transformer架構的擴散模型,如生數科技的Vidu、OpenAI的Sora、快手的可靈AI等。第二種是自回歸路線,如谷歌的VideoPoet、Phenaki等。

   “國內視頻生成的主流選擇是基于Transformer架構的擴散模型,這一架構能使模型在處理語言、計算機視覺、圖像生成等領域表現出擴展能力,遵從‘規模定律’。”徐東說。

   這一選擇也意味著,更大的算力、更高的質量與更大規模的數據,以及復雜的算法。

   “首當其沖的是算法。視頻在圖像的基礎上增加了時間維度,算法的復雜程度會指數級增長。”徐東說,數據、算力一定的條件下,模型性能關鍵在于算法的能力,取決于算法人才水平的高低。

   其次,最為缺乏的是數據。“視頻生成強依賴于數據。與文本數據相比,視頻數據的積累難度更大。數據的質量提升,不僅包括視頻的解析度、風格、分鏡、組合、連續性等,還包括數據的清洗、篩選、處理。”張鵬說。

   視頻生成模型更是“吞卡巨獸”。從Sora的實踐來看,持續提高模型的數據量、參數規模,迄今依然是AIGC進化的核心。中信證券測算,一個60幀的視頻(約6至8秒)大約需要6萬個Patches(補片),如果去噪步數是20的話,相當于生成120萬個Tokens(詞元)。考慮到擴散模型在實際使用中需多次生成,實際計算量會遠超120萬個Tokens(詞元)。

   “大模型參數正以每年十倍的速度增長。不論對科技企業還是研究機構而言,如何持續訓練高性能的模型,依然是巨大挑戰。但與此同時,C端的‘殺手級應用’讓人充滿期待。從創意的生成,到圖片、音樂、視頻的制作,AI都將有大施拳腳之地。未來,視頻制作也許就像今天做PPT一樣簡單便捷。”北京智源人工智能研究院院長王仲遠說。(記者 張漫子)

(責任編輯:歐云海)

友情鏈接: