“自動駕駛和圖生視頻從技術復用角度,互相搭不上”,“在市面上開源模型的基礎上,收集一些數據,做視頻模型門檻不高”,針對圖森未來12月17日發布圖生視頻大模型Ruyi一事,自動駕駛和視頻模型公司技術人員分別向北京商報記者表示。8月官宣進入生成式AI應用領域時,“自動駕駛第一股”圖森未來的戰略轉型就曾引發爭議,當下模型上線,不少業內人士依然有疑惑。對此,記者和圖森未來工程高級副總裁李海泉聊了聊這款大模型背后的故事。
4個月
12月17日,圖森未來正式發布圖生視頻大模型Ruyi,并將Ruyi-Mini-7B版本正式開源,用戶可以從huggingface上下載使用。這是圖森未來正式發布的第一款“圖生視頻”模型,也是圖森未來進入生成式AI應用賽道,推出的第一款產品。
“我們是從8月開始做的,12月初訓練進入尾聲,后期跟其他模型做了比較,在內部做了很多測試,才選擇現在發布出來。”談到12月上線有無特別考量時,李海泉告訴北京商報記者。
外界獲悉圖森未來要跨界也是在8月,準確來說是8月15日。當天,圖森未來宣布,與上海三體動漫有限公司達成合作,共同開發《三體》系列的動畫長篇電影和視頻游戲。圖森未來借此宣布,正式進入生成式AI應用領域,甚至具體到正式進軍動畫與視頻游戲市場。
從8月到12月,對于圖森未來而言,4個月是做一款視頻大模型最短的時間嗎?
“對。這可能是對我們來說最短的時間了。”但李海泉也承認,因為牽涉到可以調動的資源,如何高效地調動資源,4個月并不是行業最短時間。
回到Ruyi,“它對有一定技術背景的個人小團體和公司會很友好,我們并沒有上線一個網址或App。如果用戶沒有高性能的顯卡,玩Ruyi是很難的”。李海泉介紹了Ruyi面向的用戶群,他向北京商報記者“安利”:“我們不需要寫提示詞,把圖片拽上去就可以。”
搭不上?能復用?
從流程上看,Ruyi和市面上其他的圖生視頻模型的差異不大。
按照圖森未來的官方說法,Ruyi需要用戶提供一張圖片作為輸入,并可以選擇輸出時長、輸出分辨率、運動幅度和鏡頭移動方向等選項,Ruyi會根據輸入的圖像輸出一個不超過5秒的視頻。
圖森未來相關人士在和開發者溝通時表示,“我們內部對比過,我們的主要特點一個是做動漫更好,一個是我們是24fps(每秒播放24幀畫面)的,動作更絲滑”。
不過圖森未來也承認,Ruyi目前仍然存在手部畸形、多人時面部細節崩壞、不可控轉場等問題,公司正在改進這些缺點,在日后的更新中對它們進行修復。
另一個業內人士的關注點是自動駕駛和視頻模型有什么關聯?“從技術復用角度,互相搭不上。”一位自動駕駛從業者向北京商報記者表示。
一家視頻模型公司CTO告訴北京商報記者,“準確說,視頻模型和自動駕駛在技術上,或者經驗復用上沒啥關系,圖森未來之所以能做,可能是基于市面上開源模型,收集了一些數據,門檻不高”。
對此,李海泉持不同意見。站在自動駕駛的角度,他認為,“自動駕駛領域的算法、規劃控制這些肯定是沒法用在視頻模型上的,但是還是有很多東西可以復用的,比如模型設計、數據處理、基礎工具類”。
關于基于開源模型,李海泉直言,“我們在設計上確實參考了很多開源方案的實現,不只圖森未來會這樣。我們一直關注大模型的發展,沒必要關起門來”。
圖什么
根據GIR調研,2023年全球文生視頻大模型收入大約720萬美元,預計2030年達到22.19億美元,2024—2030年期間,CAGR(年復合增長率)有望達到56.6%。
數據很誘人,現實中視頻生成的技術成熟度卻還沒有那么高,實現規模性商業化還需要時間。
在圖森未來看來,最佳應用場景是孵化生成式AI工具的原動力。公司致力于利用大模型降低動漫和游戲內容的開發周期和開發成本。Ruyi大模型,已經可以實現輸入關鍵幀后,生成之后5秒的內容,或輸入兩個關鍵幀,由模型生成中間的過渡內容,降低開發周期。這和圖森未來想要入局的動畫與視頻游戲市場強相關。
不過,文淵智庫創始人王超向北京商報記者表示,“我覺得圖森未來是在賺吆喝,早期那些AI公司,在大模型這波是跟不上的”。
在和北京商報記者交流時,瑞達恒研究院經理王清霖認為,“從經營現狀來看,圖森未來的主營業務尚未展現出顯著優勢,且企業內部存在混亂。因此,圖森未來亟須探索新業務領域,以開辟新的增長點。鑒于視圖生成技術領域尚未形成清晰的市場格局,這為圖森未來提供了嘗試和突破的機會。不過,該領域的盈利能力尚待進一步驗證和觀察”。
一個插曲是:持續已久的圖森未來內訌還不時被曝出新動態。近日有投資人士向媒體透露,即將于12月20日召開的圖森未來股東大會正進行股東投票,屆時將決定圖森未來下一階段的控制權。
李海泉12月17日向北京商報記者透露,“12月19日我們會把AIGC(人工智能生成內容)業務、其他業務和自動駕駛業務如何整合等,給大家講清楚”。
(責任編輯:朱赫)