10月27日報道,10月25日,美團開源了其首款視頻生成大模型——LongCat-Video。該模型面向多任務(wù)視頻生成場景,旨在以統(tǒng)一架構(gòu)支持文生視頻、圖生視頻以及視頻續(xù)寫三種能力。
不同于以往針對單一任務(wù)訓練的模型,LongCat-Video通過多任務(wù)聯(lián)合訓練機制,在同一框架內(nèi)即可處理零幀、單幀及多幀條件輸入。
此外,LongCat-Video重點突破了長視頻生成難題。相比常見模型在長時序生成中易出現(xiàn)的畫面漂移、色彩偏移等問題,該模型通過在視頻續(xù)寫任務(wù)上的原生預(yù)訓練,能夠持續(xù)生成數(shù)分鐘視頻內(nèi)容,同時保持較高的時間一致性與視覺穩(wěn)定性。

在推理效率方面,LongCat-Video借鑒了近年來的高效生成方法,采用“粗到細”兩階段生成策略:先生成480p、15fps的視頻,再細化至720p、30fps,并結(jié)合塊稀疏注意力機制和模型蒸餾,顯著降低了高分辨率生成的計算開銷,視頻生成的推理速度提升到原來的10.1倍,提速幅度超900%。
在后訓練階段,團隊引入多獎勵強化學習(RLHF)優(yōu)化方案,利用組相對策略優(yōu)化(GRPO)方法綜合多維度獎勵信號,進一步提升模型在多樣化任務(wù)下的表現(xiàn)。
美團已在多項公開與內(nèi)部測評中將LongCat-Video與其他視頻生成大模型進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。

目前,美團LongCat-Video已同步開放代碼、模型權(quán)重及關(guān)鍵模塊,模型技術(shù)報告也已經(jīng)發(fā)布。