當前,AI技術和產(chǎn)品的快速迭代升級,特別是AI+視頻生成,正成為當前AI產(chǎn)業(yè)發(fā)展的關鍵節(jié)點,更受到業(yè)界關注。
近日信達證券在發(fā)布的研究報告中認為,視頻雜糅了文本、語音、圖像等多維度內(nèi)容,其訓練的難點也往往在于視頻數(shù)據(jù)對數(shù)量和質(zhì)量的不足、算法架構需要優(yōu)化、物理規(guī)律性較差等等,但隨著AI+視頻的技術和產(chǎn)品升級迭代,眾多行業(yè)有望受益,諸如電影、廣告、視頻剪輯、視頻流媒體平臺、UGC創(chuàng)作平臺、短視頻綜合平臺等,而目前正處在AI+視頻發(fā)展的關鍵性時刻。
信達證券還具體提到,市場主流的AI視頻生成技術迭代路徑經(jīng)歷了早期的GAN+VAE、Transformer 、 DiffusionModel以及Sora采用的DiT架構(Transformer+Diffusion),技術迭代升級帶來視頻處理質(zhì)量上的飛躍性提升。其中,Transformer在并處處理、長時間序列數(shù)據(jù)處理、多注意力處理上有著強大的優(yōu)勢,通過預訓練和微調(diào)可提高模型性能;Sora采用的DiT架構有效進行結合,利用Transformer處理潛在空間中的圖像數(shù)據(jù)塊,模擬數(shù)據(jù)的擴散過程以生成時長更長、質(zhì)量更高的圖像和視頻。

信達證券還認為,國內(nèi)AI+視頻產(chǎn)品單條價格低于海外產(chǎn)品,其中RunwayGen-3 Alpha和快手可靈為目前AI視頻生成的全球第一梯隊,在視頻分辨率、生成速度、物體符合物理規(guī)律、提示詞理解、視頻時長等諸多維度上表現(xiàn)均較為優(yōu)秀。
目前,AI+視頻大多數(shù)用于創(chuàng)意內(nèi)容生成,直接用于ToB商業(yè)化較少。追溯原因,首先生成視頻的人物一致性、所需時長、畫面質(zhì)量尚且不滿足立即商業(yè)化水準;其次目前主流AI視頻工具還處在視頻生成競爭的階段,且大多數(shù)為單一功能產(chǎn)品。在視頻生成之后,諸如準確的提示詞生成、修改視頻片段、添加字幕、腳本生成、轉場銜接、背景音樂添加等眾多細節(jié)功能暫未集成,因此現(xiàn)今階段還需要多種不同的視頻創(chuàng)作工具串聯(lián)使用才能達到直接輸出可商業(yè)化視頻的效果,環(huán)節(jié)繁瑣、多工具之間的格式也可能存在不兼容的可能性,給用戶帶來使用上的不便。
據(jù)此信達證券認為,后續(xù)需要持續(xù)關注能夠一站式提供視頻生成+編輯等功能的企業(yè),了解用戶痛點,打磨產(chǎn)品細節(jié),才能真正將技術用于生產(chǎn)工作、娛樂等眾多環(huán)節(jié),帶來商業(yè)化變現(xiàn)的潛在空間;一站式AI視頻生成+剪輯+UGC創(chuàng)作,有望解決市場一直在質(zhì)疑的“AI+視頻缺少實質(zhì)作用問題”。