在AI視頻生成領域,Sora模型的發(fā)布曾引起業(yè)界廣泛關(guān)注,但其算法閉源限制了進一步的應用與發(fā)展。近期,一家與清華大學合作的初創(chuàng)公司生數(shù)科技推出了Vidu,這是一款在性能上與Sora相媲美的中國首個長時視頻大模型。Vidu采用U-ViT架構(gòu),結(jié)合Diffusion與Transformer技術(shù),能夠生成長達16秒的高清視頻,展現(xiàn)了視頻大模型在多鏡頭生成、模擬真實世界等方面的先進能力。本文將深入探討Vidu的技術(shù)特點、工程化能力,以及其在推動國產(chǎn)多模態(tài)大模型創(chuàng)新中的潛在影響。