10月27日電,美團LongCat團隊正式發(fā)布LongCat-Video視頻生成模型。作為基于Diffusion Transformer(DiT)架構的多功能統一視頻生成基座,LongCat-Video創(chuàng)新通過“條件幀數量”實現任務區(qū)分——文生視頻無需條件幀、圖生視頻輸入1幀參考圖、視頻續(xù)寫依托多幀前序內容,原生支持三大核心任務且無需額外模型適配,形成“文生/圖生/視頻續(xù)寫”完整任務閉環(huán)。文生視頻方面,可生成720p、30fps高清視頻,能精準解析文本中物體、人物、場景、風格等細節(jié)指令,語義理解與視覺呈現能力達開源SOTA級別。