2025 年 2 月 18 日,昆侖萬維宣布開源國內(nèi)首個(gè)面向 AI 短劇創(chuàng)作的視頻生成模型 SkyReels-V1,以下是關(guān)于它的詳細(xì)介紹:
- 數(shù)據(jù)基礎(chǔ):針對(duì)表演細(xì)節(jié)做了打標(biāo),對(duì)情緒、場(chǎng)景、表演訴求等進(jìn)行處理,利用 “千萬級(jí)別、高質(zhì)量” 的好萊塢級(jí)別數(shù)據(jù)進(jìn)行訓(xùn)練微調(diào)。
- 功能優(yōu)勢(shì)
- 影視化表情識(shí)別體系:可實(shí)現(xiàn) 11 種針對(duì)影視戲劇中的人物表情理解,如不屑、不耐煩、無助、厭惡等。
- 人物空間位置感知:基于人體三維重建技術(shù),能實(shí)現(xiàn)對(duì)視頻中多人的空間相對(duì)關(guān)系理解,助力生成影視級(jí)人物站位。
- 行為意圖理解:構(gòu)建超過 400 種行為語義單元,可實(shí)現(xiàn)對(duì)人物行為的精準(zhǔn)理解。
- 表演場(chǎng)景理解:能夠?qū)崿F(xiàn)人物 - 服裝 - 場(chǎng)景 - 劇情的關(guān)聯(lián)分析。
- 多模態(tài)生成支持:不僅支持文生視頻,還支持圖生視頻,是開源視頻生成模型中參數(shù)最大的支持圖生視頻的模型,在同等分辨率下各項(xiàng)指標(biāo)實(shí)現(xiàn)開源 SOTA。
- 推理速度:在自研推理優(yōu)化框架「SkyReels - Infer」的加持下,可實(shí)現(xiàn) 544p 分辨率,推理基于單臺(tái) 4090 用時(shí) 80s,還支持分布式多卡并行,支持 Context Parallel、CFG Parallel 和 VAE Parallel。
- 顯存優(yōu)化:采取 fp8 quantization 以及 parameter - level offload,滿足低顯存用戶級(jí)顯卡運(yùn)行需求。
- 延遲優(yōu)化:支持 flash attention、SageAttention,模型編譯優(yōu)化等,進(jìn)一步優(yōu)化延遲,基于開源 diffuser 庫,提升易用性。
- 推動(dòng)行業(yè)發(fā)展:當(dāng)前全球 AI 視頻生成模型和產(chǎn)品存在不開源、用不到、費(fèi)用高、不好用等痛點(diǎn),SkyReels - V1 的開源將面向 AI 短劇創(chuàng)作的技術(shù)成果回饋給開源社區(qū)和 AIGC 用戶,有望引導(dǎo)行業(yè)向更加開源、透明的方向發(fā)展。
- 降低創(chuàng)作門檻:創(chuàng)作者無需再為傳統(tǒng)影視制作中劇本創(chuàng)作、選演員、場(chǎng)景布置等環(huán)節(jié)耗費(fèi)大量時(shí)間與成本,只需通過普通電腦,依靠該開源模型,就能生成影視作品,使創(chuàng)作短劇不再是專業(yè)團(tuán)隊(duì)的專屬。
此外,為了實(shí)現(xiàn)更加精準(zhǔn)可控的人物視頻生成,昆侖萬維還同時(shí)開源了國內(nèi)首個(gè) SOTA 級(jí)別基于視頻基座模型的表情動(dòng)作可控算法 SkyReels - A1。 |