7月4日,世界人工智能大會(WAIC 2024)在上海隆重召開,由商湯科技打造的首個面向C端用戶的可控人物視頻生成大模型——Vimi入選WAIC展覽展示最高榮譽“鎮館之寶”,成為本屆大會最具創新展品。Vimi基于商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,并支持多種驅動方式,可通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動。

精準表情控制!首次實現分鐘級可控、唯美人物視頻生成
隨著大模型和生成式AI技術的快速發展,讓照片中的人物動起來已經不是新鮮事。但目前市面上的相關產品在實際應用中存在諸多痛點,有的人物動作、表情動作無法精準控制,只能頻繁嘗試各種Prompt抽卡;有的效果穩定性不高,人物長相、背景效果變幻莫測;有的時長有限,只能生成3~4秒視頻等諸多限制創作的問題,無法滿足廣大視頻創作者的使用需求。為了解決這些應用中的實際問題,商湯可控人物視頻生成大模型Vimi應運而生。
與圖片表情控制類技術只能控制頭部表情動作不同,Vimi不但可以實現精準的人物表情控制,還可實現在半身區域內控制照片中人物的自然肢體變化,并自動生成與人物相符的頭發、服飾及背景變化。同時光影變化也能做到合理生成,讓人物動作和視覺效果流暢自然,畫面和諧唯美。更重要的是,Vimi具備極強的穩定性,可穩定生成長達1分鐘的單鏡頭人物類視頻,畫面效果不會隨著時間的變化而劣化或失真,真正滿足娛樂互動等需要長時間穩定視頻生成需求。

生成自然的光影 生成頭發的飄動 生成一致的運鏡
真C端可用!輕松化身網紅,滿足女性用戶娛樂創作需求
Vimi將完全面向C端用戶開放使用,尤其能夠滿足廣大女性用戶的娛樂創作需求。用戶只需上傳不同角度的高清人物圖片,即可自動生成數字分身和不同風格的寫真視頻。由Vimi生成的視頻人物不再只是呆板的五官運動,而是搭配手勢、肢體、頭發等,形成更完整、統一的人物動作,讓創作者可基于生成的視頻素材進行剪輯和再創作。

針對喜愛自拍的用戶,Vimi可支持聊天、唱歌、舞動等多種娛樂互動場景;而對于熱衷表情包的用戶來說,Vimi通過單張圖片即可驅動生成各種趣味的人物表情包,玩法多樣,實現創作自由。此外,Vimi還提供唯美寫真風、奇幻風等多種生成風格,讓用戶仿佛穿越不同次元,享受大片質感的沉浸式視覺效果。

目前,行業里80%的視頻都是以人物為主要內容,同時伴隨短視頻、直播平臺的爆發,以人物為主體的視頻需求量成指數級增長。然而,市面上缺少可控人物視頻生成的AIGC產品,導致內容創作者的效率有待提升。Vimi的出現恰恰填補了這一需求空缺,為廣大C端的視頻創作者提供了簡單、好用的創作工具,可以廣泛應用于人物類短視頻的創作。
Vimi以商湯日日新大模型體系為基礎,結合商湯在計算機視覺領域的多年技術積淀和經驗積累,能夠精準識別和理解復雜的人物圖片,并通過強大的AIGC能力,實現和諧、穩定的視頻內容生成。
目前,Vimi已在商湯科技官網開放預約,歡迎體驗。在7月5日商湯科技舉辦的“大愛無疆·向新力”人工智能論壇上,還將揭開Vimi的更多細節,敬請關注。

