熱門 AI 創作引發討論
上週,一支由 AI 製作的影片在網路上迅速走紅,許多人誤以為這支影片是真的。就是上面這支影片,內容是一位女士想帶老鼠上飛機被拒絕。從畫面看,確實很難看出是 AI 製作,也因此引發了人們對航空公司政策和動物福利的熱議。但這其實是 Google 的 Vio3 製作的。
類似的情況在兩年前也發生過,當時一張 AI 生成的方濟各身穿巴黎世家白色連衣裙的照片爆紅,同樣騙過了無數人的眼睛,並引發全球對 AI 真實性的討論。這兩件事相隔兩年,清楚顯示 AI 已經發展到從圖像生成到影片製作都能以假亂真的地步。
圖像與影片製作領域的最新發展
本週的 AI 週報主要聚焦在圖像和影片製作領域的最新進展。
Flex One Context 模型
上週最熱門的模型非 Flex One Context 莫屬,它應是目前最強大的圖像編輯模型。其背後公司是 Black Forest Labs,核心團隊來自前 Stable Diffusion。
Flex One Context 的最大突破在於真正實現了紋身模型的上下遊戲。也就是說,該模型能同時理解和處理文本與圖像輸入,從而實現視覺概念的採用、修改和重新演繹,並生成相關新圖像。它統一了基於文本的圖像編輯和文本到文本的生成,僅依靠該模型就能形成一套工作流程。
-
基本性能:Flux1 Context 具有非常強的提示監測能力、照片渲染效果和超強的文本布局能力。其推理速度可達 GPT 圖像的 8 倍,大大縮短了等待時間。
-
核心編輯能力:能在多種場景和環境中保持特定參考人物的高度。同時,允許用戶對圖像中的特定元素進行精確修改,而不影響圖像的其他部分。例如官方示例中,能在不改變主體的情況下修改背景。此外,Context 能從參考圖像中學習並保留其獨特風格,還能根據新的文本提示創建新場景。最重要的是,它支持多階段編輯,用戶可以在前一次編輯的基礎上逐步添加指令並進行優化。
目前,Flex One Context 提供三個版本:
-
Dive 版本目前處於內部階段,未來將對公眾開放並發佈在 Hugging Face 上。
-
Pro 版本是主推模型。
-
Max 版本是實驗模型,提供最極致的性能,用戶可以在官方提供的 Playground 上進行測試。首次註冊有 200 點,每次修改一張圖片大約需要 16 點。
騰訊的圖像生成影片模型
騰訊上週開放了一個圖像生成影片的模型,只需一張圖片和一個音頻文件或音頻文件文本,就能讓圖片中的人物有真實的口型表達和身體動作。無論是單人、多人場景,還是動漫、3D 角色或動物,都能生動呈現。其核心使用了多個擴散轉換器,目前已在 Honeyface 和 GitHub 上開放。
Kling 模型 2.1 版本
在 AI 生成的熱門領域,快追公司的 Kling 模型發佈了 2.1 版本。新版本引入了大師模式和普通模式兩種模式。最重要的是,普通版本的價格降低了。之前的 Kling 2.0 大師版本效果雖好,但價格昂貴,5 秒的影片需要消耗 100 個感測器。
Kling 目前已形成清晰的三個版本:
-
標準版本:720p 分辨率,運動效果一般,生成速度快,每個影片 20 個感測器。
-
Kling 2.1 普通版本:1080p 分辨率,運動效果好,生成速度正常,每個影片 35 個感測器,保持了與 2.0 版本相同的質量,但價格下降了三分之二。
-
2.1 大師版本:在圖像生成影片能力方面已能趕上 VO3。從官方發佈的演示影片來看,Clean 2.1 能夠理解和執行複雜的文本提示,實現流暢且富有創意的鏡頭移動,並在多鏡頭場景中保持人物與環境的聯繫,尤其在減少人物動作的扭曲和不一致性方面取得了很大進步。
Chain of Zoom 模型
Chain of Zoom 是一個放大圖像的框架,最高可將圖像放大 256 倍,同時保持圖像的銳度和清晰度。其核心是縮放技術的實踐,將視覺語言模型與圖像放大過程中的細節相結合,無論是風景、肖像還是文本,都能完美處理。目前,其代碼已開放。
Direct3DSS2 工具
在 3D 模型生成領域,一款名為 Direct3DSS2 的 AI 工具據稱是目前最精確的 3D 模型生成器。它能從單張圖像生成超高分辨率和複雜的 3D 模型,分辨率可達千萬像素級,細節遠超現有工具。最重要的是,該模型的訓練效率非常高,處理 1024 分辨率只需 8 個 GPU,而之前的技術處理 256 分辨率需要 32 個 GPU。該工具也已在 Hugging Face 上開發。
Chatterbox 文本轉語音模型
上週推出了一款非常令人印象深刻的文本轉語音模型 Chatterbox,它迅速登上了 Hugging Face 的熱門趨勢榜。在主頁上,Chatterbox 聲稱其優於商業標準的 11 Labs。它能分析一個簡短的參考語音樣本,準確記錄目標說話者的語音音調、語氣,甚至情感表達。而且該模型只有 0.5B,支持 CPU 和 Mac 系統運行。
DeepSeq R1 模型更新
最後看看大模型領域,上週 DeepSeq R1 進行了一次小更新,目前版本號為 0528。該版本不僅更新了編程能力,還減少了幻覺現象,這曾是 DeepSeq 用户的痛點。有了這些增強,0528 版本在一些基本測試中的結果已接近 Gemini 2.5 Pro 和 O3 Mini。
以上就是本週 AI 週報的主要內容,歡迎在評論區留下您的看法,我們下周見。