Video thumbnail for Realtime AI videos, transparent videos, new AI beats VEO3, o3-pro, new upscaler, AI drones

AI影片大爆發！即時生成、透明圖層、全新影片畫質提升技術、無人機大戰！

AI Search

Original Creator

Summary

Language:

Quick Abstract

人工智慧領域永不停歇，本週更是精彩紛呈！本文將快速總結本週最令人驚豔的AI創新，聚焦於AI影片生成技術的突破。從影片畫質提升到即時互動生成，再到領先業界的生成模型，AI正在以前所未有的速度重塑影片創作的未來。

影片畫質飛躍： 免費開源的SeedVR2 AI影片畫質提升工具，能將低畫質影片提升至1080p，效果驚人。
電影級景深控制： Any2Bouquet AI工具，讓手機也能拍出電影級景深效果，更能自訂焦點與模糊強度。
透明圖層影片生成： LayerFlow AI 可生成帶透明圖層的影片，也能將現有影片拆解為透明圖層，創意無限。
即時互動影片生成： 全新AI技術能即時生成高畫質影片，並可透過指令控制影片內容，猶如操控電玩遊戲。
影片生成品質巔峰： ByteDance的Seed Dance 1.0，在影片生成品質上超越Google VO3，引領業界。

OpenAI 發布了其最聰明的模型 GPT-3 Pro，Google 發布了一個擅長預測氣旋的 AI。

视频处理相关 AI 工具

Seed VR2：视频修复工具

Seed VR2 是一款能修复视频的 AI 工具。用户输入低质量视频，它可去除噪点、模糊等瑕疵。
示例众多，如输入模糊视频，处理后画面明显更清晰，细节更丰富。像埃菲尔铁塔和星星的细节，处理前后对比强烈。
该模型能一步修复高达 1080p 分辨率的视频，比其他方法更快更高效。
有 30 亿参数和 70 亿参数两种变体，质量和生成速度有差异。
其架构采用常规视频扩散转换器，能一步处理视频，还使用特殊注意力机制适应视频分辨率。
代码已获字节跳动批准并开源，可在 GitHub 上获取下载和使用说明，模型权重在 Hugging Face 发布。

Any2Bouquet：视频添加模糊效果工具

能为任何视频添加专业的模糊效果。
例如，原本背景清晰的山羊视频，处理后背景模糊，主体更突出，仿佛用专业相机拍摄。
不仅能模糊背景，还能自定义焦点位置和模糊强度。
可让用户对视频画面的模糊效果有终极控制权，未来用手机拍摄视频后，通过该工具就能实现专业的电影级效果。
它使用特殊神经网络，一步完成处理，视频会被转换为多平面帧以理解场景深度，从而选择模糊位置和强度。
代码开源，在 GitHub 上有下载和运行说明。

OmniSync：视频唇形同步工具

由 Quai Show 公司开发，能将输入视频与任何输入音频进行唇形同步。
相比以往的头像动画工具，它能对已有动作的视频进行唇形同步，控制更精准，生成的深度伪造视频也更逼真。
即便视频中嘴巴或嘴唇被遮挡，也能保持良好的唇形同步效果，且适用于不同角色和风格。
目前仅发布技术论文，是否开源未知。

LayerFlow：生成透明视频层工具

能生成带有透明层的视频，也能将视频分离为透明层和背景层。
例如生成透明的蓝色漩涡能量作为前景层，与背景层合并；或输入视频，分离出人物的透明层和背景层。
还能根据现有透明视频生成合适背景，且背景能跟随原层的相机运动，使视频无缝融合。
视频质量虽非完美，但代码即将开源，值得关注。

实时视频生成工具

能实时生成视频，且生成的视频具有交互性，用户可控制视频内容。
仅需一张图片作为输入，就能实时生成视频，通过提示可控制场景和动作。
能以 24 帧每秒的速度实时生成长达一分钟的视频，这是巨大突破，相比其他视频生成工具，速度快很多。
若有多块 GPU，还能实时生成高清视频。
可结合姿势骨架视频和人物照片生成实时视频，未来有望用于实时头像、客户支持、直播等领域。
也能像虚拟相机一样，通过输入相机嵌入控制 3D 空间中的相机运动。
目前仅发布技术论文，是否开源未知。

其他 AI 相关消息

字节跳动的 Sea Dance 1.0

字节跳动的旗舰视频生成器，在独立排行榜上表现优异，在文本到视频和图像到视频方面均击败谷歌的 V3。
支持多镜头生成，能在提示中指定不同场景，且场景间风格、角色和背景保持一致。
能生成任意纵横比的视频，图像到视频生成效果也很出色，视频质量高，细节逼真，无明显瑕疵。
目前仅发布了蒸馏版的 Sea Dance 1.0 Mini，质量不如完整版，完整版即将推出。

Player One Egocentric World Simulator

能生成超逼真的第一人称视角视频。
以一张图片作为视频起始帧，结合人物动作数据生成视频，用户动作能在视频中得到体现。
例如用户做挥剑、转身、伸手等动作，视频中的角色也会相应做出动作。
该工具对视频游戏和虚拟现实很有用，目前 GitHub 仓库为空，代码和模型尚未发布。

机器人领域：AI 无人机夺冠

在阿布扎比的 A2RL 无人机锦标赛上，由代尔夫特理工大学团队开发的 AI 自主驾驶无人机击败世界顶级人类飞行员。
比赛内容是驾驶无人机穿越赛道上的所有窗户，AI 无人机速度极快，达到 95.88 千米每小时。
无人机仅配备单个前向摄像头和单个运动传感器，与人类飞行员条件相似，AI 神经网络直接向电机发送控制命令，实现高性能机动。
这是 AI 在物理竞赛中首次击败人类顶尖选手。

OpenAI 发布 GPT-3 Pro

OpenAI 悄悄发布的新模型，旨在进行更深入的推理，在 STEM 学科表现出色。
与 GPT-3 一样，可使用搜索网络、运行 Python 代码、分析图像等工具。
因思考更深，生成响应时间更长，仅适用于对时间要求不高、追求高质量答案的情况。
与 GPT-3 相比，胜率约高 60%，在一些基准测试中表现稍好，但提升幅度不大。
在独立排行榜上排名第一，但价格昂贵，且上下文窗口小于 Gemini 2.5 Pro。
目前仅对专业和团队用户开放。

谷歌 DeepMind 发布 Weather Lab

一个使用 AI 预测热带气旋路径的互动工具。
AI 模型能提前 15 天预测气旋的形成、路径、强度、大小和形状，通过随机神经网络生成 50 种可能场景。
预测结果与实际观测路径接近，在 5 天预测中，平均比领先的物理模型 ENS 更接近实际路径，且预测时间更早。
模型通过学习数十年的全球天气再分析数据和近 5000 个过去 45 年的观测气旋数据来训练。
目前已发布免费互动平台，可查看全球预测的气旋情况。

PartC：从图像生成 3D 物体工具

能从图像生成 3D 物体，且能生成原始图像中不可见的单独部分。
输入图像后，能生成 3D 模型并自动分割成不同部分，分割准确度高。
不仅能处理单个物体，还能处理整个场景，甚至能生成被遮挡部分的物体。
由于物体是分开的，可在后期处理中单独编辑每个部分，对室内设计很有用。
代码和预训练模型将于 7 月 15 日前开源。

以上就是本周 AI 领域的所有重要进展，你对哪个消息最感兴趣？最想尝试哪个工具？欢迎在评论区留言。记得关注我的 YouTube 频道和免费每周通讯，获取更多 AI 资讯。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

No related summaries found.

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.