Video thumbnail for Realtime AI videos, transparent videos, new AI beats VEO3, o3-pro, new upscaler, AI drones

AI影片大爆發!即時生成、透明圖層、全新影片畫質提升技術、無人機大戰!

Summary

Language:

Quick Abstract

人工智慧領域永不停歇,本週更是精彩紛呈!本文將快速總結本週最令人驚豔的AI創新,聚焦於AI影片生成技術的突破。從影片畫質提升到即時互動生成,再到領先業界的生成模型,AI正在以前所未有的速度重塑影片創作的未來。

  • 影片畫質飛躍: 免費開源的SeedVR2 AI影片畫質提升工具,能將低畫質影片提升至1080p,效果驚人。

  • 電影級景深控制: Any2Bouquet AI工具,讓手機也能拍出電影級景深效果,更能自訂焦點與模糊強度。

  • 透明圖層影片生成: LayerFlow AI 可生成帶透明圖層的影片,也能將現有影片拆解為透明圖層,創意無限。

  • 即時互動影片生成: 全新AI技術能即時生成高畫質影片,並可透過指令控制影片內容,猶如操控電玩遊戲。

  • 影片生成品質巔峰: ByteDance的Seed Dance 1.0,在影片生成品質上超越Google VO3,引領業界。

OpenAI 發布了其最聰明的模型 GPT-3 Pro,Google 發布了一個擅長預測氣旋的 AI。

视频处理相关 AI 工具

Seed VR2:视频修复工具

  • Seed VR2 是一款能修复视频的 AI 工具。用户输入低质量视频,它可去除噪点、模糊等瑕疵。

  • 示例众多,如输入模糊视频,处理后画面明显更清晰,细节更丰富。像埃菲尔铁塔和星星的细节,处理前后对比强烈。

  • 该模型能一步修复高达 1080p 分辨率的视频,比其他方法更快更高效。

  • 有 30 亿参数和 70 亿参数两种变体,质量和生成速度有差异。

  • 其架构采用常规视频扩散转换器,能一步处理视频,还使用特殊注意力机制适应视频分辨率。

  • 代码已获字节跳动批准并开源,可在 GitHub 上获取下载和使用说明,模型权重在 Hugging Face 发布。

Any2Bouquet:视频添加模糊效果工具

  • 能为任何视频添加专业的模糊效果。

  • 例如,原本背景清晰的山羊视频,处理后背景模糊,主体更突出,仿佛用专业相机拍摄。

  • 不仅能模糊背景,还能自定义焦点位置和模糊强度。

  • 可让用户对视频画面的模糊效果有终极控制权,未来用手机拍摄视频后,通过该工具就能实现专业的电影级效果。

  • 它使用特殊神经网络,一步完成处理,视频会被转换为多平面帧以理解场景深度,从而选择模糊位置和强度。

  • 代码开源,在 GitHub 上有下载和运行说明。

OmniSync:视频唇形同步工具

  • 由 Quai Show 公司开发,能将输入视频与任何输入音频进行唇形同步。

  • 相比以往的头像动画工具,它能对已有动作的视频进行唇形同步,控制更精准,生成的深度伪造视频也更逼真。

  • 即便视频中嘴巴或嘴唇被遮挡,也能保持良好的唇形同步效果,且适用于不同角色和风格。

  • 目前仅发布技术论文,是否开源未知。

LayerFlow:生成透明视频层工具

  • 能生成带有透明层的视频,也能将视频分离为透明层和背景层。

  • 例如生成透明的蓝色漩涡能量作为前景层,与背景层合并;或输入视频,分离出人物的透明层和背景层。

  • 还能根据现有透明视频生成合适背景,且背景能跟随原层的相机运动,使视频无缝融合。

  • 视频质量虽非完美,但代码即将开源,值得关注。

实时视频生成工具

  • 能实时生成视频,且生成的视频具有交互性,用户可控制视频内容。

  • 仅需一张图片作为输入,就能实时生成视频,通过提示可控制场景和动作。

  • 能以 24 帧每秒的速度实时生成长达一分钟的视频,这是巨大突破,相比其他视频生成工具,速度快很多。

  • 若有多块 GPU,还能实时生成高清视频。

  • 可结合姿势骨架视频和人物照片生成实时视频,未来有望用于实时头像、客户支持、直播等领域。

  • 也能像虚拟相机一样,通过输入相机嵌入控制 3D 空间中的相机运动。

  • 目前仅发布技术论文,是否开源未知。

其他 AI 相关消息

字节跳动的 Sea Dance 1.0

  • 字节跳动的旗舰视频生成器,在独立排行榜上表现优异,在文本到视频和图像到视频方面均击败谷歌的 V3。

  • 支持多镜头生成,能在提示中指定不同场景,且场景间风格、角色和背景保持一致。

  • 能生成任意纵横比的视频,图像到视频生成效果也很出色,视频质量高,细节逼真,无明显瑕疵。

  • 目前仅发布了蒸馏版的 Sea Dance 1.0 Mini,质量不如完整版,完整版即将推出。

Player One Egocentric World Simulator

  • 能生成超逼真的第一人称视角视频。

  • 以一张图片作为视频起始帧,结合人物动作数据生成视频,用户动作能在视频中得到体现。

  • 例如用户做挥剑、转身、伸手等动作,视频中的角色也会相应做出动作。

  • 该工具对视频游戏和虚拟现实很有用,目前 GitHub 仓库为空,代码和模型尚未发布。

机器人领域:AI 无人机夺冠

  • 在阿布扎比的 A2RL 无人机锦标赛上,由代尔夫特理工大学团队开发的 AI 自主驾驶无人机击败世界顶级人类飞行员。

  • 比赛内容是驾驶无人机穿越赛道上的所有窗户,AI 无人机速度极快,达到 95.88 千米每小时。

  • 无人机仅配备单个前向摄像头和单个运动传感器,与人类飞行员条件相似,AI 神经网络直接向电机发送控制命令,实现高性能机动。

  • 这是 AI 在物理竞赛中首次击败人类顶尖选手。

OpenAI 发布 GPT-3 Pro

  • OpenAI 悄悄发布的新模型,旨在进行更深入的推理,在 STEM 学科表现出色。

  • 与 GPT-3 一样,可使用搜索网络、运行 Python 代码、分析图像等工具。

  • 因思考更深,生成响应时间更长,仅适用于对时间要求不高、追求高质量答案的情况。

  • 与 GPT-3 相比,胜率约高 60%,在一些基准测试中表现稍好,但提升幅度不大。

  • 在独立排行榜上排名第一,但价格昂贵,且上下文窗口小于 Gemini 2.5 Pro。

  • 目前仅对专业和团队用户开放。

谷歌 DeepMind 发布 Weather Lab

  • 一个使用 AI 预测热带气旋路径的互动工具。

  • AI 模型能提前 15 天预测气旋的形成、路径、强度、大小和形状,通过随机神经网络生成 50 种可能场景。

  • 预测结果与实际观测路径接近,在 5 天预测中,平均比领先的物理模型 ENS 更接近实际路径,且预测时间更早。

  • 模型通过学习数十年的全球天气再分析数据和近 5000 个过去 45 年的观测气旋数据来训练。

  • 目前已发布免费互动平台,可查看全球预测的气旋情况。

PartC:从图像生成 3D 物体工具

  • 能从图像生成 3D 物体,且能生成原始图像中不可见的单独部分。

  • 输入图像后,能生成 3D 模型并自动分割成不同部分,分割准确度高。

  • 不仅能处理单个物体,还能处理整个场景,甚至能生成被遮挡部分的物体。

  • 由于物体是分开的,可在后期处理中单独编辑每个部分,对室内设计很有用。

  • 代码和预训练模型将于 7 月 15 日前开源。

以上就是本周 AI 领域的所有重要进展,你对哪个消息最感兴趣?最想尝试哪个工具?欢迎在评论区留言。记得关注我的 YouTube 频道和免费每周通讯,获取更多 AI 资讯。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

No related summaries found.

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.