视频处理相关 AI 工具
Seed VR2:视频修复工具
-
Seed VR2 是一款能修复视频的 AI 工具。用户输入低质量视频,它可去除噪点、模糊等瑕疵。
-
示例众多,如输入模糊视频,处理后画面明显更清晰,细节更丰富。像埃菲尔铁塔和星星的细节,处理前后对比强烈。
-
该模型能一步修复高达 1080p 分辨率的视频,比其他方法更快更高效。
-
有 30 亿参数和 70 亿参数两种变体,质量和生成速度有差异。
-
其架构采用常规视频扩散转换器,能一步处理视频,还使用特殊注意力机制适应视频分辨率。
-
代码已获字节跳动批准并开源,可在 GitHub 上获取下载和使用说明,模型权重在 Hugging Face 发布。
Any2Bouquet:视频添加模糊效果工具
-
能为任何视频添加专业的模糊效果。
-
例如,原本背景清晰的山羊视频,处理后背景模糊,主体更突出,仿佛用专业相机拍摄。
-
不仅能模糊背景,还能自定义焦点位置和模糊强度。
-
可让用户对视频画面的模糊效果有终极控制权,未来用手机拍摄视频后,通过该工具就能实现专业的电影级效果。
-
它使用特殊神经网络,一步完成处理,视频会被转换为多平面帧以理解场景深度,从而选择模糊位置和强度。
-
代码开源,在 GitHub 上有下载和运行说明。
OmniSync:视频唇形同步工具
-
由 Quai Show 公司开发,能将输入视频与任何输入音频进行唇形同步。
-
相比以往的头像动画工具,它能对已有动作的视频进行唇形同步,控制更精准,生成的深度伪造视频也更逼真。
-
即便视频中嘴巴或嘴唇被遮挡,也能保持良好的唇形同步效果,且适用于不同角色和风格。
-
目前仅发布技术论文,是否开源未知。
LayerFlow:生成透明视频层工具
-
能生成带有透明层的视频,也能将视频分离为透明层和背景层。
-
例如生成透明的蓝色漩涡能量作为前景层,与背景层合并;或输入视频,分离出人物的透明层和背景层。
-
还能根据现有透明视频生成合适背景,且背景能跟随原层的相机运动,使视频无缝融合。
-
视频质量虽非完美,但代码即将开源,值得关注。
实时视频生成工具
-
能实时生成视频,且生成的视频具有交互性,用户可控制视频内容。
-
仅需一张图片作为输入,就能实时生成视频,通过提示可控制场景和动作。
-
能以 24 帧每秒的速度实时生成长达一分钟的视频,这是巨大突破,相比其他视频生成工具,速度快很多。
-
若有多块 GPU,还能实时生成高清视频。
-
可结合姿势骨架视频和人物照片生成实时视频,未来有望用于实时头像、客户支持、直播等领域。
-
也能像虚拟相机一样,通过输入相机嵌入控制 3D 空间中的相机运动。
-
目前仅发布技术论文,是否开源未知。
其他 AI 相关消息
字节跳动的 Sea Dance 1.0
-
字节跳动的旗舰视频生成器,在独立排行榜上表现优异,在文本到视频和图像到视频方面均击败谷歌的 V3。
-
支持多镜头生成,能在提示中指定不同场景,且场景间风格、角色和背景保持一致。
-
能生成任意纵横比的视频,图像到视频生成效果也很出色,视频质量高,细节逼真,无明显瑕疵。
-
目前仅发布了蒸馏版的 Sea Dance 1.0 Mini,质量不如完整版,完整版即将推出。
Player One Egocentric World Simulator
-
能生成超逼真的第一人称视角视频。
-
以一张图片作为视频起始帧,结合人物动作数据生成视频,用户动作能在视频中得到体现。
-
例如用户做挥剑、转身、伸手等动作,视频中的角色也会相应做出动作。
-
该工具对视频游戏和虚拟现实很有用,目前 GitHub 仓库为空,代码和模型尚未发布。
机器人领域:AI 无人机夺冠
-
在阿布扎比的 A2RL 无人机锦标赛上,由代尔夫特理工大学团队开发的 AI 自主驾驶无人机击败世界顶级人类飞行员。
-
比赛内容是驾驶无人机穿越赛道上的所有窗户,AI 无人机速度极快,达到 95.88 千米每小时。
-
无人机仅配备单个前向摄像头和单个运动传感器,与人类飞行员条件相似,AI 神经网络直接向电机发送控制命令,实现高性能机动。
-
这是 AI 在物理竞赛中首次击败人类顶尖选手。
OpenAI 发布 GPT-3 Pro
-
OpenAI 悄悄发布的新模型,旨在进行更深入的推理,在 STEM 学科表现出色。
-
与 GPT-3 一样,可使用搜索网络、运行 Python 代码、分析图像等工具。
-
因思考更深,生成响应时间更长,仅适用于对时间要求不高、追求高质量答案的情况。
-
与 GPT-3 相比,胜率约高 60%,在一些基准测试中表现稍好,但提升幅度不大。
-
在独立排行榜上排名第一,但价格昂贵,且上下文窗口小于 Gemini 2.5 Pro。
-
目前仅对专业和团队用户开放。
谷歌 DeepMind 发布 Weather Lab
-
一个使用 AI 预测热带气旋路径的互动工具。
-
AI 模型能提前 15 天预测气旋的形成、路径、强度、大小和形状,通过随机神经网络生成 50 种可能场景。
-
预测结果与实际观测路径接近,在 5 天预测中,平均比领先的物理模型 ENS 更接近实际路径,且预测时间更早。
-
模型通过学习数十年的全球天气再分析数据和近 5000 个过去 45 年的观测气旋数据来训练。
-
目前已发布免费互动平台,可查看全球预测的气旋情况。
PartC:从图像生成 3D 物体工具
-
能从图像生成 3D 物体,且能生成原始图像中不可见的单独部分。
-
输入图像后,能生成 3D 模型并自动分割成不同部分,分割准确度高。
-
不仅能处理单个物体,还能处理整个场景,甚至能生成被遮挡部分的物体。
-
由于物体是分开的,可在后期处理中单独编辑每个部分,对室内设计很有用。
-
代码和预训练模型将于 7 月 15 日前开源。
以上就是本周 AI 领域的所有重要进展,你对哪个消息最感兴趣?最想尝试哪个工具?欢迎在评论区留言。记得关注我的 YouTube 频道和免费每周通讯,获取更多 AI 资讯。