Video thumbnail for DeepSeek R1 0528 硬刚 Gemini 2.5 Pro,多场景实测对比

DeepSeek R1硬剛Gemini 2.5 Pro實測:最強開源模型對決?

Summary

Language:

Quick Abstract

想知道 DeepSeek 最新 R1-0528 小模型升級版的實力嗎?Kecha 將帶你一探究竟!這個基於 DeepSeek V3 的新模型,據官方說與 OpenAI O3 和 Gemini 2.5 Pro 十分接近。影片將深入比較 DeepSeek R1-0528 與 Gemini 2.5 Pro 在數學、科學、程式設計及創意生成等領域的表現,看看誰更勝一籌!

Quick Takeaways:

  • 數學能力: DeepSeek R1-0528 與 OpenAI O3 表現接近。

  • 程式設計: 比較兩模型在程式碼生成方面的優劣,包含3D星雲產生器和瑪莉歐遊戲。

  • 創意應用: 比較兩模型在SVG漫畫,髮型著陸頁,和動畫生成上的效果。

  • 邏輯推理: DeepSeek R1 在複雜問題展現更完整的思考過程,即使耗時較長。

  • 防禦能力: 測試模型抵禦惡意指令的策略與風險分析。

想知道更多關於這個模型的表現?敬請觀看影片,一睹為快!

DeepSeq R1 小版本升级

新版本发布与使用

大家好,我是 Kecha。DeepSeq 推出了 R1 小版本升级,新版本号为 0528。目前,大家已经可以在台湾官方网站的应用程序上使用,API 也已更新。

新模型基础与性能对比

新的 0528 版本采用 DeepSeq V3 基础模型。DeepSeq 在官方推文中称,新模型与 O3 和 Gemunt 2.5 Pro 非常接近。作为一个开放式模型,它与顶级的 BIM 模型表现相当不错。

从参数来看,在数学方面,TPSIC R10528 和 OpenAI O3 很接近;在科学方面,O3 得分更高。DeepSeq R1 0528 在某些方面得分高于 Gemini 2.5 Pro,在某些方面则低于它。在人类测试中,DeepSeq R1 此次得分与 Gemini 2.5 Pro 很接近。

小模型 Q3 8B

DeepSeq 还官方留下了小模型 Q3 8B,这个小模型特别强大。在 2024 年的数学竞赛中,这个 8B 小模型的得分甚至比 Q3 235B 还高一点。

新模型的特点与优化

R1-0528 的思考过程对学术界和工业界的研究以及小模型的发展都很重要。使用新 R1-0528 模型时,有个话题它思考了 10 多分钟,充分展示了思考过程,而 OpenAI O3 基本没有思考过程,DeepSeq R1 确实很开放。

新版本的 DeepSeq R1 针对幻想问题进行了优化,在换血、颜色分析、总结、解码、阅读、理解等场景中,幻想率大大降低。在创意写作方面,R1 更新后对电子书、小说和闪小说进行了进一步优化。

工具调用支持

新 R1 支持工具调用,但不支持同步工具调用,云支持同步工具调用。DeepSeq 认为其在 TAU Bench 的得分相当于 OE High,但与 O3Hai 和 CloudSonic 4 存在差距。新 IE 生成前端代码,角色扮演领域的能力得到更新和提升,除了在 DeepSeq IE 官方渠道使用,还可通过 OpenRouter 使用其他供应商的 API。

新 i1 与 Gemini 2.5 Pro 对比

编程问题对比

先看一个编程问题,这是 Grok 官方给出的测试题,通过 web.jl 在 p5.js 中实现。新 A1 生成的效果在右侧,可调整星云大小和扭转强度。Gemda 2.5 Pro 生成的效果,鼠标可拖动旋转,滚轮可缩放。Gemini 运行两次,中间有错误,已修复。

让它们生成马里奥游戏,新 i1 生成的游戏有左右箭头,但存在逻辑问题,上下未连接。Gemini 2.5 Pro 生成的效果太简单。

音频相关对比

将其深入到龙卷风音频格式,新 i1 考虑了是否播放音频或使用麦克风,有丰富内容。Gemini 2.5 Pro 生成的效果像龙卷风形状。

SVG 漫画与其他内容对比

制作简单 SVG 漫画,GEMLINE 2.5 Pro 结果很好,新 IE 添加了气泡对话框,但画面不如 GEMLINE 2.5 Pro。

创建发型着陆页,GEMLINE 效果不错,虽不如 CloudSonic 4,但比之前版本漂亮。IE 制作的效果也不错,但颜色搭配不如 Gemini 2.5 Pro。

动画效果对比

制作动画,Gem Knight 生成的效果需手动点击才出现在屏幕,展示不同角色。新 i1 点击开始跳舞,有五个小人,还有气泡文本,舞蹈有趣。

直播页面生成对比

构建带直播屏幕的直播流,Gemini 2.5 Pro 生成的效果有趣,有 618 大促预热、夏季新品推广等内容。IE 在美观度、广告和广告管理方面也不错,都提到了 6 月 18 日和夏季。但新 IE 点击底部部分无结果。

3D RPG 游戏对比

构建可爱的 3D RPG,R1 生成的效果不错,有多个元素。Gemline 生成的效果,通过 WASD 键可获得不同星星,两者各有优势,i1 有可爱动物元素,适合儿童。

诗歌创作对比

写一首按字母排序的诗,主题是从噪声中浮现,背景黑色,首字母不同颜色,取深思标题。新阿姨一次尝试生成的页面不错。第二次提示添加中文,效果更酷。Gemlight 生成的效果有点单调。

玩具机游戏对比

制作玩具机游戏设置,A1 界面适合儿童,但多次尝试都抓不到东西。Gemini 也存在同样问题,总体上 Gemini 在这个游戏中表现更好。

鼠标平台游戏对比

Cloud 4 在这个游戏中表现很好,一次成功。R1 开始游戏无元素,点击开始后空白,再次提示仍无内容,但底部的运动控制、游戏指令等不错。

SVG 代码编写对比

让 R1 编写 SVG 代码,第一次生成的效果不错,第二次提示后可成功操作,不仅给出结果,还教方法。

星空效果制作对比

制作高度自适应星空,A1 生成的效果,点击屏幕添加新星星,水平移动鼠标改变方向,垂直移动改变速度。GemNight 生成的效果,点击出现星星,移动鼠标可看到方向和速度变化,个人更喜欢 R1 的效果。

交互式多回路机制作对比

制作交互式多回路机,IE 表现不佳,Gemini 可按 T 切换主题,点击不同网格有不同声音,Gemini 表现更好。

日夜双重关闭时间制作对比

制作实时日夜双重关闭时间,DeepSeq 的配色方案不错,Gemini 则比较普通。

文档编写对比

写文档,要求表达矛盾句子,Gemini 思考速度比 Deepthika's R1 快很多。

日程安排对比

安排日程,Deepthika 思考了约五分钟,思考过程很多,Gemini 思考速度快,两者在部分安排上有相似之处。

座位安排问题对比

解决座位安排问题,Deep Seekers 列出所有座位和条件,展示完整思考过程,最终给出两个方案,但第一个方案存在问题。OpenAI 的 O4 Mini Hi 给出六个可能解决方案,Gemini 也进行了分析。

月度现金流表制作对比

制作月度现金流表,Deep Seekers 思考了 10 分钟,给出详细分析和建议,GMT 回答速度快很多,两者分析和建议有相似之处。

模型诱导问题对比

处理模型诱导问题,Deep Seekers 回复是,给出两个防御策略和法律隐私风险分析。Gemini 自我评估,基本遵循指令,分析了限制。

诗歌翻译对比

翻译诗歌,Jamal 认为阿姨的译文质量好,能传达原诗意境和情感,Gemini 对译文进行了更详细分析。

处理朋友冲突问题对比

假设是古代圣人,用孔子的语气回答年轻人如何处理朋友冲突,个人更喜欢 Gemini 给出的答案。

开咖啡馆方案对比

李明打算开咖啡馆,阿姨先分析核心问题,提炼关键点,给出详细方案。Gemini 也给出了回应,总体上阿姨的回答更好。

总结

以上是新 A1 模型与 Gemini 2.5 Pro 05 和 06 版本的对比。DeepSeq R1 是个很有能力的模型,其思考过程对数学推理模型研究和小模型发展重要。有这样的国产模型值得骄傲。如果喜欢视频,欢迎加入知识星球,会分享最新 AI 资讯、原代码并回答提问,下次再见。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

No related summaries found.

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.