DeepSeek 更新了,我更期待量化版

admin 百科 13

大家好,我是专注 ai 学习的老章

DeepSeek 更新了,我更期待量化版-第1张图片-佛山资讯网

昨天大模型圈异常热闹,其实近期新版本层出不穷,尤其是 Qwen 系列,我也抽空做了一些测试,只是时间有限没来得及出文分享

DeepSeek-V3.1-Terminus

这是对 V3.1 的一次小幅迭代更新,主要修复了此前曝光的“极”字漏洞以及多语言混合输入的问题

基准 DeepSeek-V3.1 DeepSeek-V3.1-Terminus
无工具使用推理模式
MMLU-Pro 84.8 85.0
GPQA-Diamond 80.1 80.7
huanity's last test 15.9 21.7
LiveCodeBench 74.8 74.9
Codeforces 2091 2046
Aider-Polyglot 76.3 76.1
代理工具使用
BrowseComp 30.0 38.5
BrowseComp-zh 49.2 45.0
SimpleQA 93.4 96.8
SWE Verified 66.0 68.4
SWE-bench 多语言 54.5 57.8
Terminal-bench 31.3 36.7

Terminius 最亮眼的提升在于 Agent 能力,在 Code Agent 和 Search Agent 场景下的表现均有增强。

不过细心的朋友可能已经注意到,升级后的模型在 Codeforces 和 Aider-Polyglot 两个编程竞技类评测中分数反而略有下滑。但整体影响不大,关键是“极”bug 已被修复,实际使用体验更加稳定可靠。

目前访问 https://chat.deepseek.com/ 使用的就是最新的 Terminius 版本

该模型也已开放开源:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

标签: 工具 ai gpt 多语言 gpt-4 claude 大模型 deepseek 2025 本地部署 qwen

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~