技术进步迅速,模型也在持续进化。您可能想知道,是否有一种模型既能高效完成通用对话任务,又能有效处理代码?今天我要向大家展示的,是一款集这些优点于一身的全新开源模型——V2.5!

模型发布情况

今日,我们团队顺利将-V2-Chat与-Coder-V2两个模型合并,并正式推出了-V2.5版本。新模型继承了先前两个模型的诸多优势,同时在满足人类偏好这一领域,展现出了更佳的匹配度。而且,-V2.5 已经在网页版和API接口中全面应用;API接口保持了与旧版本的兼容性;无论是通过 -coder 还是 -chat,用户都可以轻松访问到这款新模型;这大大提升了使用的方便程度。

往期版本升级历程

在六月,我们对-V2-Chat进行了全方位的更新,将Coder V2的Base模型替换成了Chat之前所用的Base模型。这一改动显著增强了其代码生成和推理功能,并且我们还推出了-V2-Chat-0628版本。之后,-Coder-V2 对 Base 模型进行了优化和调整,其通用性得到了大幅增强。随后,推出了 -Coder-V2 0724 版本。经过反复的精炼和完善,最终形成了我们目前使用的 -V2.5 版本。

 DeepSeek-V2.5 代码能力 _deepseek_DeepSeek-V2.5 开源模型

使用建议提示

deepseek_ DeepSeek-V2.5 代码能力 _DeepSeek-V2.5 开源模型

模型这一版进行了不少调整,若在使用时觉得-V2.5不太满意,用户可以试着调整参数配置,这样做有助于提升使用感受。尤其是刚开始使用新模型的时候,这一点特别重要,用户需记得及时调整,以保证模型能充分发挥其效能,提高个人的使用满意度。

通用能力评测情况

该团队使用了业界广泛认可的测试集对-V2.5版本的功能进行了测试,测试结果显示,在包含中文和英文的四个测试集中,-V2.5的表现在各个方面都超过了-V2-0628和-Coder-V2-0724。在内部中文评测中,-V2.5 的胜率显著高于 -V2-0628,并且在与 GPT - 4o mini、-4o - 的对决中也同样表现出色,它涵盖了创作、问答等多种通用技能,从而显著提升了用户的整体使用感受。

deepseek_ DeepSeek-V2.5 代码能力 _DeepSeek-V2.5 开源模型

代码能力表现

在编程技能上,-V2.5承袭了-Coder-V2-0724的卓越编程手法。在2024年1月至9月进行的特定测试中,其表现有了明显提升。然而,在SWE测试阶段,两个版本的表现均不尽如人意,急需进行改进。在FIM补全任务中,我们使用的评测集DS-FIM-Eval的评分实现了5.1个百分点的增长,这样的提升使得插件补全的功能体验得到了明显的改善。

实际优化成果

V2.5版本的代码在常见应用场景中进行了优化,旨在增强其实际应用的表现力。在内部主观评测DS-Arena-Code中,V2.5版本在与同类产品的较量中,胜率显著提高(评判标准由GPT-4o设定),这一成绩表明,与旧版本相比,它在实际应用方面显现出更显著的优越性。

大家对这款叫做-V2.5的新型号在未来的使用场景中会有怎样的表现,都抱有很高的期待,您可以在评论区发表您的看法。如果您觉得这篇文章对您有所启发,请不要忘记点赞并转发,以此表达您的支持!