Deepseek

3周前发布 11 0 0

深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型,并在2024年1月率先开源国内...

所在地:
中国
语言:
en,zh
收录时间:
2024-12-30
DeepseekDeepseek
Deepseek
DeepSeek-V3 的综合能力

DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。

在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。

Benchmark (Metric) DeepSeek V3 DeepSeek V2.5 Qwen2.5 Llama3.1 Claude-3.5 GPT-4o
0905 72B-Inst 405B-Inst Sonnet-1022 0513
Architecture MoE MoE Dense Dense
# Activated Params 37B 21B 72B 405B
# Total Params 671B 236B 72B 405B
English MMLU (EM) 88.5 80.6 85.3 88.6 88.3 87.2
MMLU-Redux (EM) 89.1 80.3 85.6 86.2 88.9 88.0
MMLU-Pro (EM) 75.9 66.2 71.6 73.3 78.0 72.6
DROP (3-shot F1) 91.6 87.8 76.7 88.7 88.3 83.7
IF-Eval (Prompt Strict) 86.1 80.6 84.1 86.0 86.5 84.3
GPQA-Diamond (Pass@1) 59.1 41.3 49.0 51.1 65.0 49.9
SimpleQA (Correct) 24.9 10.2 9.1 17.1 28.4 38.2
FRAMES (Acc.) 73.3 65.4 69.8 70.0 72.5 80.5
LongBench v2 (Acc.) 48.7 35.4 39.4 36.1 41.0 48.1
Code HumanEval-Mul (Pass@1) 82.6 77.4 77.3 77.2 81.7 80.5
LiveCodeBench (Pass@1-COT) 40.5 29.2 31.1 28.4 36.3 33.4
LiveCodeBench (Pass@1) 37.6 28.4 28.7 30.1 32.8 34.2
Codeforces (Percentile) 51.6 35.6 24.8 25.3 20.3 23.6
SWE Verified (Resolved) 42.0 22.6 23.8 24.5 50.8 38.8
Aider-Edit (Acc.) 79.7 71.6 65.4 63.9 84.2 72.9
Aider-Polyglot (Acc.) 49.6 18.2 7.6 5.8 45.3 16.0
Math AIME 2024 (Pass@1) 39.2 16.7 23.3 23.3 16.0 9.3
MATH-500 (EM) 90.2 74.7 80.0 73.8 78.3 74.6
CNMO 2024 (Pass@1) 43.2 10.8 15.9 6.8 13.1 10.8
Chinese CLUEWSC (EM) 90.9 90.4 91.4 84.7 85.4 87.9
C-Eval (EM) 86.5 79.5 86.1 61.5 76.7 76.0
C-SimpleQA (Correct) 64.1 54.1 48.4 50.4 51.3 59.3

性能对齐海外领军闭源模型

DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。

论文链接:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
  • 百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
  • 长文本:长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。
  • 代码:DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
  • 数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。
  • 中文能力:DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。

生成速度提升至 3 倍

通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。

数据统计

数据评估

Deepseek浏览人数已经达到11,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Deepseek的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Deepseek的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Deepseek特别声明

本站哆咪虾提供的Deepseek都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由哆咪虾实际控制,在2024-12-30 上午11:04收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,哆咪虾不承担任何责任。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...