豆包大模型披露评测成绩，较上一代“云雀”提升19% -九游会国际

豆包大模型披露评测成绩，较上一代“云雀”提升19%

邮箱网 0条评论 333次浏览 2024年05月27日星期一 10:48

分享到：

新浪科技讯 5月27日上午消息，在火山引擎最新披露的一份产品资料中，豆包模型团队公布了一期内部测试结果：在 mmlu、bbh、gsm8k、humaneval等11个业界主流的公开评测集上，doubao-pro-4k 的总分为76.8分，相比上一代模型云雀skylark2 的64.5分提升了19%，也优于同期测试的其他国产模型。

据悉，此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀skylark2 在内的九款国产大语言模型。除了云雀skylark2 以外，其他模型均为各家厂商最新发布的高级版本，通过api调用进行测试。

评测结果显示，在评估代码能力的两个评测集 humaneval 和 mbpp 上，豆包相比上一代模型提升了50%左右；在专业知识和指令遵循的评测集上，豆包分别获得33%和24%的性能提升，同时也是得分最高的国产模型。

综合11个公开评测集上的测试成绩，豆包通用模型-pro的总分为76.8分。根据openai公布的测试成绩，gpt-4在这些评测集上的总分为80.1分，相比国产模型仍有一定领先优势。（罗宁）

互联网协会反垃圾邮件工作委员会成员中国互联网协会理事单位

豆包大模型披露评测成绩，较上一代“云雀”提升19% -九游会国际

豆包大模型披露评测成绩，较上一代“云雀”提升19%

热门文章

推荐阅读