新浪科技讯 5月27日上午消息,在火山引擎最新披露的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 mmlu、bbh、gsm8k、humaneval等11个业界主流的公开评测集上,doubao-pro-4k 的总分为76.8分,相比上一代模型云雀skylark2 的64.5分提升了19%,也优于同期测试的其他国产模型。
据悉,此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀skylark2 在内的九款国产大语言模型。除了云雀skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过api调用进行测试。
评测结果显示,在评估代码能力的两个评测集 humaneval 和 mbpp 上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。
综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据openai公布的测试成绩,gpt-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。(罗宁)