4月15日,市场消息显示,马斯克领导的xai在人工智能大模型领域持续取得显著进展,其发展势头直指行业先锋openai。
继grok-1开源发布不到一个月,xai迅速推出了首个多模态模型。
昨日,该团队再次宣布推出升级版grok-1.5v,此模型突破仅理解文本的限制,现可处理包括文档、图表、截图和照片在内的多种内容形式。
官方博文声称,grok-1.5v在众多场景下的表现堪比行业内顶尖的多模态模型,无论是在多学科推理还是解读各类视觉资料方面。
此外,xai预告未来数月将在图像、音频和视频等模态上进一步提升模型能力。近期的测试比较显示,grok-1.5v在与gpt-4v、claude3sonnet、claude3opus和geminipro1.5等同类产品的对比中表现突出。
尤其值得一提的是,在xai新推出的realworldqa基准测试中,无需思维链提示的情况下,grok-1.5v对物理世界的理解能力尤为引人注目,其性能超越了市场上的其他竞品。