36氪获悉,自去年10月发布了VitaBench 1.0,美团LongCat团队再次推出VitaBench 2.0。VitaBench 2.0是首个真实生活场景下面向长期动态用户建模的智能体评测基准,它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。
美团LongCat开源 VitaBench2.0
未经允许不得转载:Donews采集站 » 美团LongCat开源 VitaBench2.0
36氪获悉,自去年10月发布了VitaBench 1.0,美团LongCat团队再次推出VitaBench 2.0。VitaBench 2.0是首个真实生活场景下面向长期动态用户建模的智能体评测基准,它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。

