My Site
Home
About
Blog
Projects
Contact
模型评测对比
大模型在不同任务上的表现对比
评测列表
word count challenge
评估模型生成的英文笑话是否符合指定的200单词数要求
contain word challenge
评估模型生成的回复中是否包含指定次数的特定单词(如cat)