← Back to Home
contain word challenge
评估模型生成的回复中是否包含指定次数的特定单词(如cat)
模型得分
| 模型 | cat_count | 得分 |
|---|---|---|
| deepseek-v4-flash | 3 | 100 |
| MiMo-V2-Flash | 4 | 90 |
数据来源
结果文件: ../evaluate/包含单词生成/结果.csv
得分文件: ../evaluate/包含单词生成/得分.csv