← Back to Home

contain word challenge

评估模型生成的回复中是否包含指定次数的特定单词(如cat)

模型得分

模型cat_count得分
deepseek-v4-flash3100
MiMo-V2-Flash490
数据来源

结果文件: ../evaluate/包含单词生成/结果.csv

得分文件: ../evaluate/包含单词生成/得分.csv