LogEval排行榜
关于LogEval
LogEval是一个全面的基准测试套件,用于评估大型语言模型在日志解析、异常检测、故障诊断和日志总结方面的能力。LogEval使用公开的4,000日志数据条目和每个任务的15个不同提示,以严格评估多个主流大型语言模型。我们将演示大型语言模型在自我一致性和少镜头学习中的表现,并讨论与模型量化相关的研究结果,问答评价,提示工程。LogEval的评估结果揭示了大型语言模型在日志分析任务的优势和局限性,为研究人员选择此类任务的模型提供有价值的参考。我们将不断更新模型评估,以促进进一步的研究和开发。
引用
@misc{cui2024logevalcomprehensivebenchmarksuite, title={LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis}, author={Tianyu Cui and Shiyu Ma and Ziang Chen and Tong Xiao and Shimin Tao and Yilun Liu and Shenglin Zhang and Duoming Lin and Changchang Liu and Yuzhe Cai and Weibin Meng and Yongqian Sun and Dan Pei}, year={2024}, eprint={2407.01896}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.01896}, }
排行榜
更新时间 :
模型 | 中文 | 英文 | ||||
---|---|---|---|---|---|---|
正确率 | 编辑距离 | 正确率 | 编辑距离 | |||
模型 | 中文 | 英文 | ||||
正确率 | F1评分 | 正确率 | F1评分 | |||
模型 | 中文 | 英文 | ||||
正确率 | F1评分 | F1评分方差 | 正确率 | F1评分 | F1评分方差 |
对应论文章节: