介绍16个国外常用的大模型评估框架(LLMEvaluate)【收藏】

查理谈科技 2024-08-11 16:10:37

介绍16个国外常用的大模型评估框架,见下面的表格

序号

框架名称

评估考虑因素

链接地址

论文

1

BIG-bench(The Beyond the Imitation Game benchmark)

泛化能力包含204 项任务,由来自 132 家机构的 450 名作者贡献。

任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域。

BIG-bench 专注于被认为超出当前语言模型能力的任务。

https://github.com/google/BIG-bench

https://arxiv.org/abs/2206.04615

2

GLUE Benchmark

语法、释义、文本相似性、推理、文本蕴涵、解析代词指称

基于现有数据集构建的九个句子或句子对语言理解任务的基准,涵盖各种数据集大小、文本类型和难度,用于评估和分析模型在自然语言中发现的各种语言现象方面的表现的诊断数据集,以及用于跟踪基准表现的公共排行榜和用于可视化诊断集上模型表现的仪表板。

https://gluebenchmark.com/

https://openreview.net/pdf?id=rJ4km2R5t7

3

SuperGLUE Benchmark

自然语言理解、推理、理解训练数据以外的复杂句子、连贯且格式良好的自然语言生成、与人类对话、常识推理、信息检索、阅读理解

以 GLUE 为风格的新基准框架,包含一组更困难的语言理解任务、改进的资源和新的公共排行榜。

https://super.gluebenchmark.com/

https://w4ngatang.github.io/static/papers/superglue.pdf

4

OpenAI Moderation API

过滤有害或不安全的内容

https://platform.openai.com/docs/api-reference/moderations

5

MMLU

跨各种任务和领域的语言理解包含57项任务,包括初等数学、美国历史、计算机科学、法律等。

https://github.com/hendrycks/test

https://arxiv.org/abs/2009.03300

6

EleutherAI LM Eval

只需进行少量微调,即可在各种任务中进行小样本评估和性能测试。- 超过 60 个 LLM 标准学术基准,实施了数百个子任务和变体。

https://github.com/EleutherAI/lm-evaluation-harness

https://arxiv.org/abs/2402.07896

7

OpenAI Evals

生成文本的准确性、多样性、一致性、稳健性、可转移性、效率、公平性

https://github.com/openai/evals

8

Adversarial NLI (ANLI)

稳健性、泛化、推理的连贯解释、类似示例之间的推理一致性、资源使用效率(内存使用、推理时间和训练时间)

https://github.com/facebookresearch/anli

9

LIT (Language Interpretability Tool)

根据用户定义的指标进行评估的平台。洞察他们的优势、劣势和潜在偏见。

学习可解释性工具 (LIT) 是一种可视化、交互式 ML 模型理解工具,支持文本、图像和表格数据。

https://pair-code.github.io/lit/

https://arxiv.org/abs/2008.05122

10

ParlAI

准确度、F1 分数、困惑度(模型预测序列中下一个单词的准确度)、相关性、流畅度和连贯性等标准的人工评估、速度和资源利用率、稳健性(评估在不同条件下的性能,例如噪声输入、对抗性攻击或不同级别的数据质量)、泛化

https://github.com/facebookresearch/ParlAI

11

CoQA(Conversational Question Answering systems)

理解一段文本并回答对话中出现的一系列相互关联的问题。CoQA 是一个用于构建对话式问答系统的大型数据集。CoQA 挑战赛的目标是衡量机器理解文本段落和回答对话中出现的一系列相互关联的问题的能力CoQA 包含 127,000 多个问题,答案是从 8000 多个对话中收集的。

https://stanfordnlp.github.io/coqa/

https://arxiv.org/abs/1808.07042

12

LAMBADA

通过预测文章的最后一个单词来进行长期理解。

LAMBADA 是一系列叙事段落的集合,这些段落具有以下共同特点:如果人类受试者看到整个段落,他们能够猜出最后一个单词,但如果他们只看到目标单词前面的最后一句话,他们就猜不出最后一个单词。

https://zenodo.org/record/2630551#.ZFUKS-zML0p

13

HellaSwag

推理能力.

一个用于常识推理的新的数据集。

https://rowanzellers.com/hellaswag/

https://arxiv.org/pdf/1905.07830

14

LogiQA

逻辑推理能力,该数据集包含 8,678 个 QA 实例。(训练:7376;评估:651;测试:651)

https://github.com/lgw863/LogiQA-dataset

15

MultiNLI(多类型自然语言推理 (MultiNLI) 语料库)

理解不同类型句子之间的关系,MultiNLI是一个众包集合,包含 433k 个句子对,并标注了文本蕴涵信息。该语料库以 SNLI 语料库为蓝本

https://cims.nyu.edu/~sbowman/multinli/

16

SQUAD(Stanford Question Answering Dataset)

阅读理解任务.SQuAD2.0 将 SQuAD1.1 中的 100,000 个问题与 50,000 多个无法回答的问题结合起来

https://rajpurkar.github.io/SQuAD-explorer/



0 阅读:0

查理谈科技

简介:感谢大家的关注