微软推出了一个专门用于评估大语言模型的整合性工具库:PromptBench
提供了一系列工具,包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击(即测试模型对恶意输入的抵抗力)等。
以支持研究人员从不同方面对LLMs进行评估和分析。
主要特点和功能:
1、支持多种模型和任务:能够评估多种不同的大语言模型,如GPT-4,以及多种任务,比如情感分析、语法检查等。
2、多种评估方式:提供标准评估、动态评估和语义评估等不同的评估方法,以全面测试模型的性能。
3、提示工程:实现了多种提示工程方法,例如:少量样本的思维链(Few-shot Chain-of-Thought)、情感提示(Emotion Prompt)、专家提示(Expert Prompting)等。
4、对抗性测试:集成了多种对抗性测试方法,用于检测模型对于恶意输入的反应和抵抗力。
5、分析工具:包括用于解释评估结果的分析工具,如可视化分析和词频分析。
6、易于使用:提供了一个界面,允许快速构建模型、加载数据集,并评估模型性能。可以通过简单的命令安装和使用,方便研究人员构建和运行评估管道。
7、支持的数据集和模型:支持多种数据集和模型,包括GLUE、MMLU、SQuAD V2、IWSLT 2017等。
8、支持的模型:
google/flan-t5-large
databricks/dolly-v1-6b
Llama2 series
vicuna-13b, vicuna-13b-v1.3
Cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
Google/flan-ul2
PaLM 2
ChatGPT
GPT-4
phi-1.5, phi-2
Gemini Pro
GitHub:https://t.co/PjvVBUe1a2
论文:https://t.co/8FoEq0ul6T
点击图片查看原图