对于小白来说,面对“如何让大语言模型做题”这一话题,脑海中呈现出的便是用户自己一题一题地输入给LLMs。然而,对于程序员来说,该如何让它自动地读取题库、进而测评呢?谭亲怡同学借这篇稿子具体介绍了如何将LLMs、Azure OpenAI服务和GaoKao-Bench项目配合使用,以测评不同大语言模型针对不同学科的做题能力。这里的题是指高考题,高考题啊,评测结果说老实话让我大吃一惊!
以下为评测方式的说明:
调用Azure OpenAI服务完整流程可至Tutorial.pdf中查看
我们需要使用以下命令安装 OpenAI Python 客户端库
pip install openai注册Azure AI Studio账号,转到Azure AI Studio中的资源和密钥,检索api key以及endpoint(两个必要参数),使得后续能成功调用Azure OpenAI
代码修改以下将逐步展示本项目修改原代码的部分,完整流程可至Tutorial.pdf中查看
在vscode中打开GaoKao-Bench项目(确保以及克隆其仓库),在openai_gpt4.py中更改引用包的函数为AzureOpenAI
from openai import AzureOpenAI更改base_url
def __init__(self, api_key_list:List[str], base_url: str="your_base_url", organization: str=None, model_name:str="your_model_name", temperature:float=0.3, max_tokens: int=4096):