让我们用大模型们继续做题看他们能做对多少

对于小白来说，面对“如何让大语言模型做题”这一话题，脑海中呈现出的便是用户自己一题一题地输入给LLMs。然而，对于程序员来说，该如何让它自动地读取题库、进而测评呢？谭亲怡同学借这篇稿子具体介绍了如何将LLMs、Azure OpenAI服务和GaoKao-Bench项目配合使用，以测评不同大语言模型针对不同学科的做题能力。这里的题是指高考题，高考题啊，评测结果说老实话让我大吃一惊！

以下为评测方式的说明：

调用Azure OpenAI服务

完整流程可至Tutorial.pdf中查看

我们需要使用以下命令安装 OpenAI Python 客户端库

pip install openai

注册Azure AI Studio账号，转到Azure AI Studio中的资源和密钥，检索api key以及endpoint（两个必要参数），使得后续能成功调用Azure OpenAI

代码修改

以下将逐步展示本项目修改原代码的部分，完整流程可至Tutorial.pdf中查看

在vscode中打开GaoKao-Bench项目（确保以及克隆其仓库），在openai_gpt4.py中更改引用包的函数为AzureOpenAI

from openai import AzureOpenAI

更改base_url

def __init__(self, api_key_list:List[str], base_url: str="your_base_url", organization: str=None, model_name:str="your_model_name", temperature:float=0.3, max_tokens: int=4096):

世良情感网

让我们用大模型们继续做题看他们能做对多少

程序员有二十年