让我们用大模型们继续做题看他们能做对多少

程序员有二十年 2024-08-26 12:26:32

对于小白来说,面对“如何让大语言模型做题”这一话题,脑海中呈现出的便是用户自己一题一题地输入给LLMs。然而,对于程序员来说,该如何让它自动地读取题库、进而测评呢?谭亲怡同学借这篇稿子具体介绍了如何将LLMs、Azure OpenAI服务和GaoKao-Bench项目配合使用,以测评不同大语言模型针对不同学科的做题能力。这里的题是指高考题,高考题啊,评测结果说老实话让我大吃一惊!

以下为评测方式的说明:

调用Azure OpenAI服务

完整流程可至Tutorial.pdf中查看

我们需要使用以下命令安装 OpenAI Python 客户端库

pip install openai

注册Azure AI Studio账号,转到Azure AI Studio中的资源和密钥,检索api key以及endpoint(两个必要参数),使得后续能成功调用Azure OpenAI

代码修改

以下将逐步展示本项目修改原代码的部分,完整流程可至Tutorial.pdf中查看

在vscode中打开GaoKao-Bench项目(确保以及克隆其仓库),在openai_gpt4.py中更改引用包的函数为AzureOpenAI

from openai import AzureOpenAI

更改base_url

def __init__(self, api_key_list:List[str], base_url: str="your_base_url", organization: str=None, model_name:str="your_model_name", temperature:float=0.3, max_tokens: int=4096):

0 阅读:0

程序员有二十年

简介:感谢大家的关注