微软发布MarkItDown开源Python库兼容多种文件格式

中关村在线 2024-12-17 18:19:46

12月17日,微软在GitHub上发布了名为MarkItDown的开源Python库,该库可以将包括Office文档在内的多种文件格式转换为Markdown格式。通过该工具进行转换后,用户可以帮助文本索引、分析等多种应用场景,并且支持开发者利用大型语言模型来描述图像。

对于开发人员来说,在配置MarkItDown库时,只需要将mlm_client和mlm_model参数设置为MarkItDown对象即可。例如:

```

frommarkitdownimportMarkItDown

fromopenaiimportOpenAI

client=OpenAI

md=MarkItDown(mlm_client=client,mlm_model='gpt-4o')

result=md.convert("example.jpg")

print(result.text_content)

```

[编译自:微软发布MarkItDown开源Python库]

0 阅读:2

中关村在线

简介:最新最快最全的IT头条新闻资讯