12月17日,微软在GitHub上发布了名为MarkItDown的开源Python库,该库可以将包括Office文档在内的多种文件格式转换为Markdown格式。通过该工具进行转换后,用户可以帮助文本索引、分析等多种应用场景,并且支持开发者利用大型语言模型来描述图像。
对于开发人员来说,在配置MarkItDown库时,只需要将mlm_client和mlm_model参数设置为MarkItDown对象即可。例如:
```
frommarkitdownimportMarkItDown
fromopenaiimportOpenAI
client=OpenAI
md=MarkItDown(mlm_client=client,mlm_model='gpt-4o')
result=md.convert("example.jpg")
print(result.text_content)
```
[编译自:微软发布MarkItDown开源Python库]