Python+DuckDB直接查询CSV文件

明俊数据分析 2024-02-23 02:40:03

DuckDB 是一款嵌入式 SQL 数据库管理系统,专注于数据分析任务的高性能。它旨在作为 SQLite 针对复杂分析查询的高速替代品。DuckDB 的主要特点包括:

轻量级和易于部署:DuckDB 是单个库,可以轻松集成到各种数据科学生态系统中。针对OLAP(在线分析处理)的优化:与传统的OLTP(在线事务处理)数据库相比,DuckDB 针对分析查询进行了优化,支持高效的列式存储和矢量化查询执行。支持标准SQL:DuckDB 实现了广泛的 SQL 功能,包括复杂的查询、聚合、联接和窗口函数。无需服务器:DuckDB 无需安装和运行数据库服务器即可使用,非常适合分析流程和数据科学应用程序。支持多种数据源:可以直接查询包括CSV、Parquet等格式的文件,也可以轻松地与Pandas、R、Python等数据科学工具集成。使用Python和DuckDB查询CSV文件

下面是一个使用Python和DuckDB直接查询CSV文件的示例:

# pip install duckdb #如何没有安装DuckDB数据库,请先执行这行代码import duckdb# 指定CSV文件路径csv_file_path = 'your_file.csv'# 创建DuckDB查询query = f"""SELECT *FROM read_csv_auto('{csv_file_path}')WHERE your_condition;"""# 执行查询result = duckdb.query(query).fetchdf()print(result)

在这个示例中,read_csv_auto 函数是DuckDB提供的,用于直接读取CSV文件。your_condition 是你的SQL查询条件,你可以根据需求修改查询。最后,结果会以Pandas DataFrame的形式返回,方便后续的数据分析和处理。

0 阅读:4

明俊数据分析

简介:感谢大家的关注