Skip to main content
Apache Spark 是一个用于大规模数据处理的统一分析引擎。 它提供 Scala、Java、Python 和 R 的高级 API,以及支持通用数据分析计算图的优化引擎。 它还支持丰富的高级工具集,包括用于 SQL 和 DataFrame 的 Spark SQL、 用于 Pandas 工作负载的 pandas API on Spark、 用于机器学习的 MLlib、 用于图处理的 GraphX,以及用于流处理的 Structured Streaming

文档加载器

PySpark

PySpark DataFrame 加载数据。 查看使用示例
from langchain_community.document_loaders import PySparkDataFrameLoader

工具/工具包

Spark SQL 工具包

用于与 Spark SQL 交互的工具包。 查看使用示例
from langchain_community.agent_toolkits import SparkSQLToolkit, create_spark_sql_agent
from langchain_community.utilities.spark_sql import SparkSQL

Spark SQL 单独工具

您可以使用 Spark SQL 工具包中的单独工具:
  • InfoSparkSQLTool:用于获取 Spark SQL 元数据的工具
  • ListSparkSQLTool:用于获取表名称的工具
  • QueryCheckerTool:使用 LLM 检查查询是否正确的工具
  • QuerySparkSQLTool:用于查询 Spark SQL 的工具
from langchain_community.tools.spark_sql.tool import InfoSparkSQLTool
from langchain_community.tools.spark_sql.tool import ListSparkSQLTool
from langchain_community.tools.spark_sql.tool import QueryCheckerTool
from langchain_community.tools.spark_sql.tool import QuerySparkSQLTool