Skip to main content
AWS Glue Data Catalog 是一个集中式的元数据仓库,允许您管理、访问和共享存储在 AWS 中的数据元数据。它充当数据资产的元数据存储,使各种 AWS 服务和您的应用程序能够高效地查询并连接到所需数据。 在 AWS Glue 中定义数据源、转换和目标时,这些元素的相关元数据会存储在 Data Catalog 中,包括数据位置信息、Schema 定义、运行时指标等。它支持多种数据存储类型,如 Amazon S3、Amazon RDS、Amazon Redshift 以及兼容 JDBC 的外部数据库,并与 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 直接集成,使这些服务可以直接访问和查询数据。 LangChain 的 GlueCatalogLoader 将以与 Pandas dtype 相同的格式获取指定 Glue 数据库中所有表的 Schema 信息。

配置

示例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
    database=database_name,
    profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

使用表过滤的示例

表过滤允许您有选择地检索 Glue 数据库中特定子集表的 Schema 信息。通过使用 table_filter 参数,可以精确指定您感兴趣的表,而无需加载所有表的 Schema。
from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
    database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)