TensorFlow Datasets 是一组可供 TensorFlow 或其他 Python 机器学习框架(如 Jax)直接使用的数据集集合。所有数据集都以 tf.data.Datasets 形式提供,支持便捷高效的输入流水线。入门请参阅指南和数据集列表。本笔记本演示如何将
TensorFlow Datasets 加载为下游使用的 Document 格式。
安装
您需要安装tensorflow 和 tensorflow-datasets Python 包。
示例
以mlqa/en 数据集为例。
MLQA(多语言问答数据集)是一个用于评估多语言问答性能的基准数据集。包含 7 种语言:阿拉伯语、德语、西班牙语、英语、印地语、越南语、中文。
- 主页:github.com/facebookresearch/MLQA
- 源码:
tfds.datasets.mlqa.Builder- 下载大小:72.21 MiB
context 字段作为 Document.page_content,其他字段放入 Document.metadata。
TensorflowDatasetLoader 具有以下参数:
dataset_name:要加载的数据集名称split_name:要加载的数据集分割名称,默认为 “train”load_max_docs:加载文档数量的上限,默认为 100sample_to_document_function:将数据集样本转换为 Document 的函数
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时解答。

