Zach Anderson
2026年2月27日 16:58
新的整合结合了Ray Data的分布式处理与Docling的文档解析功能,可在数小时内(而非数天)为RAG应用程序处理超过1万个复杂文件。
构建AI应用程序的企业团队刚刚获得了解决其最令人沮丧的瓶颈问题的方案。Anyscale详细介绍了如何将Ray Data与Docling结合使用,可将数周的文档处理工作转变为数小时——这一发展可能会加快拥有大量文档档案的公司的部署时间表。
这项技术整合解决了业内人士所称的检索增强生成系统中的"数据瓶颈"问题。虽然演示让生成式AI看起来很简单,但现实情况涉及处理数千个旧版PDF、复杂表格和嵌入式图像,而传统处理工具在处理这些方面表现不佳。
实际改变了什么
Ray Data的流式执行引擎同时在CPU和GPU任务之间传输数据。Python原生架构消除了在语言环境之间转换数据时困扰其他框架的序列化开销。对于运行批量推理或预处理大型数据集的团队来说,这意味着更快的迭代周期。
Docling处理了大多数传统工具无法处理的解析复杂性——准确提取表格和布局,同时保留语义结构。当与Ray Data整合时,每个工作节点在内存中运行一个带有嵌入式AI模型的Docling实例,实现大规模并行文档处理。
该架构的工作原理如下:Ray Data驱动程序管理执行并序列化任务代码以进行分发。工作节点直接从存储中读取数据块,并将处理后的JSON文件写入目标位置。驱动程序永远不会成为瓶颈,因为它不处理实际的数据吞吐量。
Kubernetes基础
KubeRay在Kubernetes上编排Ray集群,透明地处理从10个到100个节点的动态自动扩展。该系统包括工作节点故障时的自动恢复功能——这对于无法从头重新启动的大型数据摄取作业至关重要。
端到端流程将文档从对象存储移至解析和分块,在GPU节点上生成嵌入向量,并写入Milvus等向量数据库。然后RAG应用程序查询数据库,为大语言模型提供上下文。
包括Pinterest、DoorDash和Instacart在内的公司已经使用Ray Data进行最后一公里处理和模型训练,这表明该技术已证明其生产可行性。
超越简单搜索
这里更广泛的策略针对代理式AI工作流程,其中自主代理执行多步骤任务。随着代理依赖精确的文档代表用户行事,处理数据的质量变得更加关键。构建可扩展架构的组织现在正在为具有多个顺序大语言模型调用的高级推理链做好准备。
Red Hat OpenShift AI和Anyscale平台提供符合企业治理要求的部署选项。开源基础意味着团队可以在没有重大采购障碍的情况下开始测试。
对于目前在数据准备上花费的时间多于模型调优的AI团队来说,这种整合提供了一条实用的前进道路。问题不在于分布式文档处理是否重要——而在于你的基础设施是否能够处理接下来发生的事情。
图片来源:Shutterstock
来源:https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing


