POMA AI 实现业界领先的 RAG 分块与文档摄入，相比传统模型 Token 减少 77%

isobel 16 3 月, 2026

(SeaPRwire) – 智能分层分块是向量数据库嵌入的最佳数据准备方式

柏林，2026年3月16日——总部位于柏林的文档智能公司 POMA AI 今日发布了 POMA-OfficeQA，这是一个开源基准测试，表明其结构感知文档分块技术，与简单的文本分割以及 Unstructured.io 的元素提取方法相比，可将 RAG 检索成本降低 77%。

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

开箱即用，POMA PrimeCut 比传统模型少使用 77% 的令牌。在定制配置中使用时，该数字可提升至 83%。

“当今生产中运行的每一个 RAG 系统，在模型看到信息之前就已经丢失了信息，” POMA AI 创始人兼首席执行官 Alexander Kihm 博士表示。”行业一直在优化嵌入、重排器和提示工程，但实际上大多数检索失败都源于数据摄取层。这个基准测试量化了从业者凭直觉感受到的东西：结构感知分块是使下游一切真正发挥作用的基础。”

完整的基准测试已在 GitHub 上发布，该测试使用相同的嵌入模型、相同的检索逻辑以及针对 14 份美国财政部公告（约 2,150 页）提出的 20 个表格查找问题，比较了三种用于检索增强生成（RAG）的文档分块策略。测试衡量了每种方法检索正确回答事实性问题所需全部证据的能力，所用指标（上下文召回率）规定了检索系统为保证所有证据在检索到的上下文中可用所需的最小令牌预算。

结果显示，POMA 的分层分块技术——能够保留文档结构，包括表头、章节层次结构以及内容元素之间的语义关系——在实现 100% 上下文召回率时所需的令牌数减少了 77%：

基线（简单分块，500 令牌，100 重叠）：145 万
Unstructured.io（元素提取）：148 万
POMA AI（结构感知）：34 万

所有方法均使用 OpenAI 的 text-embedding-3-large 模型进行嵌入，并使用余弦相似度进行检索排序。通过对照源文档验证精确的分块索引来建立真实情况——消除了因偶然数字匹配而产生的误报。仅包含所有三种方法都能回答的问题，以确保公平比较。任何方法出现提取失败（OCR 错误、缺失值）的问题均被排除。

“让我们信服 POMA 的是其看似简单见解背后严谨的工程实践，” AdBlock 联合创始人、POMA AI 的投资人和顾问 Till Faida 表示。”他们专注于数据摄取层，这是整个流程中大家都认为已经解决的问题。这个基准测试表明事实并非如此。77% 的令牌减少改变了企业级规模运行 RAG 的经济效益。这正是我们所寻求的结构性优势。”

关于 POMA AI：POMA AI 是一家总部位于柏林的文档智能公司，致力于为企业 RAG 系统构建基础设施。其核心技术将复杂文档转换为语义连贯的块，以便进行向量搜索和大语言模型（LLM）消费。POMA 的 API 通过单次调用处理文档，并输出细粒度分块和分组块集，兼容任何嵌入模型和向量数据库。免费演示可在 POMA AI 官网上获取。更多关于 POMA AI 的信息可在 LinkedIn 或 X（Twitter）上找到。

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

POMA PrimeCut 的结构感知嵌入相比仅上下文嵌入显示出 119 倍的改进。

新闻垂询

Florian Athens
fa [at] poma-ai.com
https://poma-ai.com

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布，覆盖超过6,500个媒体库、86,000名编辑和记者，以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。

导航

Singapore News

Links

POMA AI 实现业界领先的 RAG 分块与文档摄入，相比传统模型 Token 减少 77%