为什么不建议用 Codex 这类 AI Agent 直接翻译 PDF?
商译AI
Jul 02, 2026

为什么不建议用 Codex 这类 AI Agent 直接翻译 PDF?
简短结论
AI agent 可以帮你读 PDF、问答、摘要、解释术语,也能辅助审校和润色重点段落。但如果你想得到一份格式稳定、可下载、可给同事或客户查看的 PDF 译文,直接让 agent 从零处理整份文件通常不是最稳的选择。
PDF 翻译的难点不只在翻译准确率。学术论文的双栏结构、工程资料的图表和注释、商务 PDF 的页眉页脚、扫描件的 OCR、漫画或图文混排内容的回填,都要求系统同时理解语言和页面结构。
所以更合理的分工是:需要理解内容时,用 Codex、ChatGPT Agent 这类工具;需要交付 PDF 译文时,使用 Shangyi AI(商译 AI) 这类专用文档翻译工具。
AI agent 能不能翻译 PDF?
能,但它更适合做"辅助理解",不一定适合作为"PDF 交付工具"。
比如你可以让 agent 快速概括一篇外文论文,解释某段工程规范,提取合同里的风险条款,或者检查一段译文是否自然。这些任务本质上是内容理解和语言判断,agent 很擅长。
但完整 PDF 翻译还要处理版面。PDF 里的文字可能不是连续段落,而是散落在页面坐标上的文本块;扫描 PDF 甚至没有真实文本层,只是一张图片;图注、脚注、表格、页码和水印也可能被误读或乱序。
这些问题不能只靠提示词解决,需要专门的版面解析、OCR、翻译、回填和视觉校验流程。
AI agent vs 专用 PDF 翻译工具
| 维度 | AI agent | 专用 PDF 翻译工具 |
|---|---|---|
| 适合任务 | 阅读、摘要、问答、重点段落润色、译后审校 | 翻译整份 PDF,并输出可下载译文 |
| 典型场景 | 临时读论文、理解合同、解释术语、做内容复核 | 学术论文、工程文件、商务 PDF、扫描件、图文混排资料 |
| 版式处理 | 需要临时抽取、截图、OCR 或写脚本,结果依赖文件复杂度 | 有固定的版面解析、OCR、重建和质量检查流程 |
| 成本变化 | 长文档、多轮校对和失败重试会放大成本 | 更适合按文档统计和页面流程做成本预估 |
| 扫描件 | 需要额外 OCR 与坐标回填,容易漏字或错位 | 通常内置 OCR、页面定位和译文回填能力 |
| 交付体验 | 更适合输出解释和审校建议 | 更适合预览、下载、分享和后续审校 |
PDF 翻译为什么不是普通文本翻译?
PDF 的设计目标是让文件在不同设备上看起来一样,而不是让内容容易编辑。因此,PDF 翻译常常要同时处理文字、页面坐标、图片、字体、表格和阅读顺序。
一份看似普通的 PDF,实际可能包含很多隐性问题:
- 双栏论文需要判断先读左栏还是右栏。
- 工程图纸和技术资料里有大量图注、编号、表格和单位。
- 商务文件的页眉页脚、印章、水印不一定都应该翻译。
- 扫描件需要 OCR,且 OCR 结果还要放回页面位置。
- 漫画、宣传册、图文混排文件需要处理文字遮挡和排版回填。
这就是为什么 PDF 翻译更像"文档理解 + 翻译 + 版面重建"的组合任务。agent 可以辅助其中的语言判断,但专用工具更适合承担整份文件的稳定处理。
如果你关心 PDF 翻译后的格式保持,可以参考商译 AI 的 PDF 文档翻译策略;如果处理的是工程或技术资料,也可以看技术文档翻译挑战解析。
长 PDF 会让 agent 成本变得不稳定
很多人会以为:PDF 页数翻倍,agent 成本也只是翻倍。短文件或纯文本场景下,这个估算大体成立。但长 PDF、扫描件和复杂排版通常不是这样。
为了保证上下文一致,agent 可能需要反复携带术语表、前文摘要、已翻译段落、页面截图、OCR 结果和校对意见。每增加一轮检查,都会增加新的输入和工具调用。
复杂 PDF 往往还要经历多轮返工:
- 抽取文本和页面元素。
- 判断阅读顺序。
- 翻译正文、表格和图注。
- 检查术语一致性。
- 修正 OCR 错误。
- 尝试回填版式。
- 发现溢出、遮挡、漏翻后重试。
所以对于几十页论文、上百页工程资料或大量扫描件,成本可能从近似线性变成超线性。真正耗费的不是某一段翻译,而是重复读取、失败重试和人工检查。
什么时候可以用 agent?
当你只是想快速理解 PDF,agent 很合适。
典型用法包括:
- 总结一篇外文论文的研究问题、方法和结论。
- 解释工程规范或技术手册里的关键段落。
- 提取合同或商务文件中的风险点。
- 生成术语表草案,方便后续统一译法。
- 对比原文和译文,找出可能的误译。
- 对重点段落做中文润色或风格调整。
也就是说,agent 更像一个随叫随到的分析助手,适合帮你"看懂"和"判断"。
什么时候应该用 Shangyi AI(商译 AI)?
如果你的目标是拿到一份可以保存、分享、审校或交付的译文文件,就更适合用商译 AI 这类专用工具。
尤其是下面这些场景:
- 学术论文、研究报告、行业白皮书。
- 工程技术资料、产品说明书、投标文件。
- 扫描 PDF 或图片型文件。
- 含表格、图注、脚注、双栏、多栏的复杂 PDF。
- 同一团队还要处理漫画、短剧字幕等多种本地化文件,希望工作流统一。
- 需要先预览翻译效果,再决定是否完成全文翻译。
- 需要术语一致,不能一份文件里同一个词出现多种译法。
- 需要团队成员或客户直接查看译文 PDF。
商译 AI 的翻译预览功能适合在正式翻译前检查质量和排版;如果你经常处理行业术语,可以参考商译 AI 术语表指南。如果你的文件是漫画或图文混排内容,也可以了解漫画翻译中的重绘与排版问题。
FAQ
AI agent 翻译 PDF 的成本是线性增长吗?
不一定。短 PDF 或文本层清晰的文件通常接近线性增长;长 PDF、扫描件、复杂表格、图文混排和多轮审校会让成本变得超线性。主要原因是上下文重复、OCR、工具调用、版式回填和失败重试。
为什么 PDF 版式这么难还原?
因为 PDF 关注的是页面显示效果,不是可编辑文本结构。翻译后文字长度会变化,原来的文本框可能放不下;表格、图片、脚注、页眉页脚和多栏阅读顺序也需要重新判断和校验。
Codex 或 ChatGPT Agent 完全不能用于 PDF 翻译吗?
不是。它们适合用来读懂文件、解释段落、提取术语、总结重点和辅助审校。只是当目标是输出整份高保真 PDF 译文时,专用 PDF 翻译工具通常更稳定。
扫描 PDF 为什么更难?
扫描 PDF 本质上是图片。系统必须先 OCR 识别文字,再定位到页面坐标,并处理倾斜、模糊、背景干扰、手写标注和图片遮挡。识别和回填任何一步出错,都会影响最终译文。
推荐的工作流是什么?
更稳的方式是:先用商译 AI 生成可预览、可下载的译文文件,再用 agent 对关键段落、术语和专业表达做复核。这样能兼顾版式交付和语言审校。
结论
AI agent 很适合做 PDF 阅读助手,但不一定适合作为整份 PDF 翻译交付系统。PDF 翻译真正困难的地方,是语言、OCR、版面、阅读顺序和视觉校验叠加在一起。
需要快速读懂内容时,可以用 agent。需要交付译文 PDF 时,建议使用 Shangyi AI(商译 AI) 文档翻译,先看预览,再完成全文翻译。