为什么不建议用 Codex 这类 AI Agent 直接翻译 PDF？

简短结论

AI agent 可以帮你读 PDF、问答、摘要、解释术语，也能辅助审校和润色重点段落。但如果你想得到一份格式稳定、可下载、可给同事或客户查看的 PDF 译文，直接让 agent 从零处理整份文件通常不是最稳的选择。

PDF 翻译的难点不只在翻译准确率。学术论文的双栏结构、工程资料的图表和注释、商务 PDF 的页眉页脚、扫描件的 OCR、漫画或图文混排内容的回填，都要求系统同时理解语言和页面结构。

所以更合理的分工是：需要理解内容时，用 Codex、ChatGPT Agent 这类工具；需要交付 PDF 译文时，使用 Shangyi AI(商译 AI) 这类专用文档翻译工具。

AI agent 能不能翻译 PDF？

能，但它更适合做"辅助理解"，不一定适合作为"PDF 交付工具"。

比如你可以让 agent 快速概括一篇外文论文，解释某段工程规范，提取合同里的风险条款，或者检查一段译文是否自然。这些任务本质上是内容理解和语言判断，agent 很擅长。

但完整 PDF 翻译还要处理版面。PDF 里的文字可能不是连续段落，而是散落在页面坐标上的文本块；扫描 PDF 甚至没有真实文本层，只是一张图片；图注、脚注、表格、页码和水印也可能被误读或乱序。

这些问题不能只靠提示词解决，需要专门的版面解析、OCR、翻译、回填和视觉校验流程。

AI agent vs 专用 PDF 翻译工具

维度	AI agent	专用 PDF 翻译工具
适合任务	阅读、摘要、问答、重点段落润色、译后审校	翻译整份 PDF，并输出可下载译文
典型场景	临时读论文、理解合同、解释术语、做内容复核	学术论文、工程文件、商务 PDF、扫描件、图文混排资料
版式处理	需要临时抽取、截图、OCR 或写脚本，结果依赖文件复杂度	有固定的版面解析、OCR、重建和质量检查流程
成本变化	长文档、多轮校对和失败重试会放大成本	更适合按文档统计和页面流程做成本预估
扫描件	需要额外 OCR 与坐标回填，容易漏字或错位	通常内置 OCR、页面定位和译文回填能力
交付体验	更适合输出解释和审校建议	更适合预览、下载、分享和后续审校

PDF 翻译为什么不是普通文本翻译？

PDF 的设计目标是让文件在不同设备上看起来一样，而不是让内容容易编辑。因此，PDF 翻译常常要同时处理文字、页面坐标、图片、字体、表格和阅读顺序。

一份看似普通的 PDF，实际可能包含很多隐性问题：

双栏论文需要判断先读左栏还是右栏。
工程图纸和技术资料里有大量图注、编号、表格和单位。
商务文件的页眉页脚、印章、水印不一定都应该翻译。
扫描件需要 OCR，且 OCR 结果还要放回页面位置。
漫画、宣传册、图文混排文件需要处理文字遮挡和排版回填。

这就是为什么 PDF 翻译更像"文档理解 + 翻译 + 版面重建"的组合任务。agent 可以辅助其中的语言判断，但专用工具更适合承担整份文件的稳定处理。

如果你关心 PDF 翻译后的格式保持，可以参考商译 AI 的 PDF 文档翻译策略；如果处理的是工程或技术资料，也可以看技术文档翻译挑战解析。

长 PDF 会让 agent 成本变得不稳定

很多人会以为：PDF 页数翻倍，agent 成本也只是翻倍。短文件或纯文本场景下，这个估算大体成立。但长 PDF、扫描件和复杂排版通常不是这样。

为了保证上下文一致，agent 可能需要反复携带术语表、前文摘要、已翻译段落、页面截图、OCR 结果和校对意见。每增加一轮检查，都会增加新的输入和工具调用。

复杂 PDF 往往还要经历多轮返工：

抽取文本和页面元素。
判断阅读顺序。
翻译正文、表格和图注。
检查术语一致性。
修正 OCR 错误。
尝试回填版式。
发现溢出、遮挡、漏翻后重试。

所以对于几十页论文、上百页工程资料或大量扫描件，成本可能从近似线性变成超线性。真正耗费的不是某一段翻译，而是重复读取、失败重试和人工检查。

什么时候可以用 agent？

当你只是想快速理解 PDF，agent 很合适。

典型用法包括：

总结一篇外文论文的研究问题、方法和结论。
解释工程规范或技术手册里的关键段落。
提取合同或商务文件中的风险点。
生成术语表草案，方便后续统一译法。
对比原文和译文，找出可能的误译。
对重点段落做中文润色或风格调整。

也就是说，agent 更像一个随叫随到的分析助手，适合帮你"看懂"和"判断"。

什么时候应该用 Shangyi AI(商译 AI)？

如果你的目标是拿到一份可以保存、分享、审校或交付的译文文件，就更适合用商译 AI 这类专用工具。

尤其是下面这些场景：

学术论文、研究报告、行业白皮书。
工程技术资料、产品说明书、投标文件。
扫描 PDF 或图片型文件。
含表格、图注、脚注、双栏、多栏的复杂 PDF。
同一团队还要处理漫画、短剧字幕等多种本地化文件，希望工作流统一。
需要先预览翻译效果，再决定是否完成全文翻译。
需要术语一致，不能一份文件里同一个词出现多种译法。
需要团队成员或客户直接查看译文 PDF。

商译 AI 的翻译预览功能适合在正式翻译前检查质量和排版；如果你经常处理行业术语，可以参考商译 AI 术语表指南。如果你的文件是漫画或图文混排内容，也可以了解漫画翻译中的重绘与排版问题。

FAQ

AI agent 翻译 PDF 的成本是线性增长吗？

不一定。短 PDF 或文本层清晰的文件通常接近线性增长；长 PDF、扫描件、复杂表格、图文混排和多轮审校会让成本变得超线性。主要原因是上下文重复、OCR、工具调用、版式回填和失败重试。

为什么 PDF 版式这么难还原？

因为 PDF 关注的是页面显示效果，不是可编辑文本结构。翻译后文字长度会变化，原来的文本框可能放不下；表格、图片、脚注、页眉页脚和多栏阅读顺序也需要重新判断和校验。

Codex 或 ChatGPT Agent 完全不能用于 PDF 翻译吗？

不是。它们适合用来读懂文件、解释段落、提取术语、总结重点和辅助审校。只是当目标是输出整份高保真 PDF 译文时，专用 PDF 翻译工具通常更稳定。

扫描 PDF 为什么更难？

扫描 PDF 本质上是图片。系统必须先 OCR 识别文字，再定位到页面坐标，并处理倾斜、模糊、背景干扰、手写标注和图片遮挡。识别和回填任何一步出错，都会影响最终译文。

推荐的工作流是什么？

更稳的方式是：先用商译 AI 生成可预览、可下载的译文文件，再用 agent 对关键段落、术语和专业表达做复核。这样能兼顾版式交付和语言审校。

结论

AI agent 很适合做 PDF 阅读助手，但不一定适合作为整份 PDF 翻译交付系统。PDF 翻译真正困难的地方，是语言、OCR、版面、阅读顺序和视觉校验叠加在一起。

需要快速读懂内容时，可以用 agent。需要交付译文 PDF 时，建议使用 Shangyi AI(商译 AI) 文档翻译，先看预览，再完成全文翻译。

为什么不建议用 Codex 这类 AI Agent 直接翻译 PDF？