存档格式 (CBZ/CBR)： 这是爱好者常用的标准，本质上属于图片压缩包（ZIP/RAR）的封装形式。我们的系统必须能够解包，并按正确顺序读取内部的 JPEG/PNG 图像序列。
文档格式 (PDF)： 这是许多官方发布采用的标准。PDF 的处理更为复杂，既可能为图片，也可能包含矢量图形和嵌入文本，因此我们的解析器需要同时兼容多种类型。
流媒体格式 (Webtoons)： 这是增长最快的领域，也是最具挑战性的环节。条漫专为移动设备设计，展现方式为垂直滚动的长图流。它没有“页”的概念，其排版、留白和断句本身就是叙事节奏的一部分。

我们的 AI pipeline 必须能够接收所有这些格式，并将其归一化为可处理的视觉和文本数据。

挑战二：真正的瓶颈——20%翻译，80%“P 图”

当我们调研传统汉化组或专业本地化团队的工作流时，发现了一个重要事实：纯文本翻译（Translation）可能只占 20% 的工作量，真正的瓶颈在于两个高度依赖人工的艺术创作环节：

1. 痛点之王：重绘 (Redrawing)

问题： 漫画中的拟声词（SFX，如“轰！”、“唰”）是艺术的一部分，它们与背景、角色线条甚至特效深度融合。
人工地狱： 你不能简单地“盖住”它。修图师（Redrawer）必须启动 Photoshop，犹如文物修复专家，使用仿制图章和画笔，手动将被遮挡的背景重新绘制出来。复杂的跨页拟声词，可能需要熟练的美工人员耗费数小时。

问题： 日语和韩语的文本通常非常简短，但在翻译成中文或英文后，文本长度会显著增加。
人工地狱： 嵌字师需要将更长的译文，**手动“塞回”**原本尺寸固定的对话框（气泡）中。这需要反复调整字号、断行和字距，既要确保可读性，又不能破坏画面的美感。在条漫中，还涉及对垂直阅读节奏的重新设计。

传统的AI翻译工具在这一环节完全无能为力。它们提供的Word文档，对修图师和嵌字师几乎没有任何帮助。

Shangyi AI（商译 AI）的设计理念是：我们交付的不是译文，而是“最终成品”。

为此，我们构建了一个集 OCR、AI 绘图与版面还原于一体的智能引擎：

我们的第一步不是翻译，而是“解构”。

我们的 OCR 技术不仅能识别文本，更重要的是能够进行版面分析（Layout Analysis），可精准区分：

同时，它能够理解阅读顺序（Manga 的从右到左，Webtoon 的从上到下），为后续工作建立索引。

这是我们的核心技术。当 OCR 识别出 SFX 并将其移除后，所留下的“空洞”会立即由我们的 AI 绘图（Inpainting）模型接管。

它如何工作？ 我们并未采用通用 AI 模型，而是采用了基于大规模漫画线条和网点纸风格训练的专用模型。它能够“理解”漫画的艺术风格（线条的粗细、阴影的排线、网点的密度），并以生成式方式“补全”背景和边缘区域。
效果：对于简单的背景，其处理几乎瞬时完成。对于复杂的人物线条遮挡，其生成结果也极大降低了人工修正的成本，直接解决了“重绘”这一最大痛点。