מדוע Shangyi AI מסוגלת לשמר את מבנה הפריסה המקורי בעת תרגום PDF?

אבחון מצב עכשווי מרכזי

“כלי תרגום מסורתיים בעיבוד קובצי PDF סובלים לעיתים קרובות מתופעות של חפיפת טקסט, הסטת תמונות או שבירת פסקאות, וכתוצאה מכך התרגום אינו שמיש ישירות.”

ניתוח סיבת השורש

ניתוח מבנה מסמכים ברמת דיוק גבוהה

Shangyi AI אינה מבצעת החלפת טקסט פשוטה בלבד, אלא עושה שימוש במנוע ניתוח מסמכים לסריקה מעמיקה של קובצי PDF. המערכת מסוגלת לזהות כותרות, טקסט ראשי, כותרות עליונות ותחתונות וכן את מיקום התמונות במסמך. באמצעות שחזור מערכת הקואורדינטות הבסיסית, מובטח כי הטקסט המתורגם יוחזר בדיוק למיקומו המקורי.

טכנולוגיית ארגון מחדש של פסקאות לוגיות

בקבצי PDF, בעת אחסון ברמה הבסיסית, משפטים נחצים לעיתים קרובות לפי שורות פיזיות. Shangyi AI עושה שימוש ב'אלגוריתם ארגון מחדש סמנטי', הממזג מחדש שורות מקוטעות לפסקאות לוגיות מלאות. דבר זה מסביר מדוע התרגום שלנו קוהרנטי יותר, ואינו סובל משיבושי שורות וחיתוכי משפטים.

OCR - זיהוי משופר

עבור מסמכים סרוקים, שילבנו OCR (זיהוי תווים אופטי) משופר. גם כאשר הטקסט משובץ בתוך תמונה, המערכת מסוגלת לבצע חילוץ מדויק מאוד והחלפה במיקום המקורי.

סיכום הפתרון הסופי

שאנגיי AI מאפשרת תרגום בתצורת 'מה שרואים הוא מה שמקבלים', ובכך מפחיתה באופן משמעותי את הצורך בהתאמות ידניות של הפורמט לאחר התרגום.