arXiv

synthocr-gen: синтетичний генератор набору даних ocr для мов із низьким ресурсом – долаючи бар’єр даних

Оптичне розпізнавання символів (OCR) для мов із низьким ресурсом залишається серйозною проблемою через дефіцит великомасштабних анотованих навчальних наборів даних.Такі мови, як кашмірі, з приблизно 7 мільйонами носіїв і складною персо-арабською писемністю з унікальними діакритичними знаками, наразі не підтримуються в основних системах OCR, включаючи Tesseract, TrOCR і PaddleOCR.Ручне створення набору даних для таких мов є надзвичайно дорогим, трудомістким і схильним до помилок, часто вимагає дослівної транскрипції друкованого чи рукописного тексту.Ми представляємо SynthOCR-Gen, генератор синтетичних наборів даних OCR з відкритим кодом, спеціально розроблений для мов із низьким ресурсом.Наш інструмент усуває фундаментальне вузьке місце в розробці OCR, перетворюючи цифрові текстові корпуси Unicode у готові до використання навчальні набори даних.Система реалізує комплексний конвеєр, що включає сегментацію тексту (рівні символів, слів, n-грам, речень і рядків), нормалізацію Юнікоду з перевіркою чистоти сценарію, рендеринг кількох шрифтів із настроюваним розподілом і понад 25 методів доповнення даних, що імітують погіршення якості документа в реальному світі, включаючи обертання, розмиття, шум і артефакти сканера.Ми демонструємо ефективність нашого підходу, створюючи 600 000 зразків даних кашмірського оптичного розпізнавання символів, які ми оприлюднюємо на HuggingFace.Ця робота забезпечує практичний шлях для переведення мов із низьким ресурсом в еру моделей штучного інтелекту на основі візуальної мови, а інструмент відкрито доступний для дослідників і практиків, які працюють із недостатньо обслуговуваними системами письма по всьому світу.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 22, 2026
Read time
1 min read
Primary lane
Cs.cl

Quick read

1 bullets
  • Оптичне розпізнавання символів (OCR) для мов із низьким ресурсом залишається серйозною проблемою через дефіцит великомасштабних анотованих навчальних наборів даних.Такі мови, як кашмірі, з приблизно 7 мільйонами носіїв і складною персо-арабською писемністю з унікальними діакритичними знаками, наразі не підтримуються в основних системах OCR, включаючи Tesseract, TrOCR і PaddleOCR.Ручне створення набору даних для таких мов є надзвичайно дорогим, трудомістким і схильним до помилок, часто вимагає дослівної транскрипції друкованого чи рукописного тексту.Ми представляємо SynthOCR-Gen, генератор синтетичних наборів даних OCR з відкритим кодом, спеціально розроблений для мов із низьким ресурсом.Наш інструмент усуває фундаментальне вузьке місце в розробці OCR, перетворюючи цифрові текстові корпуси Unicode у готові до використання навчальні набори даних.Система реалізує комплексний конвеєр, що включає сегментацію тексту (рівні символів, слів, n-грам, речень і рядків), нормалізацію Юнікоду з перевіркою чистоти сценарію, рендеринг кількох шрифтів із настроюваним розподілом і понад 25 методів доповнення даних, що імітують погіршення якості документа в реальному світі, включаючи обертання, розмиття, шум і артефакти сканера.Ми демонструємо ефективність нашого підходу, створюючи 600 000 зразків даних кашмірського оптичного розпізнавання символів, які ми оприлюднюємо на HuggingFace.Ця робота забезпечує практичний шлях для переведення мов із низьким ресурсом в еру моделей штучного інтелекту на основі візуальної мови, а інструмент відкрито доступний для дослідників і практиків, які працюють із недостатньо обслуговуваними системами письма по всьому світу.

Чому це важливо

Оптичне розпізнавання символів (OCR) для мов із низьким ресурсом залишається серйозною проблемою через дефіцит великомасштабних анотованих навчальних наборів даних.Такі мови, як кашмірі, з приблизно 7 мільйонами носіїв і складною персо-арабською писемністю з унікальними діакритичними знаками, наразі не підтримуються в основних системах OCR, включаючи Tesseract, TrOCR і PaddleOCR.Ручне створення набору даних для таких мов є надзвичайно дорогим, трудомістким і схильним до помилок, часто вимагає дослівної транскрипції друкованого чи рукописного тексту.Ми представляємо SynthOCR-Gen, генератор синтетичних наборів даних OCR з відкритим кодом, спеціально розроблений для мов із низьким ресурсом.Наш інструмент усуває фундаментальне вузьке місце в розробці OCR, перетворюючи цифрові текстові корпуси Unicode у готові до використання навчальні набори даних.Система реалізує комплексний конвеєр, що включає сегментацію тексту (рівні символів, слів, n-грам, речень і рядків), нормалізацію Юнікоду з перевіркою чистоти сценарію, рендеринг кількох шрифтів із настроюваним розподілом і понад 25 методів доповнення даних, що імітують погіршення якості документа в реальному світі, включаючи обертання, розмиття, шум і артефакти сканера.Ми демонструємо ефективність нашого підходу, створюючи 600 000 зразків даних кашмірського оптичного розпізнавання символів, які ми оприлюднюємо на HuggingFace.Ця робота забезпечує практичний шлях для переведення мов із низьким ресурсом в еру моделей штучного інтелекту на основі візуальної мови, а інструмент відкрито доступний для дослідників і практиків, які працюють із недостатньо обслуговуваними системами письма по всьому світу.

Builder takeaway

arXiv published this update in the Cs.cl lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Оптичне розпізнавання символів (OCR) для мов із низьким ресурсом залишається серйозною проблемою через дефіцит великомасштабних анотованих навчальних наборів даних.Такі мови, як кашмірі, з приблизно 7 мільйонами носіїв і складною персо-арабською писемністю з унікальними діакритичними знаками, наразі не підтримуються в основних системах OCR, включаючи Tesseract, TrOCR і PaddleOCR.Ручне створення набору даних для таких мов є надзвичайно дорогим, трудомістким і схильним до помилок, часто вимагає дослівної транскрипції друкованого чи рукописного тексту.Ми представляємо SynthOCR-Gen, генератор синтетичних наборів даних OCR з відкритим кодом, спеціально розроблений для мов із низьким ресурсом.Наш інструмент усуває фундаментальне вузьке місце в розробці OCR, перетворюючи цифрові текстові корпуси Unicode у готові до використання навчальні набори даних.Система реалізує комплексний конвеєр, що включає сегментацію тексту (рівні символів, слів, n-грам, речень і рядків), нормалізацію Юнікоду з перевіркою чистоти сценарію, рендеринг кількох шрифтів із настроюваним розподілом і понад 25 методів доповнення даних, що імітують погіршення якості документа в реальному світі, включаючи обертання, розмиття, шум і артефакти сканера.Ми демонструємо ефективність нашого підходу, створюючи 600 000 зразків даних кашмірського оптичного розпізнавання символів, які ми оприлюднюємо на HuggingFace.Ця робота забезпечує практичний шлях для переведення мов із низьким ресурсом в еру моделей штучного інтелекту на основі візуальної мови, а інструмент відкрито доступний для дослідників і практиків, які працюють із недостатньо обслуговуваними системами письма по всьому світу.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.