Abstract:Mongolian is one of the most common written languages in China, Mongolia, and Russia. Many printed Mongolian documents still remain to be digitized for digital library applications. The traditional Mongolian script has a unique vertical cursive writing style and multiple font variations, which makes Mongolian Optical Character Recognition challenging. As the traditional Mongolian script has subcomponent characteristics, such that one character may be a constituent of another character, in this work we define a novel character set for recognition using segmented components. The components are combined into characters in a rule-based post-processing module. For overall character recognition, a method based on Visual Directional Features and multi-level classifiers is presented. For character segmentation, segmentation points are identified by analyzing the properties of projection profiles and connected components. Mongolian has dozens of different printed font types that can be categorized into two major groups, namely, standard and handwritten-style groups. The segmentation parameters are adjusted for each group. Additionally, script identification and relevant character recognition kernels are integrated for the recognition of Mongolian text mixed with Chinese and English. A novel multi-font printed Mongolian document recognition system based on the proposed methods is implemented. Experiments indicate a text recognition rate of 96.9% on the test samples from real documents with multiple font types and mixed script. The proposed methods can also be applied to other scripts in the Mongolian script family, such as Todo and Sibe, with significant potential for extension to historic Mongolian documents.

Uyghur, Chinese and English Multilingual Document Recognition

Word Level Script Recognition for Uighur Document Mixed with English Script.

Cross-Lingual Text Image Recognition Via Multi-Task Sequence to Sequence Learning.

Multi-font Printed Mongolian Document Recognition System

Multi-font Multi-Size Printed Uyghur Character Recognition

Printed Arabic Document Recognition System

Multilingual document recognition research and its application in China

<title>Printed Arabic document recognition system</title>

A Character Recognition Scheme Based on Object Oriented Design for Tibetan Buddhist Texts.

Braille-to-Chinese Translation System Based on Optical Braille Recognition

Realization of a high-performance bilingual Chinese-English OCR system

Cross-Language Sensitive Words Distribution Map: A Novel Recognition-Based Document Understanding Method for Uighur and Tibetan

Design And Development Of An Ancient Chinese Document Recognition System

Uyghur Text Matching in Graphic Images for Biomedical Semantic Analysis.

Design and implementation of prototype system for online handwritten Uyghur character recognition

Uyghur Character Models with Shared Structure Information for Segmentation-free Recognition under Low Data Resource Conditions

Advanced Topics in Character Recongition and Document Analysis: Research Works in Intelligent Image and Document Research Lab, Tsinghua University

A General Framework For Multi-Character Segmentation And Its Application In Recognizing Multilingual Asian Documents

Rejection Algorithm for Mis-segmented Characters in Multilingual Document Recognition

RNN Based Uyghur Text Line Recognition and Its Training Strategy

Th-Ocr: System For Multilingual Document Analysis, Recognition And Reconstruction