OCR Samples of Image to Text Software

OCR accuracy depends on the quality of input images, fonts used, and language complexity (e.g., spacing, diacritics, or connected scripts).

Pre-processing steps like binarization, deskew, noise removal can improve recognition results.

Image to Text (OCR) software can process a wide range of world languages. This manual provides a comprehensive reference of supported languages, grouped by script and region, followed by a full catalog list.

1. Latin-based Languages

English
French
German
Spanish
Italian
Portuguese
Dutch
Danish
Norwegian
Swedish
Finnish
Polish
Czech
Slovak
Hungarian
Romanian
Turkish
Croatian
Serbian (Latin)
Slovenian
Bosnian
Albanian
Maltese
Icelandic
Estonian
Latvian
Lithuanian
Filipino
Vietnamese (Latin script)

2. Cyrillic-based Languages

Russian
Ukrainian
Bulgarian
Serbian (Cyrillic)
Macedonian
Belarusian
Kazakh
Kyrgyz
Mongolian (Cyrillic)
Tajik

3. East Asian Languages (CJK)

Simplified Chinese
Traditional Chinese
Japanese (Kanji, Hiragana, Katakana)
Korean (Hangul + Hanja)

4. South Asian (Indic Scripts)

Hindi (Devanagari)
Sanskrit
Marathi
Nepali
Konkani
Bengali
Assamese
Punjabi (Gurmukhi)
Gujarati
Oriya (Odia)
Tamil
Telugu
Kannada
Malayalam
Sinhala

5. Middle Eastern (RTL Scripts)

Arabic
Persian (Farsi)
Urdu
Pashto
Kurdish (Arabic script)
Hebrew
Syriac

6. Southeast Asian Languages

Thai
Lao
Khmer (Cambodian)
Burmese (Myanmar)
Javanese
Balinese

7. Other Scripts

Greek
Armenian
Georgian
Amharic (Ethiopic)
Tigrinya
Yiddish

Below is a consolidated alphabetical list for quick reference:

Afrikaans, Albanian, Amharic, Ancient Greek, Arabic, Armenian, Assamese, Azerbaijani, Basque, Belarusian, Bengali (Bangla), Bosnian, Breton, Bulgarian, Canadian Aboriginal Alphabet (Canadian First Nations), Catalan, Cebuano (Bisaya), Cherokee, Chinese Simplified, Corsican, Croatian, Cyrillic (Cyrillic scripts), Czech, Danish, Devanagari, Divehi, Dutch (Nederlands), Dzongkha, Esperanto, Estonian, Ethiopic Alphabet (Ge'ez), Faroese, Filipino, Financial Language Pack (spreadsheets & numbers), Finnish, Fraktur (Generic Fraktur), Frankish, French, Galician, Georgian, German, Greek, Gujarati, Gurmukhi Alphabet, Haitian (Kreyòl ayisyen), Han Simplified Alphabet (Samhan), Hangul (Hangul alphabet), Hebrew, Hindi, Hungarian, Icelandic, Indonesian (Bahasa Indonesia), Inuktitut, Irish (Gaeilge), Italian, Japanese (including vertical variants), Javanese, Kannada, Kazakh, Khmer, Korean, Kyrgyz, Lao, Latin, Latin Alphabet, Latvian, Lithuanian, Luxembourgish, Macedonian, Malay (bahasa Melayu), Malayalam, Maltese, Maori (te reo Māori), Marathi, MICR (Magnetic Ink Character Recognition), Middle English (English 1100–1500 AD), Middle French (Moyen Français), Mongolian, Myanmar (Burmese), Nepali, Northern Kurdish (Kurmanji), Norwegian, Occitan, Oriya (Odia), Panjabi (Punjabi), Pashto, Persian (Farsi), Polish, Portuguese, Quechua (Runa Simi), Romanian, Russian, Sanskrit, Scottish Gaelic (Gàidhlig), Serbian, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Syriac, Tagalog, Tajik, Tamil, Tatar, Telugu, Thaana Alphabet, Thai, Tibetan, Tigrinya, Tonga (faka Tonga), Turkish, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, Western Frisian, Yiddish, Yoruba

This section shows OCR samples across different writing systems to demonstrate the breadth of supported languages. Whether you are processing English reports, Chinese receipts, Arabic contracts, or Hindi forms, OCR recognition ensures text can be extracted accurately.

1. Albanian