OCR - технології для розпізнавання паперових документів

OCR-технології для розпізнавання паперових документів

Оптичне розпізнавання тексту (англ. optical character recognition, OCR) — це механічне або електронне переведення зображень рукописного, машинописного або друкованого тексту в послідовність кодів, що використовуються для представлення в текстовому редакторі. Розпізнавання широко використовується для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі або для публікації тексту на веб-сторінці. Оптичне розпізнавання тексту дозволяє редагувати текст, здійснювати пошук слова або фрази, зберігати його в компактнішій формі, демонструвати або роздруковувати матеріал, не втрачаючи якості, аналізувати інформацію, а також застосовувати до тексту електронний переклад, форматування або перетворення в мовлення. Оптичне розпізнавання тексту є досліджуваною проблемою в галузях розпізнавання образів, штучного інтелекту і комп'ютерного зору.

Системи оптичного розпізнавання тексту вимагають калібрування для роботи з конкретним шрифтом; у ранніх версіях, для програмування було необхідно зображення кожного символу, програма одночасно могла працювати тільки з одним шрифтом. Зараз найпоширеніші так звані «інтелектуальні» системи, що розпізнають більшість шрифтів із високим ступенем точності. Деякі системи оптичного розпізнавання тексту здатні відновлювати вихідне форматування тексту, включаючи зображення, колонки й інші нетекстові компоненти.

Історія[ред. | ред. код]

В 1929 році Густав Таущек отримав патент на метод оптичного розпізнавання тексту в Німеччині, після чого за ним пішов Гендель, отримавши патент на свій метод у США в 1933. В 1935 Таущек також отримав патент США на свій метод. Машина Таущека являла собою механічний пристрій, що використовує шаблони й фотодетектор.

В 1950 році Девід Х. Шепард, криптоаналітик з агентства безпеки збройних сил Сполучених Штатів, проаналізувавши задачу перетворення друкованих повідомлень у машинну мову для обробки комп'ютером, побудував машину, що розв'язує дане завдання. Після того як він отримав патент США, він сповістив про це в «Вашингтон Дейлі Ньюз» (27 Квітня 1951) і в «Нью-Йорк Таймс» (26 грудня 1953). Потім Шепард заснував компанію, що розробляє інтелектуальні машини, що незабаром випустила перші у світі комерційні системи оптичного розпізнавання символів.

Поточний стан технології оптичного розпізнавання тексту[ред. | ред. код]

Точне розпізнавання латинських символів у друкованому тексті зараз можливе тільки, якщо доступні чіткі зображення, такі як друковані документи. Точність при такій постановці задачі перевищує 99%, абсолютна точність може бути досягнута тільки шляхом наступного редагування людиною. Проблеми розпізнавання рукописного «друкованого» тексту й стандартного рукописного тексту, а також друкованих текстів інших форматів (особливо з дуже великою кількістю символів) зараз є предметом активних досліджень.

Точність роботи методів може бути вимірювана декількома способами, і тому може сильно варіюватися. Приміром, якщо зустрічається спеціалізоване слово, відсутнє в словниках відповідного програмного забезпечення, при пошуку неіснуючих слів, помилка може збільшитися.

Посилання:

https://www.google.com/search?q=ocr-%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D1%96%D1%97+%D0%B4%D0%BB%D1%8F+%D1%80%D0%BE%D0%B7%D0%BF%D1%96%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%BD%D1%8F+%D0%BF%D0%B0%D0%BF%D0%B5%D1%80%D0%BE%D0%B2%D0%B8%D1%85+%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%96%D0%B2&rlz=1C1GCEA_enUA768UA768&sxsrf=ALeKk02Zi86V3ypIMu0cE5jidvHshZDwPw:1588086714123&source=lnms&tbm=isch&sa=X&ved=2ahUKEwjIn96DtIvpAhWLfZoKHXtRAj4Q_AUoAXoECBIQAw&biw=1280&bih=913#imgrc=LriaoLXm93P3jM

https://www.google.com/search?q=ocr-%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D1%96%D1%97+%D0%B4%D0%BB%D1%8F+%D1%80%D0%BE%D0%B7%D0%BF%D1%96%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%BD%D1%8F+%D0%BF%D0%B0%D0%BF%D0%B5%D1%80%D0%BE%D0%B2%D0%B8%D1%85+%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%96%D0%B2&rlz=1C1GCEA_enUA768UA768&sxsrf=ALeKk02Zi86V3ypIMu0cE5jidvHshZDwPw:1588086714123&source=lnms&tbm=isch&sa=X&ved=2ahUKEwjIn96DtIvpAhWLfZoKHXtRAj4Q_AUoAXoECBIQAw&biw=1280&bih=913#imgrc=LriaoLXm93P3jM&imgdii=r-2maOrFcYqTyM

https://uk.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D0%BD%D0%B5_%D1%80%D0%BE%D0%B7%D0%BF%D1%96%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%BD%D1%8F_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D1%96%D0%B2

Електронна безпека

Шукати в цьому блозі