Извлечение текста из изображений с помощью этого лучшего программного обеспечения для распознавания текста

2019

В наши дни почти все (например, фотографии, музыка, видео) стали цифровыми (и это имеет смысл, поскольку цифровым контентом можно удобно управлять, редактировать и обмениваться). Так, как текстовые документы могут остаться позади. Благодаря достижениям в технологиях оптического распознавания символов (OCR) теперь стало проще, чем когда-либо, оцифровывать текстовые материалы в печатных / рукописных документах, что делает их редактируемыми программами обработки текстов.

Теперь, чтобы сделать это, вам нужны действительно хорошие приложения для распознавания текста, и это именно то, о чем эта статья. Это программное обеспечение может либо получать исходные печатные документы в виде изображений со сканирующих устройств, либо вы можете вводить собственные изображения документов для преобразования в редактируемый текст. Заинтригованный? Ну тогда давайте не будем биться вокруг куста, а перейдем к 5 лучшим программам распознавания текста .

1. ABBYY FineReader

Когда дело доходит до оптического распознавания символов, вряд ли есть что-то, что может даже приблизиться к ABBYY FineReader. ABBYY FineReader, загруженный до краев невероятным количеством мощных функций, позволяет с легкостью извлекать текст из всех видов изображений.

Несмотря на большой набор функций, ABBYY FineReader очень прост в использовании. Он может извлекать текст практически из всех популярных графических форматов, таких как PNG, JPG, BMP и TIFF. И это еще не все. ABBYY FineReader также может извлекать текст из файлов PDF и DJVU. После загрузки исходного файла или изображения (которое предпочтительно должно иметь разрешение не менее 300 dpi для оптимального сканирования) программа анализирует его и автоматически определяет различные разделы файла, имеющие извлекаемый текст. Вы можете либо извлечь весь текст, либо выбрать только некоторые конкретные разделы. После этого все, что вам нужно сделать, это использовать опцию Сохранить, чтобы выбрать формат вывода, а ABBYY FIneReader позаботится обо всем остальном. Поддерживаются многочисленные выходные форматы, такие как TXT, PDF, RTF и даже EPUB.

Выводимый текст является полностью редактируемым, а текст даже из самых содержательных документов (например, имеющих несколько столбцов и сложных макетов) извлекается безупречно. Другие функции включают расширенную языковую поддержку, многочисленные стили / размеры шрифтов, а также инструменты коррекции изображения для файлов, получаемых со сканеров и камер.

Короче говоря, если вы хотите получить абсолютно лучшее программное обеспечение для распознавания текста, дополненное расширенным форматом ввода / вывода и поддержкой обработки, выберите ABBYY FineReader.

Доступность платформы: Windows 10, 8, 7, Vista и XP; Mac OS X 10.6 и более поздние версии

Цена: Платные версии начинаются с $ 169, 99, 30-дневная бесплатная пробная версия доступна

Скачать

2. Readiris

В поисках чрезвычайно мощного программного обеспечения для оптического распознавания символов, которое имеет множество функций, но не требует ли много усилий, чтобы начать работу? Посмотрите на Readiris, так как он может быть именно тем, что вам нужно.

Приложение профессионального уровня Readiris имеет обширный набор функций, который в значительной степени идентичен ранее обсуждавшемуся ABBYY FineReader. Readiris поддерживает несколько форматов изображений: от BMP до PNG и от PCX до TIFF. Кроме того, PDF и DJVU файлы могут быть обработаны так же хорошо. Изображения могут быть получены из устройств сканера, и приложение также позволяет вам задавать пользовательские параметры обработки для исходных файлов / изображений, такие как сглаживание и регулировка DPI, перед их анализом. Хотя Readiris может обрабатывать изображения с низким разрешением очень хорошо, оптимальное разрешение должно быть не менее 300 точек на дюйм. Как только анализ завершен, Readiris определяет текстовые секции (или зоны), и текст может быть извлечен либо из определенных зон, либо из всего файла. Извлеченный текст доступен для редактирования и может быть сохранен в различных форматах, таких как PDF, DOCX, TXT, CSV и HTM.

Более того, функция сохранения в облаке Readiris Pro позволяет напрямую сохранять извлеченный текст в различные облачные службы хранения, такие как Dropbox, OneDrive, GoogleDrive и другие. Существует также множество полезных функций редактирования / обработки текста, и даже штрих-коды можно сканировать.

В общем, вы должны использовать Readiris, если вам нужны надежные функции извлечения / редактирования текста в простом в использовании пакете, в комплекте с обширной поддержкой формата ввода / вывода. Однако Readiris немного запинается, когда дело доходит до обработки документов со сложными макетами, такими как несколько столбцов, таблиц и т. Д.

Доступность платформы: Windows 10, 8, 7, Vista и XP; Mac OS X 10.7 и более поздние версии

Цена: Платные версии начинаются с $ 99, доступна 10-дневная бесплатная пробная версия

Скачать

3. FreeOCR

Если вы ищете простое и удобное программное обеспечение для оптического распознавания текста с приличными возможностями распознавания текста, ищите не дальше, чем FreeOCR . Хотя он не может быть перегружен всевозможными необычными функциями, он все равно работает очень хорошо.

Основанный на чрезвычайно популярном, поддерживаемом Google движке Tesseract OCR, FreeOCR чрезвычайно прост в использовании. Он может получать отпечатанные документы, отсканированные с помощью сканеров, а также позволяет загружать изображения, имеющие текстовое содержимое. Мало того, он также может извлекать текст из сильно отформатированных многостраничных документов. Вы можете сделать так, чтобы приложение извлекло весь текст из входного PDF / изображения или определил определенный фрагмент текста. Скорость конвертации довольно хорошая, и преобразованный текст можно сохранить в таких форматах, как TXT и RTF, или экспортировать непосредственно в Microsoft Word. FreeOCR поддерживает все основные форматы изображений, такие как PNG, JPG и TIFF.

Тем не менее, FreeOCR имеет некоторые недостатки. Это слишком простой и не имеет никаких функций пост-обработки текста. Более того, компоновка извлеченного текста часто путается с перекрывающимися строками и столбцами. Используйте его только в том случае, если вам нужны некоторые базовые функции распознавания текста для случайного использования.

Доступность платформы: Windows 10, 8, 7, Vista и XP

Цена: бесплатно

Скачать

4. Microsoft OneNote

OneNote - это впечатляющее многофункциональное приложение для создания заметок, с которым легко начать работу. Тем не менее, заметки не единственное, в чем это хорошо. Если вы используете OneNote как часть вашего рабочего процесса, вы можете использовать его для базового извлечения текста благодаря встроенному в него качеству OCR.

Использование OneNote для извлечения текста из изображений смехотворно просто. Если вы используете настольное приложение, все, что вам нужно сделать, это использовать опцию Вставить, чтобы вставить изображение в любой из блокнотов или разделов. Как только это будет сделано, просто щелкните правой кнопкой мыши на изображении и выберите опцию Копировать текст из рисунка . Весь текстовый контент с изображения будет скопирован в буфер обмена и может быть вставлен (и, следовательно, отредактирован) куда угодно, согласно требованию. Будь то PNG, JPG, BMP или TIFF, OneNote поддерживает практически все основные форматы изображений.

Однако возможности извлечения текста в OneNote весьма ограничены, и он не может работать с изображениями, имеющими сложные макеты текстового содержимого, такие как таблицы и подразделы. Так что это то, что вы должны иметь в виду.

Доступность платформы: Windows 10, 8, 7 и Vista; Mac OS X 10.10 и более поздние версии

Цена: бесплатно

Скачать

5. GOCR

Примечание. Прежде чем начать, важно знать, что, хотя GOCR поддерживает обычные форматы изображений, такие как PNG и JPG, он не смог распознать их во время нашего тестирования (выполненного на компьютере под управлением Windows 10). Вполне возможно, что он может работать с этими форматами на компьютерах с Linux, но если вы используете Windows, вам необходимо преобразовать исходное изображение (изображения) в формат PNM. Это можно сделать с помощью многочисленных онлайн-инструментов преобразования файлов, таких как этот.

Что отличает GOCR от лота, так это то, что он на самом деле не имеет внешнего интерфейса с графическим интерфейсом пользователя (GUI). Это инструмент, основанный на командной строке, и поэтому он не самый простой в использовании. Но как только вы освоитесь с основами, GOCR может оказаться действительно полезным при извлечении текста из изображений. Стоит также отметить, что для правильной работы GOCR исходные изображения должны иметь четко видимый текстовый контент и предпочтительно белый фон, поскольку утилита на самом деле не работает со сложными исходными файлами. GOCR извлекает текст из изображений и сохраняет их в формате TXT. Хотя он поддерживает довольно много аргументов и функций, для начала нужно знать лишь несколько из них. Например, чтобы извлечь текст из образца изображения PNM, введите в командной строке следующее.

X: \ sample folder \ gocr049 -i file.pnm -o file.txt

Здесь папка X: \ sample - это место, где находится инструмент командной строки GOCR, а file.pnm и file.txt - это входные и выходные файлы, соответственно (оба находятся в том же месте, что и GOCR; если расположение другое, полный путь должен быть указан). Также, если вы хотите изменить уровни оттенков серого для изображения, вы можете указать числовое значение в качестве аргумента вместе с -l. Нажмите здесь, чтобы прочитать об использовании подробно.

Подводя итог, можно сказать, что GOCR - довольно хорошая утилита для распознавания текста, и когда дело доходит до извлечения текста из простых изображений, она работает исключительно хорошо. Тем не менее, он сильно ограничен в функциях и требует значительных усилий для работы.

Доступность платформы: Windows 10, 8, 7, Vista и XP; Linux; OS / 2

Цена: бесплатно

Скачать

Все готово для преобразования изображений в текст?

Оцифровка печатного (и рукописного) текстового содержимого чрезвычайно полезна, поскольку делает хранение, редактирование и совместное использование текста чрезвычайно простым. И вышеупомянутое программное обеспечение для распознавания текста делает быструю работу по выполнению именно этого, независимо от того, насколько просты или продвинуты ваши потребности в извлечении текста. Нужны функции извлечения текста профессионального уровня с лучшими инструментами постобработки? Перейти на ABBYY FineReader или Readiris. Предпочли бы более простое программное обеспечение OCR, которое только делает основы? Используйте OneNote или FreeOCR. Попробуйте их, и посмотрите, как они работают для вас. Знаете ли вы о каком-либо другом программном обеспечении для распознавания текста, которое могло быть включено в приведенный выше список? Кричите в комментариях ниже.