В этой статье рассмотрим список полезных программ для распознавания текста (OCR), доступных для Linux.
Программное обеспечение для оптического распознавания символов (OCR) пытается определить текстовое содержание файлов, в которых нельзя выбирать или копировать содержимое, но оно может быть просмотрено или прочитано.
Например, OCR-программа может выявлять текст на изображениях, PDF или других отсканированных документах в цифровых форматах файлов с использованием различных алгоритмов и решений на основе искусственного интеллекта.
Эти программы OCR особенно полезны для конвертации и сохранения старых документов, так как они могут использоваться для выявления текста и создания цифровых копий.
Иногда распознанный текст может быть не на 100% точным, но программы OCR в значительной степени устраняют необходимость в ручных правках, извлекая максимальное количество текста.
Ручные правки могут быть внесены позже для дополнительного улучшения точности и создания точных реплик.
Большинство программ OCR могут извлекать текст в отдельные файлы, но некоторые также поддерживают наложение скрытого текстового слоя на оригинальные файлы.
Наложенный текст позволяет читать содержимое в оригинальном виде и формате, но также позволяет выбирать и копировать текст. Эта техника особенно используется для цифровой обработки старых документов в формате PDF.
Tesseract OCR Tesseract OCR - это бесплатное и открытое программное обеспечение OCR, доступное для Linux.
Спонсируемый Google и поддерживаемый множеством добровольцев, это, вероятно, самый полный пакет программ OCR, доступный, который может даже превзойти некоторые платные, проприетарные решения.
Он предоставляет инструменты командной строки, а также API, которое можно интегрировать в свои собственные программы. Он может распознавать текст на многих языках с хорошей точностью.
Он поставляется с набором предварительно обученных данных, которые могут быть использованы для распознавания и извлечения текста.
Вы также можете использовать свои собственные обученные данные, если вам нужно индивидуальное решение, или получить дополнительные модели от сторонних поставщиков.
Tesseract OCR поставляется с несколькими движками распознавания, и вы можете использовать их в соответствии с вашими потребностями в зависимости от метода установки.
Для установки Tesseract OCR в Ubuntu используйте указанную ниже команду:
$ sudo apt install tesseract-ocr
Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Универсальный файл AppImage и дополнительные инструкции по установке доступны здесь.
Tesseract OCR поставляется с поддержкой распознавания контента на английском языке по умолчанию.
Если вы хотите включить дополнительные языки, вам может потребоваться загрузить дополнительные языковые пакеты. В указанной выше ссылке есть инструкции по установке дополнительных языковых пакетов. В Ubuntu вы можете найти языковые пакеты непосредственно, выполнив следующую команду:
$ apt-cache search tesseract-ocr-
Вышеуказанная команда выведет имена пакетов для различных языковых пакетов. Просто установите их, выполнив команду в следующем формате:
$ sudo apt install <языковой-пакет>
Вы можете получить список всех установленных языковых пакетов, выполнив следующую команду:
$ tesseract --list-langs
После установки основного пакета Tesseract OCR и дополнительных языковых пакетов вы можете начать распознавать текст на изображениях и файлах PDF. Чтобы извлечь текст, используйте команды в следующем формате:
$ tesseract image.png output -l eng
$ tesseract image.png output -l eng+spa
$ tesseract image.png output -l eng pdf
Первая команда извлечет текст из файла "image.png" на английском языке и сохранит его в файл с именем "output". Вторая команда разберет изображение с использованием нескольких языковых пакетов. Третью команду можно использовать для создания файла PDF с наложенным текстовым слоем на изображение.
Для получения дополнительной информации о использовании командной строки Tesseract OCR используйте следующие две команды:
$ tesseract --help
$ man tesseract
gImageReader gImageReader - это графический клиент для упомянутого выше движка Tesseract OCR. Вы можете использовать его для выполнения большинства опций командной строки и действий, поддерживаемых Tesseract OCR, включая извлечение текста из нескольких файлов, проверку орфографии извлеченного текста и выполнение постобработки распознанного текста.
Для установки gImageReader в Ubuntu используйте указанную ниже команду:
$ sudo apt install gimagereader
Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Более специфические пакеты для распределений доступны здесь.
Paperwork Paperwork - это бесплатный и открытый менеджер документов. Вы можете использовать его для эффективного управления вашей библиотекой документов, особенно если у вас большая коллекция. Он также поставляется с встроенным режимом OCR, который использует "Pyocr", модуль Python на основе движков Tesseract и Cuneiform OCR. Другие основные функции Paperwork включают возможность редактирования отсканированных документов, поле поиска для поиска в библиотеке документов, возможность сортировки документов и поддержку сканера и т.д.
Для установки Paperwork в Ubuntu используйте указанную ниже команду:
$ sudo apt install paperwork-gtk
Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Универсальный пакет Flatpak также доступен здесь.
OCRFeeder OCRFeeder - это бесплатное и открытое графическое программное обеспечение для распознавания текста, поддерживаемое командой GNOME. Оно поддерживает распознавание текста на множестве языков и может экспортировать содержимое во многие форматы файлов. Оно поддерживает множество OCR-движков, включая Tesseract OCR, GOCR, Ocrad и Cuneiform. Оно также позволяет выполнять некоторую послепроцессинговую работу для улучшения форматирования и компоновки извлеченного текстового содержимого.
Для установки OCRFeeder в Ubuntu используйте указанную ниже команду:
$ sudo apt install ocrfeeder
Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Универсальный пакет Flatpak также доступен здесь.
Обратите внимание, что в моих тестах OCRFeeder, установленный из репозиториев Ubuntu, поставлялся только с одним OCR-двигателем. Однако сборка Flatpak поставляется со всеми четырьмя поддерживаемыми OCR-двигателями, хотя она загружала около 2 ГБ данных. Пакет, включенный в репозиторий Ubuntu, был намного меньшего размера.
gscan2pdf gscan2pdf - это бесплатная и открытая графическая утилита, которая может выявлять и извлекать текст из различных форматов файлов. Она может непосредственно работать с сканерами для сканирования бумаг и затем экспортировать обнаруженное текстовое содержание OCR в файлы PDF. Она также поддерживает несколько OCR-двигателей, включая Tesseract OCR, GOCR, Ocropus и Cuneiform, при условии, что пакеты для этих двигателей установлены в вашей системе. Кроме того, помимо непосредственного сканирования бумаг, вы также можете импортировать файлы изображений и извлекать из них текст.
Для установки gscan2pdf в Ubuntu используйте указанную ниже команду:
$ sudo apt install gscan2pdf gocr cuneiform tesseract-ocr
Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Исходный код и исполняемые бинарные файлы также доступны здесь.
Заключение Это некоторые из наиболее полезных программ OCR с командным интерфейсом и графическими движками и программами, доступными для Linux. Tesseract OCR - наиболее активно разрабатываемый и наиболее полный инструмент для распознавания текста, и это должно быть достаточно для большинства ваших потребностей. Однако вы также можете попробовать другие приложения, упомянутые в этой статье, если вы не удовлетворены результатами Tesseract OCR.
Добавить комментарий