Лучшие приложения OCR для Linux

Категория: линукс

В этой статье рассмотрим список полезных программ для распознавания текста (OCR), доступных для Linux.

Программное обеспечение для оптического распознавания символов (OCR) пытается определить текстовое содержание файлов, в которых нельзя выбирать или копировать содержимое, но оно может быть просмотрено или прочитано.

Например, OCR-программа может выявлять текст на изображениях, PDF или других отсканированных документах в цифровых форматах файлов с использованием различных алгоритмов и решений на основе искусственного интеллекта.

Эти программы OCR особенно полезны для конвертации и сохранения старых документов, так как они могут использоваться для выявления текста и создания цифровых копий.

Иногда распознанный текст может быть не на 100% точным, но программы OCR в значительной степени устраняют необходимость в ручных правках, извлекая максимальное количество текста.

Ручные правки могут быть внесены позже для дополнительного улучшения точности и создания точных реплик.

Большинство программ OCR могут извлекать текст в отдельные файлы, но некоторые также поддерживают наложение скрытого текстового слоя на оригинальные файлы.

Наложенный текст позволяет читать содержимое в оригинальном виде и формате, но также позволяет выбирать и копировать текст. Эта техника особенно используется для цифровой обработки старых документов в формате PDF.

Tesseract OCR Tesseract OCR - это бесплатное и открытое программное обеспечение OCR, доступное для Linux.

Спонсируемый Google и поддерживаемый множеством добровольцев, это, вероятно, самый полный пакет программ OCR, доступный, который может даже превзойти некоторые платные, проприетарные решения.

Он предоставляет инструменты командной строки, а также API, которое можно интегрировать в свои собственные программы. Он может распознавать текст на многих языках с хорошей точностью.

Он поставляется с набором предварительно обученных данных, которые могут быть использованы для распознавания и извлечения текста.

Вы также можете использовать свои собственные обученные данные, если вам нужно индивидуальное решение, или получить дополнительные модели от сторонних поставщиков.

Tesseract OCR поставляется с несколькими движками распознавания, и вы можете использовать их в соответствии с вашими потребностями в зависимости от метода установки.

Для установки Tesseract OCR в Ubuntu используйте указанную ниже команду:

$ sudo apt install tesseract-ocr

Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Универсальный файл AppImage и дополнительные инструкции по установке доступны здесь.

Tesseract OCR поставляется с поддержкой распознавания контента на английском языке по умолчанию.

Если вы хотите включить дополнительные языки, вам может потребоваться загрузить дополнительные языковые пакеты. В указанной выше ссылке есть инструкции по установке дополнительных языковых пакетов. В Ubuntu вы можете найти языковые пакеты непосредственно, выполнив следующую команду:

$ apt-cache search tesseract-ocr-

Вышеуказанная команда выведет имена пакетов для различных языковых пакетов. Просто установите их, выполнив команду в следующем формате:

$ sudo apt install <языковой-пакет>

Вы можете получить список всех установленных языковых пакетов, выполнив следующую команду:

$ tesseract --list-langs

После установки основного пакета Tesseract OCR и дополнительных языковых пакетов вы можете начать распознавать текст на изображениях и файлах PDF. Чтобы извлечь текст, используйте команды в следующем формате:

$ tesseract image.png output -l eng

$ tesseract image.png output -l eng+spa

$ tesseract image.png output -l eng pdf

Первая команда извлечет текст из файла "image.png" на английском языке и сохранит его в файл с именем "output". Вторая команда разберет изображение с использованием нескольких языковых пакетов. Третью команду можно использовать для создания файла PDF с наложенным текстовым слоем на изображение.

Для получения дополнительной информации о использовании командной строки Tesseract OCR используйте следующие две команды:

$ tesseract --help

$ man tesseract

gImageReader gImageReader - это графический клиент для упомянутого выше движка Tesseract OCR. Вы можете использовать его для выполнения большинства опций командной строки и действий, поддерживаемых Tesseract OCR, включая извлечение текста из нескольких файлов, проверку орфографии извлеченного текста и выполнение постобработки распознанного текста.

Для установки gImageReader в Ubuntu используйте указанную ниже команду:

$ sudo apt install gimagereader

Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Более специфические пакеты для распределений доступны здесь.

Paperwork Paperwork - это бесплатный и открытый менеджер документов. Вы можете использовать его для эффективного управления вашей библиотекой документов, особенно если у вас большая коллекция. Он также поставляется с встроенным режимом OCR, который использует "Pyocr", модуль Python на основе движков Tesseract и Cuneiform OCR. Другие основные функции Paperwork включают возможность редактирования отсканированных документов, поле поиска для поиска в библиотеке документов, возможность сортировки документов и поддержку сканера и т.д.

Для установки Paperwork в Ubuntu используйте указанную ниже команду:

$ sudo apt install paperwork-gtk

Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Универсальный пакет Flatpak также доступен здесь.

OCRFeeder OCRFeeder - это бесплатное и открытое графическое программное обеспечение для распознавания текста, поддерживаемое командой GNOME. Оно поддерживает распознавание текста на множестве языков и может экспортировать содержимое во многие форматы файлов. Оно поддерживает множество OCR-движков, включая Tesseract OCR, GOCR, Ocrad и Cuneiform. Оно также позволяет выполнять некоторую послепроцессинговую работу для улучшения форматирования и компоновки извлеченного текстового содержимого.

Для установки OCRFeeder в Ubuntu используйте указанную ниже команду:

$ sudo apt install ocrfeeder

Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Универсальный пакет Flatpak также доступен здесь.

Обратите внимание, что в моих тестах OCRFeeder, установленный из репозиториев Ubuntu, поставлялся только с одним OCR-двигателем. Однако сборка Flatpak поставляется со всеми четырьмя поддерживаемыми OCR-двигателями, хотя она загружала около 2 ГБ данных. Пакет, включенный в репозиторий Ubuntu, был намного меньшего размера.

gscan2pdf gscan2pdf - это бесплатная и открытая графическая утилита, которая может выявлять и извлекать текст из различных форматов файлов. Она может непосредственно работать с сканерами для сканирования бумаг и затем экспортировать обнаруженное текстовое содержание OCR в файлы PDF. Она также поддерживает несколько OCR-двигателей, включая Tesseract OCR, GOCR, Ocropus и Cuneiform, при условии, что пакеты для этих двигателей установлены в вашей системе. Кроме того, помимо непосредственного сканирования бумаг, вы также можете импортировать файлы изображений и извлекать из них текст.

Для установки gscan2pdf в Ubuntu используйте указанную ниже команду:

$ sudo apt install gscan2pdf gocr cuneiform tesseract-ocr

Вы можете установить его в других дистрибутивах Linux из стандартных репозиториев через менеджер пакетов. Исходный код и исполняемые бинарные файлы также доступны здесь.

Заключение Это некоторые из наиболее полезных программ OCR с командным интерфейсом и графическими движками и программами, доступными для Linux. Tesseract OCR - наиболее активно разрабатываемый и наиболее полный инструмент для распознавания текста, и это должно быть достаточно для большинства ваших потребностей. Однако вы также можете попробовать другие приложения, упомянутые в этой статье, если вы не удовлетворены результатами Tesseract OCR.





Если вам нужен по настоящему хороший и профессиональный веб хостинг или свой высокопроизводительный сервер, то смело переходите по ссылке и заказывайте!

 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *



Карта сайта
Copyright © 2024