Обзор пакета ABBYY FineReader 12

Разговор пойдет о программе ABBYY FineReader 12, то есть, о ее последней версии. Не заглядывая слишком далеко, мы выбрали самый известный продукт компании ABBYY, который, к его достоинствам, отлично русифицирован. Уже на первый взгляд Fine Reader (FR) производит впечатление программы с хорошей русскоязычной поддержкой: в этом плане, действительно, все сделано на весьма достойном уровне, включая справочную информацию.

Вначале - отступление. Всегда актуален вопрос, как перевести весь или некоторую часть архива в цифровой формат (и что, собственно, понимать под словом «цифровой»). Едва ли покупка сканера решает все проблемы. Конечно, очень часто в комплекте с документацией к сканеру поставляется диск или несколько с фирменным программным обеспечением. Однако уже на стадии санирования выясняется, что качество сканирующей программы оставляет желать лучшего либо формат, в котором происходит сохранение, к сожалению, не пригоден для хранения. Почему? Большинство графических форматов не отделяют текст от нетекстового пространства документа, и поэтому скопировать какой-либо отрывок из подобного файла не предоставляется возможным.

Именно в таких случаях на выручку приходят функциональные программы-«распознавальщики» текста, в возможности которых, в частности, входит извлечение текста из изображения.

Знакомство с ABBYY FineReader

Пакет ABBYY Finereader 12 - система оптического распознавания текстов (Optical Character Recognition - OCR ). Предназначена как для автоматического ввода печатных документов в компьютер, так и для конвертирования PDF–документов и фотографий в редактируемые форматы (из руководства к программе)

Аббревиатура «OCR» применима для всех приложений для распознавания данных (а не только текста). Источником для извлечения данных может служить печатный или электронный документ. Когда-то не очень давно об OCR , в той или иной форме, мало кто знал, да и процесс перевода текста в электронный вид превращался в сущую рутину, вплоть до ручной перепечатки текста оригинала. Сегодня, обладая планшетным сканером (ручным в домашних условиях пользуются единицы) и finereader 12 - будьте уверены - никаких сложностей в сканировании и распознании не возникнет.

Начиная с шестой версии, FineReader поддерживает импорт и экспорт в формат PDF , запатентованный компанией Adobe. Многие читатели, вероятно, сталкивались с трудностями перевода из этого формата в любой иной (doc и т. п.), поскольку действительно полезных программ в этой области не так уж и много (внимания достоин разве что дочерний продукт компании ABBYY - PDF Transformer). Дело в том, что подобные программы проводят распознавание текста только единожды, вследствие чего «идентичность» результата вовсе невелика (в зависимости от сложности документа), плюс к тому изрядно теряется форматирование документа.

В случае с FineReader все обстоит по-иному. В девятую версию программы внедрена технология под названием Document OCR . В ее основе лежит принцип цельного распознавания документа: он анализируется и распознаётся как единое целое, а не постранично. При этом всевозможные колонки, колонтитулы, шрифты, стили, сноски и изображения остаются нетронутыми или заменяются близкими к оригиналу.

Установка пакета

Demo-версию Finereader 12 можно скачать на сайте Abbyy.ru, в разделе Download, полная лицензионная версия распространяется на CD-диске. О способах покупки можно узнать на этом же сайте в разделе «Купить».

На сайте разработчиков ABBYY можно скачать демонстрационную версию пакета ABBYY FineReader версии 12 (или другой, актуальной на сегодня)

ABBYY FineReader распространяется в нескольких версиях: Professional Edition, Corporate Edition, Site License Edition и др. Отличие версии Professional от остальных состоит в том, что предназначена для работы в корпоративной сети с возможностью совместной работы над распознаванием документов. В остальном разница незначительна и зависит от выбора условий лицензионного соглашения.

Сложно представить, что 12 лет назад существовал FineReader 2.0, занимавший около 10 Мб дискового пространство. Со временем пакет «вырос» десятикратно и сейчас в установленном виде занимает до 300 Мб. Много это или мало - судите сами. Новый FR поддерживает 179 языков распознавания, среди которых есть малоизвестные искусственные языки (идо, интерлингва, окциденталь и эсперанто), языки программирования, формул и т. п. Не будем забывать и о поддержке различных форматов, сценариев. Так что, если по какой-то причине вы захотите ограничить занимаемое пакетом место, при установке отметьте только те компоненты, которые будут востребованы при работе.

Выбор компонентов влияет на длительность установки, которая, впрочем, не должна занять много времени. В процессе инсталляции вас ознакомят с основными возможностями FR. После активации (по Интернету, через E-mail, с помощью полученного кода и др.) программа готова к полнофункциональной работе. В demo-режиме вы непременно столкнетесь с различными ограничениями, которые, к сожалению, не позволяют полноценно использовать пакет.

Интерфейс FineReader. Функциональные возможности

Доступ к возможностям программы доступен как с помощью сценариев, которые появятся в главном меню сразу после процесса инсталляции, так и, собственно, через основной интерфейс.


Заставка при запуске FineReader

Внешний вид программы из версии к версии не претерпевает особых изменений: разработчики не видят смысла его кардинально менять. Значительное внимание уделяется эргономике, что заметно по всем продуктам компании ABBYY (Lingvo, PDF Transformer, FlexiCapture…). Другими словами, интерфейс Fine Reader 12 хорошо продуман и предрасположен ко всем пользователям, не исключая новичков. Принцип «Получить результат за одно нажатие» придется по вкусу тем, кто не привык что-то настраивать и изменять. С другой стороны, более опытные пользователи могут тщательно настроить FineReader через диалог настроек (Сервис -> Опции…). Единственный нюанс: для комфортной работы в приложении желательно установить разрешение экрана в 1280?800, чтобы все инструменты всегда были, что называется, под рукой.

После запуска программы Файн Ридер появится окно с кнопками быстрого доступа к функциям программы. Данное меню также доступно через меню Сервис -> ABBYY FineReader, кнопку «Основные сценарии» в крайнем правом углу программы или через сочетание клавиш Ctrl+N (по аналогии с Word, где данной комбинацией вызывается открытие нового документа).

Сканировать в Microsoft Word: в девятой версии FineReader появилась поддержка пока еще не успевшего стать популярным Microsoft Word 2007. В свою очередь, на панели инструментов в приложениях Microsoft Office, в разделе надстроек после установки FR появляется «фирменный» красный значок.


Меню для экспорта распознанного документа FineReader
Выбор языков для сканирования и распознания документов

Помимо Microsoft Office, FR поддерживает интеграцию с Microsoft Outlook, обеспечивает экспорт результатов распознавания в те же Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect и Adobe Acrobat. Эти возможности в некоторой мере облегчают и ускоряют работу с программой, в особенности, если вам приходится регулярно в ней работать.

PDF или изображения в Microsoft Word: распознать данные из PDF - или графического файла другого типа, поддерживаемого Finereader 12 версии. Следует отметить, что технология извлечения текста из PDF -файла в FR - это не просто «отслаивание» текстового наполнения (текстовый слой в PDF может и отсутствовать) от графического. На самом деле, технология распознавания достаточно непроста: проанализировав содержание документа, программа решает, что и как нужно делать с текстом: просто извлечь или распознать, - и так применительно к каждому текстовому фрагменту.

Сканировать в Microsoft Excel: сканирование в XLS (формат программы Microsoft Excel) может быть оправдано в том случае, если сканируемое изображение содержит таблицы.

Сканировать в PDF : поводов для сканирования в PDF может быть множество. Один из них - безопасность: это единственный формат, знакомый FR, в настройках которого можно установить блокировку паролем. Пароль устанавливается не только на открытие документа, но и на его печать и другие операции. Имеется возможность выбрать один из трёх уровней шифрования: 40-битный, 128-битный на основе стандарта RC4, 128-битный уровень, основанный на стандарте AES (Advanced Encryption Standard).

Конвертировать фотографию в Microsoft Word: перевод файла из графического формата (причем это может быть PDF или многостраничное изображение) в DOC /DOCX.

Открыть в Файн Ридер: открыть графический файл (PDF , BMP , PCX , DCX , JPEG , JPEG 2000, TIFF , PNG ) для распознавания FineReader.

Работа в FineReader

Сейчас - вкратце об особенностях работы программы. Весь процесс делится на сканирование, распознавание и сохранение результатов. После того как вы выбрали тип действия программы, указали файл или устройство для сканирования, FineReader поэтапно выполняет свою задачу, кстати, достаточно ресурсоемкую для центрального процессора.

Если вы - счастливый обладатель двухъядерного процессора, то, работая в пакете Fine Reader 12, можете оценить мощь быстродействия компьютера. Дело в том, что FR, обнаружив двухъядерный процессор, распознает не одну, а сразу две страницы документа параллельно. Мелочь - а приятно.

Вначале идет сканирование, затем - распознавание и экспорт временного документа в выбранный формат.


Процесс распознавания PDF-документа

Сканирование. Никаких предварительных настроек в приложении FineReader (кроме выбора считывающего устройства) перед сканированием делать не нужно. Именно поэтому и были придуманы сценарии: они призваны упростить выполнение однотипных действий.

Распознавание. Упрощение коснулось и других мелочей. Так, если вспомнить прошлые версии программы, раньше нам приходилось вручную менять язык (языки, если их было несколько) документа. Сейчас это происходит автоматически, правда, тоже не всегда. В последнем случае FR ненавязчиво предлагает проверить язык документа.

Возвращаясь к технологии распознавания FR: почему программа вначале сканирует весь документ целиком, а не постранично? Как уже было сказано, текст распознается, исходя из всего содержания: подбираются аналогичные по размеру/гарнитуре шрифты, таблицы и границы, отступы и т. п.

Не удивляйтесь, если программа FineReader 12 выдаст сообщение, мол, страница не может быть распознана, поскольку не найдено ни одной области текста. Эксперимента ради, мы сфотографировали на мобильный телефон с экрана LCD -дисплея область текстового документа (впрочем, зная, результат уже заранее). Fine Reader 12не распознал текст изображения, поскольку оно было явно такого качества, которого для этого явно недостаточно. При втором заходе мы сфотографировали цифровым фотоаппаратом страницу с текстом при нормальном освещении.

FineReader без проблем распознал отрывок, сохранив форматирование и отметив маркерами некоторые сомнительные моменты или символы, у которых могут быть вариативное написание.

Как видно на изображении, преимущественно это точки, дефисы, запятые - в общем, мелкие символы. Кроме этого, хорошо видно, что программа учла неровности, изогнутости сфотографированной страницы и выровняла строки текста. Вывод - FR отлично справился со своей пусть и не очень сложной задачей.

Изредка могут оставаться незамеченными программой Файн Ридер кое-какие незначительные моменты, однако их легко откорректировать вручную. Благо, в пакете есть свой WYSIWYG -редактор, возможностей которого вполне достаточно для совершения окончательной правки документа. Проверка орфографии тоже имеется.

Как повысить точность распознавания, чтобы затем в меньшей степени заниматься правкой текста? Во-первых, вы можете подключить пользовательский словарь Microsoft Word. Правда, сложно судить о повышении точности, разве что о повышении словарного запаса спеллчекера (модуля, проверяющего орфографию и грамматику). Кроме всего прочего, для улучшения распознавания есть смысл ознакомиться с настройками программы (Сервис -> Опции) и выбрать один из двух режимов:

тщательное распознавание - его можно выбрать при распознавании документов любой «сложности»: с таблицами без линий сетки, текста, графиков, таблиц на цветном фоне и др. Также может помочь при некачественном источнике для распознавания

быстрое распознавание - данный режим рекомендуется для обработки больших объемов документов с простым оформлением или же в том случае, если время не позволяет проводить тщательное распознавание. В большинстве случаев, когда вы имеете с черным печатным текстом на белом фоне, можно остановиться на быстром распознавании.

Вообще, улучшение качества работы FineReader - это отдельная тема для разговора, о деталях которой вы можете узнать из официальной справки, а именно в разделе «Как улучшить полученные результаты».

Сохранение документа. Последний этап работы в программе Fine Reader 12 - сохранение итогового результата в определенный графический/текстовый формат. Предварительно настройки сохранения можно указать в опциях FR: Сервис ->Опции, вкладка «Сохранить». Для каждого формата предусмотрены свои настройки. При сохранении в DOCX -формате следует побеспокоится о совместимости форматов (Файлы DOCX -формата не распознаются в Word 2003 <). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

ABBYY Screenshot Reader

Во многие объемные пакеты очень часто разработчики любят добавлять мелкие сервисные утилиты. Скажем, в состав известного приложения для записи дисков Nero входит набор из 3 - 5 утилит, позволяющих то, чего не может даже сам Nero. Обзор (здесь же можно скачать в составе Файн Ридер 12).

Что касается FineReader, то в его составе обнаруживается одно небольшое приложение Screenshot Reader. С его помощью вы можете и быстро перевести его в желаемый формат посредством FR. Программа доступна через меню «Пуск» (Пуск -> Все программы -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Возможности Screenshot Reader несколько шире, чем может показаться на первый взгляд. (а иначе можно было бы обойтись простым нажатием клавиши «PrintScreen» на клавиатуре). В дополнение к тому, что Screenshot Reader делает снимок экрана (или, точнее, выбранной области экрана), программа тесно интегрирована с FR.

При нажатии на кнопку «Снимок» на панели Screenshot Reader курсор меняет форму и включается инструмент выделения области экрана. Выделенная область изображения заключается в рамку для дальнейшего распознавания текста (оно запускается автоматически).

В выпадающем списке вы можете выбрать желаемое действие: по сути, Screenshot Reader дублирует быстрые сценарии FR c той разницей, что вместо снимка со сканера «на вход» поступает снимок экрана.

Следует отметить, программа, наравне со всем пакетом, требует активации. При регистрации продукта ABBYY FineReader 12 Professional Edition Screenshot Reader предоставляется бесплатно, в качестве «бонуса».

Заключение

FineReader - незаменимая программа для сканирования и распознавания графических данных. Русскоязычный интерфейс и доступность настроек не отпугнут неопытного пользователя. Поддержка новейших форматов, инновационные технологии и, как следствие, качественное распознавание делают программу оптимальным выбором, тем более что конкурентов в этой области у ABBYY FineReader все еще не предвидится.

Горячие клавиши FineReader 12

  • Создать новый документ ABBYY FineReader - CTRL +N
  • Открыть документ ABBYY FineReader 12 - CTRL +SHIFT+N
  • Сохранить страницы - CTRL +S
  • Сохранить изображение в файл - CTRL +ALT+S
  • Распознать все страницы документа - CTRL +SHIFT+R
  • Закрыть текущую страницу - CTRL +F4
  • Распознать выделенные страницы документа ABBYY FineReader - CTRL +R
  • Открыть Менеджер сценариев - CTRL +T
  • Открыть диалог Опции "Файн Ридер" - CTRL +SHIFT+O
  • Открыть справку - F1
  • Перейти в окно Документ - ALT +1
  • Перейти в окно Изображение - ALT +2
  • Перейти в окно Текст - ALT +3
  • Перейти в окно Крупный план - ALT +4