Система оптического распознавания текста ABBYY® FineReader Версия 8.0

Руководство пользователя
Источник:ABBYY Software
Дата публикации:2005
Поделиться в Twitter Поделиться в F******k Поделиться в VKontakte Поделиться в Telegram Поделиться в Mastodon

Информация, содержащаяся в этом документе, может быть изменена без предварительного уведомления, и компания ABBYY не берет на себя на этот счёт никаких обязательств.

Глава 1. Работа с программой ABBYY FineReader 8.0

Распознавание

Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить язык распознавания. В этой главе описываются этот и другие параметры распознавания и приводятся описание ситуаций, в которых они используются.

Общая информация о распознавании

Внимание! Перед запуском распознавания проверьте установленные опции: язык распознавания, режим распознавания и тип печати распознаваемого текста.

Вы можете:

1. Распознать блок или несколько блоков, выделенных на изображении.

2. Распознать открытую страницу или все страницы, выделенные в окне Пакет.

3. Распознать все нераспознанные страницы пакета.

4. Распознать все страницы в фоновом режиме. В этом режиме возможно распознавание с одновременным редактированием уже распознанных страниц.

5. Распознать страницы в режиме распознавания с обучением. Данный режим применяется в основном для распознавания текстов, использующих декоративные шрифты, или для распознавания большого объема (более 100 страниц) документов низкого качества печати.

6. Распознать страницы одного пакета на нескольких компьютерах одновременно.

Замечание: Эта возможность доступна только для ABBYY FineReader 8.0 Corporate Edition (Site License Edition).

Чтобы запустить распознавание:

  • Нажмите кнопку 2–Распознать на панели Scan&Read.
  • В меню Процесс выберите нужный вам пункт:
    • Распознать – чтобы распознать открытую страницу или все страницы, выделенные в окне Пакет;
    • Распознать все – чтобы распознать все нераспознанные страницы пакета;
    • Распознать блок – чтобы распознать один или несколько блоков, выделенных на изображении;
    • Запустить фоновое распознавание – чтобы запустить распознавание в фоновом режиме.

Кнопка 2–Распознать запускает распознавание открытого изображения. Чтобы изменить режим кнопки, нажмите на стрелку справа от нее и из открывшегося меню выберите нужный пункт.

Замечание. При распознавании уже распознанной страницы перераспознаются только отредактированные и добавленные блоки.

Язык распознавания

ABBYY FineReader поддерживает распознавание как одноязычных, так и многоязычных (например, английско–французских) документов.

Чтобы указать язык распознаваемого текста: Выберите соответствующую строку в списке на панели Распознавание.

Если вы хотите распознать документ, написанный на нескольких языках:

  • 1. В списке языков на панели Стандартная выберите пункт Выбор нескольких языков...
  • 2. В открывшемся диалоге Язык распознаваемого текста укажите несколько языков. Для этого: отметьте пункты с соответствующими названиями языков.

Совет: Если вы часто используете какую–либо комбинацию языков, то создайте новую группу, содержащую эти языки.

Внимание!

1. Увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2–3 языков.

2. Перед запуском распознавания проверьте шрифты, выбранные на закладке Сохранить диалога Опции: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в окне Текст (в словах на месте некоторых букв будут стоять значки "?" или "?"). Подробнее см. раздел "Шрифты, необходимые для корректного отображения символов поддерживаемых языков в редакторе ABBYY FineReader".

Если нужного языка нет в списке, возможно:

1. Данный язык не поддерживается системой ABBYY FineReader. Полный список языков приведен в разделе "Поддерживаемые языки распознавания".

2. Язык исключен из списка языков, показываемых на панели Стандартная. В этом случае в списке языков на панели Стандартная выберите пункт Выбор из полного списка языков и в открывшемся диалоге Язык распознаваемого текста укажите необходимый язык.

3. Язык был отключен при выборочной установке. Чтобы установить языки распознавания, в меню Пуск на Панели Задач выберите пункт Настройка/Панель управления, затем в диалоге Панель управления выберите пункт Установка и удаление программ. Из списка установленных программ выберите программу ABBYY FineReader 8.0 и нажмите кнопку Изменить. В диалоге Выборочная установка выберите нужные языки. Далее следуйте инструкциям программы установки.

Замечание. При установке убедитесь в том, что вы указали ту же папку, в которую вы ранее установили ABBYY FineReader.

4. Ваша копия программы ABBYY FineReader была приобретена в интернет–магазине. Для уменьшения времени загрузки в данную версию программы входят только наиболее распостраненные языки интерфейса и языки распознавания. Для того чтобы загрузить недостающие языки, в меню Пуск/Программы/ABBYY FineReader 8.0 выберите команду Загрузить больше языков и следуйте инструкциям программы.

Чтобы подключить язык к списку показываемых языков (исключить из списка):

В диалоге Редактор языков (меню Сервис >Редактор языков) выберите язык, который вы хотите подключить/отключить, и отметьте пункт (снимите отметку) Показывать в списке языков.

Совет: Вы можете установить язык распознавания на отдельный блок. Для этого щёлкните правой кнопкой мыши на блоке, для которого вы хотите установить язык распознавания, отличный от языка распознавания для всего текста, и из локального меню выберите пункт Свойства. В открывшемся диалоге Свойства на закладке Блок в поле Язык распознавания выберите язык распознавания выделенного блока.

Тип печати входного текста

Для большинства текстов тип печати определяется автоматически. Этому соответствует значение Авто, установленное в группе Тип печати в диалоге Дополнительные опции. (Для того чтобы открыть этот диалог, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции).

При распознавании текстов, напечатанных на матричном принтере в черновом режиме или на пишущей машинке, можно добиться более высокого качества распознавания, установив правильный Тип печати:

  • для текстов, напечатанных на пишущей машинке – значение Пишущая машинка;
  • для текстов, напечатанных на матричном принтере – значение Матричный принтер.

Фрагмент страницы, напечатанной на матричном принтере в черновом режиме. На картинке видно, что штрихи букв состоят из отдельно стоящих точек.

Фрагмент страницы, напечатанной на пишущей машинке. Ширина букв одинакова (сравните, например, буквы "w" и "t").

Чтобы поменять тип печати: в группе Тип печати в диалоге Дополнительные опции выберите требуемый пункт.

Замечание. После распознавания текстов, напечатанных на пишущей машинке или матричном принтере, не забудьте снова выбрать значение Авто при возвращении к типографскому тексту.

Другие опции распознавания

Режим распознавания

В ABBYY FineReader 8.0 предусмотрено два режима распознавания:

  • Тщательный
    Данный режим пригоден для распознавания как простых, так и сложных документов, в частности, документов, содержащих текст на цветном фоне, или растровый фон, а также для документов, содержащих таблицы, в том числе таблицы без линий сетки и таблиц с цветными ячейками.


    Замечание. По сравнению с Быстрым режимом распознавания Тщательный режим требует больше времени, но обеспечивает лучшее качество распознавания.
  • Быстрый
    Данный режим рекомендуется для обработки больших объемов документов с простым оформлением и хорошим качеством печати.

Для выбора режима распознавания откройте диалог Опции (меню Сервис >Опции) и перейдите на закладку Распознать.

Распознавание PDF документов

Программа ABBYY FineReader извлекает текстовые данные из PDF документа и использует их при распознавании. Такой способ ускоряет обработку PDF документов в 2 – 3 раза. Однако, файлы формата PDF могут иметь нестандартные кодировки. Текст, извлеченный из таких файлов, содержит много ошибок. Если распознанный текст содержит большое количество неуверенно распознанных символов: на закладке Распознать диалога Опции (меню Сервис >Опции) в группе Распознавание PDF документов отметьте пункт Распознавать PDF как изображение и распознайте документ повторно.

Распознавание штрих–кодов

Если вы хотите, чтобы ABBYY FineReader 8.0 автоматически распознавал штрих–коды, убедитесь в том, что в группе Распознать диалога Дополнительные опции отмечен пункт Искать штрих–коды. В этом случае штрих–коды, найденные на изображениях, будут выделены в отдельные блоки типа Штрих–код, при распознавании программа считает штрих–код и преобразует его в набор символов. Полный перечень штрих–кодов, поддерживаемых ABBYY FineReader 8.0, см. в разделе "Типы блоков".

Замечание. Для того чтобы открыть диалог Дополнительные опции, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции (меню Сервис >Опции).

Показ изображения при распознавании

Распознавание группы страниц происходит быстрее, если обрабатываемое изображение не показывается. Если вы хотите ускорить процесс распознавания: в группе Вид диалога Дополнительные опции снимите отметку с пункта Показывать изображение при распознавании. (Для того чтобы открыть этот диалог, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции).

Ориентация текста в блоке

Если программа некорректно распознала блоки с вертикальным направлением текста (текстовый блок, ячейки таблицы): Щёлкните правой кнопкой мыши по блоку с вертикальным направлением текста и в локальном меню выберите пункт Свойства. В открывшемся диалоге Свойства выберите нужный вариант в списке Направление текста и распознайте изображение заново.

Инвертированный и отраженный текст в блоке

Если программа некорректно распознала блоки с инвертированным или отраженным текстом (текстовый блок, ячейка таблицы или вся таблица), то: Щёлкните правой кнопкой мыши на нужном блоке и в локальном меню выберите пункт Свойства. В открывшемся диалоге Свойства выпадающем списке Инверсия текста выберите нужный пункт, а также отметьте опцию Отраженный текст и распознайте изображение заново.

Распознавание в фоновом режиме

Если вы хотите одновременно с распознаванием редактировать распознанные страницы, вы можете запустить распознавание в фоновом режиме: В меню Процесс выберите пункт Запустить фоновое распознавание. В строке состояния внизу экрана появится значок . Если для окна Пакет выбран режим показа свойства страниц (локальное меню, пункт Окно Пакет>Со свойствами), то напротив распознаваемой страницы в колонке Открыта появится значок .

В этом режиме распознавание автоматически возобновляется, как только в пакете появляются нераспознанные страницы.

Замечание. На многопроцессорных компьютерах режим "Фоновое распознавание" позволяет увеличить скорость распознавания пакетов, содержащих большое количество страниц.

Чтобы остановить Распознавание в фоновом режиме: В меню Процесс выберите пункт Остановить фоновое распознавание.

Внимание! В режиме работы Распознавание в фоновом режиме используются опции, установленные в программе до запуска фонового распознавания.

Распознавание с обучением

Как было отмечено, программа ABBYY FineReader позволяет вводить тексты разного качества, напечатанные практически любыми шрифтами. Тексты хорошего и среднего качества, а также шрифты обычного начертания распознаются без предварительного обучения.

Режим "Распознавание с обучением" используется для:

1. распознавания текстов, для набора которых использованы декоративные шрифты;

2. распознавания текстов, в которых встречаются специальные символы (например, отдельные математические символы);

3. распознавания большого объема (более 100 страниц) текста плохого качества.

В других случаях Распознавание с обучением использовать не рекомендуется, т.к. затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.

Обучение проводится при распознавании одной–двух страниц текста в специальном режиме. В результате создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста. Некоторые пары или тройки символов в тексте могут склеиваться. Если при обучении вам не удается переместить описывающий прямоугольник так, чтобы он заключал в себя один целый символ и не содержал при этом части соседних, то Вы можете обучить программу сочетанию символов, которые невозможно "расклеить". Такие неразделяемые сочетания двух или трех символов называются лигатурами. Это, например, такие сочетания, как ед, от, ff, ffi, ffl и другие.

Внимание!

1. Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, что и документ, на котором данный эталон создавался.

2. При удалении пакета эталон также удаляется.

Вы можете сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в файл набора опций (*.fbt).

3. При переходе к распознаванию текстов, напечатанных другим шрифтом, не забудьте отключить эталон (на закладке Распознать, меню Сервис >Опции установите переключатель в положение Не использовать пользовательский эталон).

Последовательность действий при распознавании с обучением:

1. Установите режим Распознавание с обучением (на закладке Распознать диалога Опции (меню Сервис >Опции) в группе Обучение выберите пункт Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).

2. Нажмите кнопку 2–Распознать.

3. Обучите эталон, распознав одну–две страницы в режиме распознавание с обучением. Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.

4. Отредактируйте эталон.

5. Отмените режим Распознавание с обучением (на закладке Распознать в группе Обучение выберите пункт Распознавание с пользовательским эталоном).

6. Запустите распознавание основного текста, нажав на кнопку 2–Распознать.

Замечания.

1. Чтобы создать несколько эталонов для одного пакета, воспользуйтесь диалогом Редактор эталонов (вызывается с закладки Распознать с помощью нажатия кнопки Эталоны или из меню Сервис >Редактор эталонов). Создайте новый эталон (нажмите в диалоге на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default–эталоном, см. выше пп 1–5.

2. Если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.

Чтобы подключить другой эталон для распознавания, в диалоге Редактор эталонов (меню Сервис >Редактор эталонов) в списке эталонов выберите эталон и нажмите кнопку Выбрать. На закладке Распознать в группе Обучение выберите опцию Распознавание с пользовательским эталоном.

3. Если на закладке Распознать отмечена опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит обучить только неуверенно распознанные символы.

Если вы обучаете программу декоративным или нестандартным шрифтам (например, тибетскому) и при этом используете встроенные эталоны, программа может распознать часть символов неправильно, не предложив их выучить. В этом случае рекомендуется снять отметку с опции Использовать встроенные эталоны: будет производиться обучение каждому символу.

Обучение эталона

1. Проверьте, чтобы на закладке Распознать (меню Сервис >Опции) в группе Распознавание с обучением переключатель был установлен в положение Распознавание с обучением.

2. Нажмите кнопку 2–Распознать. Программа начнет распознавание. Как только встретится символ, подлежащий обучению, откроется диалог Ручное обучение эталона с изображением этого символа.

Обучение символу

Описывающий прямоугольник в верхней части диалога должен содержать один целый символ. Если он содержит часть буквы или более одной буквы, то с помощью мыши или кнопок и прямоугольник можно передвинуть так, чтобы он охватывал одну целую букву.

Далее введите нужный символ и нажмите кнопку Обучить.

Внимание!

1. Обучение возможно только для символов, входящим в алфавит языка. Если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинацию из двух символов, или вы можете скопировать требуемый символ из Таблицы символов (открывается при нажатии в диалоге Ручное обучение эталона кнопки ).

2. Если в обучаемом тексте встречаются слова, набранные курсивом или полужирным, и вам важно сохранить гарнитуру шрифта в распознанном тексте, то при обучении таким символам в диалоге Ручное обучение эталона следует отметить пункты Курсив или Полужирный соответственно.

3. При обучении следите за тем, чтобы изображениям заглавных букв соответствовали заглавные буквы, а изображениям строчных букв – строчные.

Если в процессе обучения вы ошиблись, то можно нажать кнопку Вернуться, и охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара "изображение – символ" будет удалена из эталона. Кнопка Вернуться действует в пределах одного слова.

Обучение лигатурам

Лигатуры – это сочетания двух или трех символов, которые из–за особенностей их начертания невозможно разделить при обучении и которым поэтому сразу обучаются как комбинации символов. Обучение лигатурам происходит так же, как и обучение отдельным символам:

1. В строке для ввода символа введите нужное сочетание символов и нажмите кнопку Обучить.

2. Описывающий прямоугольник в верхней части диалога должен содержать сочетание целиком. Передвинуть прямоугольник можно с помощью мыши или используя кнопки и .

В одном эталоне может содержаться до 1000 новых символов. Однако не следует создавать слишком много лигатур, т.к. это может отрицательно сказаться на качестве распознавания.

При обучении необходимо учесть следующие ограничения:

1. Изображения некоторых символов не различаются системой распознавания и сопоставляются с каким–то одним символом. Например, прямой ('), левый (‘) и правый (’) апострофы хранятся в эталоне как изображение прямого апострофа. Таким образом, в результате распознавания в тексте никогда не появится правый или левый апостроф, хотя при обучении были указаны именно эти символы.

2. Для некоторых изображений решение о том, какому символу в распознанном тексте сопоставить встретившееся конкретное изображение, принимается на основе общего анализа распознанного текста. Так, например, решение о том, является ли символ, обозначаемый "кружком", буквой о или цифрой ноль, система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.

Редактирование эталона

Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется, отредактировать его. Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из–за неправильно обученного эталона.

Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными подписями следует удалить из эталона.

Чтобы отредактировать эталон:

1. В меню Сервис выберите пункт Редактор эталонов...

2. В открывшемся диалоге Редактор эталонов выберите нужный эталон и нажмите кнопку Редактировать... Перед Вами откроется диалог Символы пользовательского эталона.

3. Выбрав символ, нажмите кнопку Свойства, чтобы отредактировать подпись и указать правильное начертание: курсив, полужирный, верхний или нижний индексы, или нажмите кнопку Удалить, чтобы удалить неправильно обученные символы.

Пользовательские языки и группы языков

Вы можете использовать не только предопределенные языки и группы языков, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их.

Когда надо создавать новый язык:

1. Для подключения пользовательского словаря. Например, необходимо распознать русский текст, содержащий аббревиатуры. Вы можете создать словарь аббревиатур и подключить его к пользовательскому языку. На основе русского языка с подключенным системным словарем и языка, созданного Вами с подключенным словарем аббревиатур, вы можете создать группу для дальнейшего её использования при распознавании ваших текстов.

2. Для распознавания документов специального вида. Например:

  • Страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы можете создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.
  • Документ использует только заглавные буквы английского языка. В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не могут встретиться в тексте, в данном случае – все строчные буквы.

Когда надо создавать группу языков: Если вы часто используете какую–нибудь комбинацию языков.

Создать язык или группу языков можно из диалога Редактор языков (меню Сервис, пункт Редактор языков).

Создание нового языка

Чтобы создать новый язык распознавания:

1. В меню Сервис выберите пункт Редактор языков...

2. Нажмите кнопку Новый. В открывшемся диалоге установите переключатель в положение Создать новый язык на основе существующего и выберите язык, на основе которого вы создаете новый.

3. Перед вами откроется диалог Свойства языка.

При создании нового языка нужно определить следующие параметры (все параметры задаются в диалоге Свойства языка):

1. Имя нового языка.

2. В поле Алфавит языка указан алфавит языка, на основе которого вы создаете новый язык. Если требуется, отредактируйте алфавит, нажав на кнопку .

3. Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:

  • Нет (не подключать словарь к языку).
  • Встроенный словарь (используется словарь, поставляемый с программой).
  • Пользовательский словарь.

Чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в Windows (ANSI)–кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), нажмите кнопку Свойства.

Замечание. Словарные слова пользовательского языка считаются правильными, если в тексте они встретились с той капитализацией, в которой они заданы в словаре, а также в каком–либо стандартном виде: всеми маленькими, всеми большими буквами или с большой буквы:

Регулярное выражение (задается грамматика нового языка; подробнее о регулярных выражениях см. Регулярные выражения).

Замечания.

1. Нажав в диалоге Свойства языков на кнопку Дополнительно, вы можете указать дополнительные свойства нового языка, например, игнорируемые внутри слова символы или исключенные из распознавания символы и т.д.

2. По умолчанию пользовательский язык будет сохранен в папку пакета. Версия ABBYY FineReader Corporate Editoin (Site License Edition) позволяет указать другую папку. Более подробно о коллективной работе с пользовательскими языками и словарями к ним см. раздел "Коллективная работа с пользовательскими языками и пользовательскими словарями".

Создание новой группы языков

Если при распознавании текстов Вы часто используете некоторое сочетание языков, то Вы можете создать группу, в которую объединены эти языки. Созданная группа появится в списке языков на панели Стандартная.

Замечание. Вы можете указать комбинацию языков непосредственно в списке языков на панели Стандартная. Для этого выберите в списке строку Выбор нескольких языков. В открывшемся диалоге Язык распознаваемого текста отметьте необходимые языки.

Чтобы создать группу языков для распознавания:

1. В меню Сервис выберите пункт Редактор языков... и нажмите на кнопку Новый. В открывшемся диалоге выберите пункт Создать новую группу.

2. Перед вами откроется диалог Свойства группы языков.

Что нужно определить для новой группы языков (все параметры задаются в диалоге Свойства группы):

1. Имя группы.

2. Подключенные языки.

Замечания.

1. Вы можете указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоге Свойства группы языков нажмите кнопку Дополнительно и в диалоге Дополнительные свойства группы языков отметьте соответствующие символы.

2. По умолчанию пользовательская группа языков будет сохранена в папку пакета. ABBYY FineReader Corporate Editoin (Site License Edition) позволяет указать другую папку. Более подробно о коллективной работе с пользовательскими языками и словарями к ним см. раздел "Коллективная работа с пользовательскими языками и пользовательскими словарями".


Предыдущая |  Следующая |  Содержание



Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2024