Секреты сканирования на ПК - Леонтьев Б. К.. Страница 17

В процессе удаления пакета эталон также удаляется.

Вы имеете возможность сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в формате шаблона пакета (*.fbt).

В процессе перехода к распознаванию текстов, набранных другим шрифтом, не забудьте отключить эталон (Сервис к Опции к Распознавание) активизируйте переключатель Не использовать пользовательский эталон.

Как начать распознавать с обучением

Установите режим Распознавание с обучением (на закладке Распознавание, меню Сервис к Опции в разделе Распознавание с обучением активизируйте переключатель Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).

Нажмите на кнопку 2-Распознать.

Обучите эталон, распознав одну-две страницы в режиме распознавание с обучением.

Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения OCR-система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.

Отредактируйте эталон.

Отмените режим Распознавание с обучением (на закладке Распознавание в разделе Обучение установите переключатель Распознавание с пользовательским эталоном).

Запустите распознавание основного текста, нажав на кнопку 2-Распознать.

Важно: Для того, чтобы создать несколько эталонов на один пакет, воспользуйтесь диалогом Редактор эталонов (доступ:Сервис к Редактор эталонов). Создайте новый эталон (нажмите в диалоговом окне на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default-эталоном.

В случае, если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.

Для того, чтобы подключить другой эталон для распознавания, в диалоговом окне Редактор эталонов (доступ: Сервис к Редактор эталонов) в списке эталонов выберите эталон и просто нажмите на кнопку Выбрать. На закладке

Распознавание в разделе Обучение активизируйте переключатель Распознавание с пользовательским эталоном.

В случае, если на закладке Распознавание активизирована опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит вам обучить только неуверенно распознанные символы.

В случае, если вы обучаете программу декоративным или нестандартным шрифтам и при этом используете встроенные эталоны, то OCR-система может распознать часть символов неправильно, не предложив их обучить. В этом случае дезактивируйте опцию Использовать встроенные эталоны.

Как обучить эталон

Перед обучением обратитесь к закладке Распознавание (доступ: Сервис к Опции) и в разделе Распознавание с обучением активизируйте опцию Распознавание с обучением.

Нажмите на кнопку 2-Распознать. Программа начнет распознавание. Как только встретится символ, подлежащий обучению, откроется диалоговое окно Ручное обучение эталона с изображением этого символа.

Как обучить символ

Описывающий прямоугольник в верхней части диалогового окна должен содержать один целый символ. В случае, если он содержит часть буквы или более одной буквы, то посредством мыши или кнопок и прямоугольник можно передвинуть так с тем, чтобы он охватывал одну целую букву.

Далее введите нужный символ и просто нажмите на кнопку Обучить.

Важно: Обучать можно только символам, входящим в алфавит языка.

В случае, если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинацию из двух символов или вы имеете возможность скопировать требуемый символ из Таблицы символов (открывается при нажатии в диалоговом окне Ручное обучение эталона кнопки).

В случае, если в обучаемом тексте встречаются слова, набранные курсивом или полужирным, и вам важно сохранить гарнитуру шрифта в распознанном тексте, то при обучении таким символам в диалоговом окне Ручное обучение эталона активизируйте опции Курсив или Полужирный.

В процессе обучения следите за тем с тем, чтобы изображениям заглавных букв соответствовали заглавные буквы, а изображениям строчных букв — строчные.

В случае, если при обучении вы ошиблись, то можно нажать кнопку Вернуться, и охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара «изображение — символ» будет удалена из эталона. Кнопка Вернуться действует в пределах одного слова.

Обучение лигатурам

Лигатуры — это сочетания двух или трех символов, которые из-за особенностей их начертания невозможно разделить при обучении и которые поэтому сразу обучаются как комбинация символов. Обучение лигатурам происходит так же, как и обучение отдельным символам.

В строке для ввода символа введите необходимое сочетание символов и просто нажмите на кнопку Обучить.

Описывающий прямоугольник в верхней части диалогового окна должен содержать сочетание целиком. Передвинуть прямоугольник можно посредством мыши.

В одном эталоне может содержаться до 1000 новых символов. Кроме этого помните, что, не следует создавать слишком много лигатур, так как это может отрицательно сказаться на качестве распознавания.

В процессе обучения необходимо учитывать следующие ограничения:

• Изображения некоторых символов не различаются системой распознавания и сопоставляются с каким-то одним символом. К примеру, прямой ('), левый (') и правый (') апострофы хранятся в эталоне как изображение прямого апострофа. Таким образом, в результате распознавания в тексте никогда не появится правый или левый апостроф, хотя при обучении вы указывали именно эти символы.

• Для некоторых изображений решение относительно того, какому символу в распознанном тексте его сопоставить, принимается на основе общего анализа распознанного текста. Так, например, решение относительно того, является ли символ, обозначаемый «кружком», буквой "о" или цифрой ноль, OCR-система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.

Редактирование эталона

Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется, скорректировать. Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из-за неправильно обученного эталона.

Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными подписями следует удалить из эталона.

Как скорректировать эталон

Из меню Сервис выберите команду Редактор эталонов.

В раскрывшемся диалоговом окне Редактор эталонов выберите нужный эталон и просто нажмите на кнопку Редактировать. Перед вами откроется диалоговое окно Символы пользовательского эталона.

Выбрав символ, просто нажмите на кнопку Свойства с тем, чтобы скорректировать подпись и указать правильное начертание: курсив, полужирный, верхний или нижний индексы, или просто нажмите на кнопку Удалить с тем, чтобы удалить неправильно обученные символы.

Пользовательские языки и группы языков (возможно в версии FineReaderOffice)

Вы имеете возможность использовать не только предопределенные языки и группы, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их.