Секреты сканирования на ПК - Леонтьев Б. К.. Страница 18
Когда необходимо создавать новый язык?
Для подключения пользовательского словаря
К примеру, необходимо распознать русский текст, содержащий аббревиатуры. Вы имеете возможность создать словарь аббревиатур и подключить его к пользовательскому языку. На основе русского языка с подключенным системным словарем и языка, созданного вами с подключенным словарем аббревиатур, вы имеете возможность создать группу для дальнейшего ее использования при распознавании ваших текстов.
Для распознавания документов специального вида
Например, страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы имеете возможность создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.
Документ использует только заглавные буквы английского языка
В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не могут встретиться в тексте, в данном случае — все строчные буквы.
Когда необходимо создавать группу языков? В случае, если вы часто используете какую-нибудь комбинацию языков.
Создать язык или группу языков можно из диалогового окна Редактор языков (доступ: Сервис к Редактор языков).
Создание нового языка
Из меню Сервис выберите команду Редактор языков…
Нажмите на кнопку Новый. В раскрывшемся диалоговом окне активизируйте переключатель Создать копию языка и выберите язык, на основе которого вы создаете новый.
Перед вами откроется диалоговое окно Свойства языка.
В процессе создания нового языка необходимо задать следующие параметры (все параметры задаются в диалоговом окне Свойства языка):
• Имя нового языка.
• В поле Алфавит языка указан алфавит языка, на основе которого вы создаете новый язык. В случае, если требуется, отредактируйте алфавит.
• Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:
• Нет (не подключать словарь к языку).
• Встроенный словарь (используется словарь, поставляемый с программой).
• Пользовательский словарь.
Для того, чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в Windows-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), просто нажмите на кнопку Редактировать.
Важно: Словарные слова пользовательского языка считаются правильными, если в тексте они встретились с той капитализацией, в которой они заданы в словаре, а также в каком-либо стандартном виде: всеми маленькими, всеми большими буквами или с большой буквы.
• Вид слова в словаре. Допустимые варианты написания слова в тексте:
• abc abc, Abe, ABC
• Abc abc, Abc, ABC
• ABC abc, Abc, ABC
• aBc aBc, abc, Abc, ABC
• Регулярное выражение (задается грамматика нового языка).
Важно: Нажав в диалоговом окне Свойства языков на кнопку Дополнительно, вы имеете возможность указать дополнительные свойства нового языка, например, игнорируемые внутри слова символы или исключенные из распознавания символы.
Как создать новую группу языка
Важно: Эта возможность имеется только в версии FineReader Office.
В случае, если при распознавании текстов вы часто используете некоторое сочетание языков, то вы имеете возможность создать группу, в которую объединены эти языки. Созданная группа появится в списке языков на панели Стандартная.
Важно: Вы имеете возможность указать комбинацию языков непосредственно в списке языков на панели Стандартная. Для этого выберите в списке строку Выбор нескольких языков. В раскрывшемся диалоговом окне Язык распознаваемого текста активизируйте необходимые языки.
Как создать группу языков для распознавания
Из меню Сервис выберите команду Редактор языков и просто нажмите на кнопку Новый. В раскрывшемся диалоговом окне выберите команду Создать новую группу.
Перед вами откроется диалоговое окно Свойства группы языков. Здесь вам необходимо задать для новой группы языков (все параметры устанавливаются в диалоговом окне Свойства группы) Имя группы и Подключенные языки.
Важно: Вы имеете возможность указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоговом окне Свойства группы языков просто нажмите на кнопку Дополнительно и в диалоговом окне Дополнительные свойства новой группы активизируйте соответствующие символы.
Глава 34.
Как проверить и отредактировать распознанный текст
После завершения распознавания результат появляется в диалоговом окне Текст. Диалоговое окно Текст — это встроенный редактор программы FineReader; в нем вы имеете возможность проверить результаты распознавания и скорректировать распознанный текст.
Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии.
Система встроенной проверки орфографии дает возможность:
• Находить неуверенно распознанные слова (слова, в которых имеется неуверенно распознанные символы).
• Находить орфографические ошибки (неправильно написанные слова).
• Добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.
Неуверенно распознанные символы и слова, которые отсутствуют в словаре, выделяются различными цветами. По умолчанию для выделения неуверенно распознанных символов используется голубой, для несловарных слов — розовый. Для того, чтобы изменить цвета на закладке Вид (доступ: Сервис к Опции) в поле Объект выберите команду Неуверенно распознанный символ (Несловарное слово) и в поле Цвет — цвет подсветки.
Как проверить результаты распознавания
Нажмите на кнопку З-Проверить на панели Scan amp;Read (или выберите командуПроверка из меню Сервис).
Проверка дает возможность найти в тексте слова, содержащие неуверенно распознанные символы, несловарные слова, а также слова с орфографическими ошибками (клавиатурный эквивалент: F7).
Откроется диалоговое окно Проверка.
В диалоговом окне Проверка имеется три окна. Верхнее диалоговое окно — аналог окна Крупный план, в котором отображено изображение слова с возможной ошибкой. Среднее диалоговое окно показывает само слово с возможной ошибкой, в строке над этим диалоговым окном выводится название типа ошибки. В нижнем диалоговом окне Варианты предлагаются варианты замены данного слова, для которых используется словарь, активизированный вами в списке Язык словаря.
Важно: Для удобства проверки и редактирования текста диалоговое окно Проверка может быть увеличено. Для этого достаточно поместить указатель мыши на границу диалогового окна (указатель превратится в двустороннюю стрелку). Перетаскивая границу, увеличьте или уменьшите размеры диалогового окна.
У вас имеется следующие возможности:
• Нажмите на кнопку Пропустить с тем, чтобы оставить слово, как есть.
• Нажмите кнопку Пропустить все с тем, чтобы оставить все такие слова в распознанном тексте, как есть.
Выберите вариант для замены и просто нажмите на кнопку Заменить или Заменить все с тем, чтобы заменить текущее слово или все такие слова в тексте. В случае, если в диалоговом окне Варианты отсутствует правильный вариант для замены слова, скорректируйте его в среднем диалоговом окне и для того с тем, чтобы заменить текущее слово просто нажмите на кнопку Подтвердить.