57
шения в данном случае является достаточно непростым. Распозна-
вание предоставляет возможность посимвольной обработки текста
и, следовательно, разнообразных способов работы с текстами (по-
иск, редактирование, экспорт, импорт и т. д.). Совершенно нерас-
познанный текст низкофункционален: поиск документа возможен
только по данным, содержащимся в метаинформации, затруднена
навигация по документу, невозможно использование блоков текста
документа без их распознавания. Зато представление электронных
документов в виде графических образов позволяет сохранить ин-
дивидуальные особенности исходного издания и полностью обес-
печивает адекватность электронного представления и печатного
оригинала. Поэтому оцифровка древних рукописей, особо ценных
документов или текстов, к достоверности которых предъявляются
особые требования, осуществляется в виде графических образов.
Кроме
того, оцифровка документов с переводом в символьные
форматы значительно дороже, поскольку сначала осуществляется
сканирование с переводом текста в графический образ, а затем про-
изводится распознавание знаков текста при помощи программ оп-
тического распознавания символов (OCR). Программы OCR рабо-
тают не идеально, допуская определенное количество ошибок, по-
этому для качественной подготовки текста требуется еще
и ручная
корректура. Количество ошибок при работе программ OCR зависит
от качества текста. При переводе хорошего четкого текста количе-
ство ошибок составляет 1 % и менее. В то же время при оцифровке
старых геологических отчетов количество ошибок доходило до
50 %. Для текстов «неоптимальных» для распознавания, например
рукописных текстов и текстов с математической нотацией, нетра
-
диционных алфавитов и др., проблема зачастую не может быть ре-
шена достаточно удовлетворительно в обозримом будущем.
Альтернативой технологии «сканирование – распознавание –
корректура» является технология ручного ввода (перепечатка) тек-
ста, которая во многих случаях оказывается дешевле.
Необходимо отметить, что представление текста в виде образа
требует очень много машинной памяти для хранения, особенно
при использовании сканирования с высоким разрешением. Напри-
мер, при достижении качества электронного документа, сопоста-
вимого с художественной фотографией, при его записи создаются
файлы объемом до 1 Гб на один рисунок. Но даже обычная стра-
ница черно-белого текста требует в 50–100 раз большего объема
памяти, чем тот же текст в символьном виде.
Исходя
из сказанного, представляется оптимальным решать во-
прос о глубине распознавания каждого объекта индивидуально.
Практически во всех случаях должен быть распознан справочный
аппарат книги, что даст хороший материал для организации поис-
ка и навигации. Для наиболее важных и востребованных объектов
распознавание должно быть максимально полным. При этом нали-
чие распознанного текста
не должно являться основанием для ис-
ключения из депозитарной копии графических образов данных