Публикация:
Журнал Палантир, линк
Суммарно в антологии имеется около 40 тысяч страниц текста, а также несколько часов аудиоматериалов. На первый взгляд ничего удивительного, но при ближайшем рассмотрении оказывается, что далеко не все текстовые материалы распознаны - несколько тысяч страниц хранятся в "первосканном" состоянии, то есть в виде картинок. Почему? Да потому что современные средства распознавания далеко не идеальны - даже "простые" тексты без диакритики и спецсимволов распознаются посредственно, со значительным количеством ошибок. Чего же ждать от лингвистических работ Профессора? Разумно было бы оставить их в оригинальном исполнении, что и было сделано.
Естественно возникает вопрос - как же удалось разместить такое количество информации на одной "болванке"? На сегодняшний день наиболее распространены два формата хранения отсканированных текстов - адобовский PDF и открытый DJVU. С точки зрения компрессии информации, каждый из них обладает своими недостатками: PDF плохо сжимает нераспознанные тексты, а DJVU пасует на иллюстрациях. Кроме того, каждый из этих форматов является "узким" стандартом, и накладывает серьезные ограничения на каталогизацию, поиск, и любое дальнейшее использование материалов. Разработчики ТТА учли недостатки этих форматов, и создали свою оригинальную методику хранения - открытую, масштабируемую, полностью прозрачную, базирующуюся на использовании HTML. Проанализировав содержание диска, можно предположить, в чем заключается эта методика. Для каждого специфического типа данных подбирается свой оптимальный медиаформат, поддерживаемый любым HTML-броузером. К примеру, иллюстрации хранятся в jpg, распознанный текст как есть, а нераспознанные страницы или даже абзацы - в png. Все эти данные связываются воедино обыкновенными HTML-файлами, соответствующими страницам оригинала. Они открываются любым браузером на любом компьютере, не требуют установки дополнительного программного обеспечения, позволяют легко копировать всю заключенную в них информацию. Подобный подход позволяет вручную регулировать параметры компрессии отдельных элементов проекта, добиваясь оптимального соотношения размер/качество для каждого типа данных. Обратная сторона медали - трудоемкий процесс создания подобных файлов.
И все же, несмотря на универсальность HTML-файлов, работать с многотысячным их массивом без специальных средств навигации было бы неудобно. На этот случай на диске припасена специальная программа-просмотрщик, так и называющаяся - TTA Viewer. ТТА Viewer базируется на ядре Internet Explorer'а, а потому запускается на любой современной ОС Windows прямо с диска и без инсталляции. Он объединяет и каталогизирует всю антологию, а также предоставляет дополнительные возможности по работе с текстами. С помощью ТТА Viewer'a, книгу можно легко распечатать "тетрадкой", чтобы получить ее во плоти почти в оригинальном виде. Можно удобно просматривать несколько документов одновременно, делать закладки. Можно проводить не только обыкновенный поиск, но и поиск по неточным совпадениям - в последнем случае алгоритм выдаст все слова, написание которых более-менее похоже на введенное ключевое слово. Эта возможность особенно полезна, ведь она компенсирует потенциальные ошибки распознавания, которые не позволяют найти искомое слово обыкновенным способом. Надо отметить и скорость работы поиска - благодаря оригинальной системе индексирования, "просмотр" всего содержимого диска занимает считанные секунды. Вообще, быстродействие ТТА Viewer'a заслуживает отдельной похвалы - диск "летает" даже на старых компьютерах класса Pentium II.
Наряду со многими блестящими техническим решениями, есть у проекта ТТА и минусы. Как уже упоминалось, многие тексты изобилуют ошибками распознавания. К сожалению, никаких средств для исправления этих ошибок не предусмотрено. Структура проекта не модульная: добавить новую или исправить имеющуюся книгу в нем невозможно. В качестве ключевых слов для поиска можно использовать только буквенные выражения, фразы, в составе которых есть спецсимволы и цифры, ищутся некорректно. Кроме того, хитрая система именования директорий с файлами вкупе с глубокой вложенностью директорий затрудняют копирование диска. Перенести проект на HDD просто так тоже не получится - необходимо использовать специализированный софт и работать с образом компакт диска. Еще с одним небольшим неудобством вы столкнетесь при переносе части текста через буфер обмена во внешнее приложение (Word, например): табличная структура материалов плохо переносит копирование, отчего в некоторых случаях исходное форматирование портится, таблицы уродливо растягиваются. Впрочем, это неудобство легко преодолеть: в Word’e достаточно воспользоваться опцией «Правка -> Специальная вставка -> Неформатированный текст» вместо традиционной Ctrl+V. При копировании в другие приложения, не поддерживающие специальные вставки, можно использовать Блокнот в качестве промежуточного звена, ликвидирующего табличную структуру.
Оставить комментарий