Все оцифрованные материалы войдут в электронную базу данных, ознакомиться с которой можно на специальном интернет-портале. Сайт, который будет постоянно дополняться информацией, уже работает, и к концу года там должны появиться первые документы. В результате каждый сможет увидеть афиши с именами знаменитых солистов, узнать, какие оперы и балеты ставились на сцене театра чаще всего, что входило в его репертуар в конце XIX века и в годы Великой Отечественной войны. В перспективе архив пополнится эскизами театральных декораций великих русских художников. Эта информация может быть полезна как искусствоведам, так и просто любителям театра. Кроме того, оцифровка исторических материалов позволит дольше сохранить оригиналы в неизменном виде.
Проект волонтерский, так что любой желающий может помочь театру собрать историю в цифровом виде. Коллекция музея театра насчитывает 48 тысяч афиш, 120 тысяч программок и более 100 тысяч фотографий. По словам гендиректора Большого театра Владимира Урина, если бы вся информация вносилась в базу данных вручную, работа могла бы занять около десяти лет. Но привлечение современных технологий и волонтеров позволит закончить проект гораздо быстрее.
Проект делится на три этапа. Сначала все документы сканируются и распознаются. Многие исторические афиши и программы уже очень хрупкие, поэтому работа должна быть максимально аккуратной. Затем из отсканированных документов извлекаются данные: имена артистов, дирижеров, названия спектаклей и прочее. Оба этапа требуют тщательной проверки, чтобы исключить ошибки, возможные при оцифровке, и максимально приблизить электронные версии документов к оригиналу. Решить эту задачу помогут волонтеры. Также им будет полностью отдан третий этап проекта - рубрикация исторических фотографий.
По словам Владимира Урина, оцифровка коллекций документов в театрах уже стала мировым трендом. Ряд зарубежных театров тоже ведет такую работу, среди них Метрополитен-опера, Венская и Парижская опера. "Но не все имеют такую длинную историю, как Большой театр. Кроме того, другие театры проводят оцифровку документов в обратном порядке, начиная с последних постановок", - заметил Владимир Урин.
Для извлечения данных из исторических документов будут использоваться технологии компьютерного зрения и текстовая аналитика. "Эти решения можно отнести к классу искусственного интеллекта, - рассказал генеральный директор разработчика Abbyy Россия Юрий Корюкин. - В комплексе они позволяют выделить необходимую информацию их неструктурированного текста, например, афиши с картинками или программки спектакля. А в старых афишах еще и используются непростые шрифты, это осложняет задачу".
Конечно, весь массив данных нужно будет проанализировать и структурировать. "Все данные, проверенные волонтерами, будут переданы сотрудникам музея, которым предстоит серьезная научная работа: сверить полученную информацию с каталогами опер, балетов, постановок, спектаклей и персоналий - уточнить, дополнить и расширить их, - добавил руководитель направления "Опера" проекта "Открой историю Большого" Евгений Цодоков. - По мере работы все программки, афиши, фотографии и информация из справочников будут постепенно выкладываться в электронную базу данных с удобной поисковой системой и станут доступны всем".
Аналогичные технологии распознавания текста уже использовались для оцифровки собрания сочинений Льва Николаевича Толстого, которое включает в себя 90 томов. "В этом проекте не стояла задача излечения информации, но было много работы, связанной с форматированием текста", - добавил Юрий Корюкин.
Распознавание и интеллектуальный анализ текстовой информации уже активно начинают использовать разные сегменты бизнеса. Раньше в системах документооборота значительная часть информации извлекалась из текста "вручную". Но программы распознавания позволяют автоматически обрабатывать тексты с пониманием смысла, извлечением фактов, рубрикацией и поиском аналогичных документов. Используя приложение с компьютерным зрением на смартфоне можно, например, отсканировать визитную карточку коллеги, и программа сама запишет в вашу телефонную книгу все данные о человеке: имя, фамилию, телефон и почту.