Историю Большого театра оцифруют

Информационные технологии добрались и до театральной сцены. Проект по оцифровке всех уникальных афиш, программок спектаклей и фотографий первым запустил Большой театр. Реализовать задуманное помогут отечественные разработчики интеллектуального программного обеспечения.

Все оцифрованные материалы войдут в электронную базу данных, ознакомиться с которой можно на специальном интернет-портале. Сайт, который будет постоянно дополняться информацией, уже работает, и к концу года там должны появиться первые документы. В результате каждый сможет увидеть афиши с именами знаменитых солистов, узнать, какие оперы и балеты ставились на сцене театра чаще всего, что входило в его репертуар в конце XIX века и в годы Великой Отечественной войны. В перспективе архив пополнится эскизами театральных декораций великих русских художников. Эта информация может быть полезна как искусствоведам, так и просто любителям театра. Кроме того, оцифровка исторических материалов позволит дольше сохранить оригиналы в неизменном виде.

Проект волонтерский, так что любой желающий может помочь театру собрать историю в цифровом виде. Коллекция музея театра насчитывает 48 тысяч афиш, 120 тысяч программок и более 100 тысяч фотографий. По словам гендиректора Большого театра Владимира Урина, если бы вся информация вносилась в базу данных вручную, работа могла бы занять около десяти лет. Но привлечение современных технологий и волонтеров позволит закончить проект гораздо быстрее.

Проект делится на три этапа. Сначала все документы сканируются и распознаются. Многие исторические афиши и программы уже очень хрупкие, поэтому работа должна быть максимально аккуратной. Затем из отсканированных документов извлекаются данные: имена артистов, дирижеров, названия спектаклей и прочее. Оба этапа требуют тщательной проверки, чтобы исключить ошибки, возможные при оцифровке, и максимально приблизить электронные версии документов к оригиналу. Решить эту задачу помогут волонтеры. Также им будет полностью отдан третий этап проекта - рубрикация исторических фотографий.

По словам Владимира Урина, оцифровка коллекций документов в театрах уже стала мировым трендом. Ряд зарубежных театров тоже ведет такую работу, среди них Метрополитен-опера, Венская и Парижская опера. "Но не все имеют такую длинную историю, как Большой театр. Кроме того, другие театры проводят оцифровку документов в обратном порядке, начиная с последних постановок", - заметил Владимир Урин.

Афиши и фотографии Большого театра можно будет увидеть на специальном сайте в конце года

Для извлечения данных из исторических документов будут использоваться технологии компьютерного зрения и текстовая аналитика. "Эти решения можно отнести к классу искусственного интеллекта, - рассказал генеральный директор разработчика Abbyy Россия Юрий Корюкин. - В комплексе они позволяют выделить необходимую информацию их неструктурированного текста, например, афиши с картинками или программки спектакля. А в старых афишах еще и используются непростые шрифты, это осложняет задачу".

Конечно, весь массив данных нужно будет проанализировать и структурировать. "Все данные, проверенные волонтерами, будут переданы сотрудникам музея, которым предстоит серьезная научная работа: сверить полученную информацию с каталогами опер, балетов, постановок, спектаклей и персоналий - уточнить, дополнить и расширить их, - добавил руководитель направления "Опера" проекта "Открой историю Большого" Евгений Цодоков. - По мере работы все программки, афиши, фотографии и информация из справочников будут постепенно выкладываться в электронную базу данных с удобной поисковой системой и станут доступны всем".

Аналогичные технологии распознавания текста уже использовались для оцифровки собрания сочинений Льва Николаевича Толстого, которое включает в себя 90 томов. "В этом проекте не стояла задача излечения информации, но было много работы, связанной с форматированием текста", - добавил Юрий Корюкин.

Распознавание и интеллектуальный анализ текстовой информации уже активно начинают использовать разные сегменты бизнеса. Раньше в системах документооборота значительная часть информации извлекалась из текста "вручную". Но программы распознавания позволяют автоматически обрабатывать тексты с пониманием смысла, извлечением фактов, рубрикацией и поиском аналогичных документов. Используя приложение с компьютерным зрением на смартфоне можно, например, отсканировать визитную карточку коллеги, и программа сама запишет в вашу телефонную книгу все данные о человеке: имя, фамилию, телефон и почту.