О применении метаданных для HDR-видео
Файлы любого медиаконтента за свой жизненный путь - от съемки до прихода на экраны пользователей - обрастают большим количеством специальных меток и вшитой информации. Все их объединяют под общим термином "метаданные", хотя происхождение и сферы применения таких меток весьма разнообразны.
В каждом файле с видео или в его онлайн-потоке содержатся метаданные - информация о другой информации, или данные, относящиеся к дополнительной информации, как это понятие определяют словари. Простейший пример метаданных, знакомый всем, кто хоть раз делал фото смартфоном и потом сохранял его на компьютер, - автоматически формируемый камерой информационный блок: время и дата съемки, метка локации съемки, если включены соответствующие настройки.
Другая часть метаданных создается вручную. Именно такой тип метаданных описывает Google пользователям своего видеохостинга YouTube - название видео, описание и теги. Цель формирования метаданных видеоконтента в понимании Google - облегчить пользователям поиск контента на YouTube. Поэтому ключевой принцип формирования метаданных на самом популярном видеохостинге простой: название единицы контента, его описание и теги должны быть связаны с содержанием видео.
Огромный объем метаданных в индустрии создается на этапе продакшена монтажерами и редакторами телеканалов и продакшен-студий, использующими профессиональные инструменты для чтения и редактирования дополнительной и служебной информации, в том числе для формирования текстовых описаний контента и выделения принципиально важного элемента для последующей навигации потребителей в необъятном контентном море - ключевых слов. Критически важная информация здесь - авторы видеоконтента (режиссеры, сценаристы, продюсеры и т. д.), актерский состав, участники телешоу.
В создании метаданных большую роль также играют разработчики EPG-систем (Electronic Program Guide - интерактивные телегиды), "Мы ежемесячно вкладываем большие ресурсы в подготовку метаданных. Если каждый телеканал отдельно будет проводить эту работу, вновь собирая информацию из разных источников, как это сделали мы, они просто продублируют нашу работу, которую мы сделали в момент появления этого контента. Нет никакого смысла готовить метаданные самим каналам", - рассказывал "Телеспутнику" генеральный директор компании EPG Service Виталий Васильев. По его мнению, самостоятельная подготовка метаданных телеканалами углубляет главную проблему логистики метаданных - отсутствие единых идентификаторов. "Мы выступаем как агрегаторы всей доступной метаинформации о каждой единице контента. Сами телеканалы предоставляют очень мало информации о своем контенте. В этом и состоит суть нашей работы, что мы сами собираем эту информацию и размечаем ее. Это сложная редакторская работа, которой ежедневно у нас заняты больше 30 человек", - пояснял Виталий Васильев.
По мере миграции зрителей из традиционного линейного вещания значение метаданных только увеличивается. Руководитель группы развития видеорекламы "Яндекса" Ирина Скрипникова так описывала в интервью "Телеспутнику" роль сопровождающей телеконтент информации: "Чем подробнее будет описание сетки телевещателей, тем точнее мы сможем настроить рекомендательный сервис. Критически важны здесь точное время начала и окончания программы, описание происходящего внутри передачи, ее тематика, участники, жанр, планируемая аудитория, возможное “черное окно”, то есть невозможность онлайн-показа". В качестве одного из направлений решения проблемы недостаточности объема метаданных Ирина Скрипникова называла интеграцию онлайн-платформ с производителями вещательного оборудования, чтобы облегчить каналам подготовку данных для онлайна. "Для нас было бы идеально, если бы метаданные по умолчанию были вшиты в эфирный поток. Все это можно сделать. Другое дело, что каналы до сих пор живут в старом доонлайновом мире и им не до конца очевидна необходимость таких действий", - подчеркивала представитель "Яндекса".
Главный тренд в работе с метаданными видеоконтента в мировой медиаотрасли - автоматизация их подготовки и распространения. Особенно много говорят об автоматизации применительно к OTT. Роджер Франклин (Roger Franklin), глава компании Crystal, разрабатывающей средства генерации и обработки метаданных, в колонке на портале Videonet приводит один из примеров важности автоматизации подготовки метаданных. Наибольший объем OTT-трафика генерирует контент, появившийся на OTT-платформе в течение часа после премьерной трансляции в онлайн-среде, - к просмотру подключаются зрители, опоздавшие к live-стриму. Однако без автоматизации подготовки метаданных успеть их сформировать за столь короткое время трудно, если только не бросить на "ручную" подготовку значительные ресурсы. "Правильно используемые метаданные по стандарту SCTE (Society of Cable Telecommunications Engineers - Союз инженеров кабельного вещания), уже присутствующие в вещательном стриме, могут подготовить контент для OTT автоматически. Это требует сложных преобразований и доступа к нескольким источникам данных, от системы плей-аута до баз данных продакшена и трафик-генерации. Но для правообладателей затраты того стоят", - рассуждает Роджер Франклин. Он добавляет также, что автоматизация работы с метаданными позволяет кастомизировать рекламу на основе местоположения и личных предпочтений зрителя.
В контексте автоматизации большие надежды возлагают на искусственный интеллект (ИИ), сканирующий все доступные источники информации, в том числе открытые. Израильский разработчик Jinni предложил технологию "генома видео", в рамках которой ИИ определяет "гены фильмов", формируя для каждого из них базу ключевых слов, собранных из открытых источников. "Есть так много разных атрибутов, которые влияют на настроение зрителя и его киновкусы, и все они имеют отношение к фильму", - объясняет основатель и глава Jinni Йоси Глик (Yosi Glick). В компании считают, что фильмы имеют гораздо больше атрибутов, чем включают в обычный набор метаданных, - сотни, если не тысячи атрибутов, - и целесообразно доверить ИИ наполнение расширенных баз данных атрибутов, чтобы зритель точнее задавал при поиске свои критерии выбора, соответствующие сиюминутному настроению. На практике это ведет к тому, что стандартная характеристика фильма или сериала "комедия" или "мелодрама" обрастает веером дополнительных характеристик.
Принципиально иная область формирования и трансляции метаданных на всем пути следования контента от продакшена к экрану - сугубо технологическая, а не контентная. Речь идет о технологиях расширения динамического диапазона (High Dynamic Range, HDR), которые на профильных конференциях в течение последних двух-трех лет эксперты включают в перечень магистральных направлений развития отрасли цифрового видео в одном ряду с 4K UHD.
Генеральный директор компании ARSPRO Антон Артемьев, выступая на конференции издательства "Телеспутник" "Digital TV & Video in Russia. 4K & HDR", объяснял, что 4К и HDR - это две разные сущности. "Говоря профессиональным языком, расширенный динамический диапазон HDR к 4К не имеет никакого отношения. 4К - это размер кадра, а HDR - это глубина, насыщенность, яркость, контрастность. Зритель, видя картинку 4К HDR и SDR, видит разницу невооруженным взглядом", - отметил глава ARSPRO.
Чтобы зритель увидел эту разницу, объясняет заместитель гендиректора ЗАО "МНИТИ" Константин Быструшкин, в технологиях HDR для улучшения изображения на приемной стороне, наряду с обычным совместимым телевизионным сигналом, передаются дополнительные данные (метаданные), которые и позволяют синтезировать его улучшенный вариант. В технических требованиях к телевизионной UHD-системе, описанных в отчете EBU (European Broadcasting Union - Европейский вещательный союз), метаданные HDR делятся на два вида - параметры сигнала и параметры, связанные с контентом. В EBU подчеркивают, что метаданные HDR-видео должны доходить по всей цепочке движения контента до конечной стадии - до абонентского дисплея. "Дисплей должен “знать”, какой вариант HDR подается на его входы, и при необходимости “знать” некоторые или все параметры, необходимые для корректного отображения изображений HDR, сохраняя художественный замысел во всей сквозной цепи", - говорится в требованиях EBU.
Как именно происходит формирование и движение метаданных HDR по цепи распространения контента, можно судить на примере профессиональной линейки съемочного и вещательного оборудования Sony, предназначенного для создания и распространения 4К HDR-контента, кинематографа и рекламы. Исходная картинка может формироваться камерами серии CineAlta, на выход которых поступает 16-битный линейный сигнал, или камерами PMW-F55 и PMW-F5, видео с которых записывается на портативный рекордер AXS-R7 в формате X-OCN (Х-Original Camera Negative, расширенный диапазон тонов цветности). Видео в X-OCN может быть в Full HD или в 4K, однако для нас важнее, что оно поддерживает профиль расширенной цветопередачи Sony S-Gamut3, позволяющий на стадии продакшна сформировать метаданные HDR специальным процессором.
При live-трансляциях изображение формируется камерой HDC-4300, снабженной блоком основного процессора, с выхода которого сигнал в 4K HDR (уже с соответствующими метаданными) уходит на этап продакшена, на котором используются видеоконсоли для редактирования, свитчеры и роутеры, рекордеры и, разумеется, контрольные мониторы, корректно отображающие картинку 4K HDR. В Sony поясняют, что другие исходные HD-сигналы могут включаться в HDR-продакшен после преобразования конвертером HDRC-4000. Этот же конвертер используется на завершающей стадии продакшена, когда необходимо преобразовать студийный сигнал в вещательные форматы (4K HDR PQ (ST 2084) или HLG, 4K SDR, HD HDR и HD SDR) без потерь.
По словам Антона Артемьева, проведенные ARSPRO тесты с профессиональными камерами, предлагаемыми сейчас для производства фильмов и сериалов, показали, что все они позволяют получить картинку, параметры яркости и цветности которой соответствуют параметрам HDR. "Все современные кинокамеры - не телевизионные, а именно кинокамеры - снимают картинку с параметрами большими, чем сейчас вбирает HDR. Поэтому адаптировать изображение с них для HDR и сделать правильную цветокоррекцию не составляет никакого труда", - поясняет Антон Артемьев.
Яркость HDR-экранов производители подняли с 500 нит, обычных для традиционных телевизоров, до 1000 нит, таким образом, как и для камер, ограничений для работы с HDR-сигналом на финальном этапе - потребительском - на сегодняшний день нет. Однако получить изображение с теми же настройками, что применялись при цветокоррекции на этапе продакшена, возможно, если только до финальной стадии дойдут и метаданные с информацией о балансе белого, уровнях яркости основных цветов, минимальными и максимальными уровнями яркости. Только в случае корректного считывания этих метаданных декодером телевизора и соответствующей коррекции каждого пикселя зритель увидит то же изображение, что видел режиссер на контрольном мониторе.
Добавим в заключение, что EBU в классификацию метаданных HDR включает два их типа в зависимости от того, меняются ли настройки в течение программы. Статические предполагают сохранение настроек для всего фильма или серии, динамические могут менять параметры даже кадр за кадром. Считается, что последние точнее отображают быстрые перепады яркости, но и вынуждают производителей использовать более мощные процессоры в декодерах, что, разумеется, отражается на конечной стоимости телевизоров.