Ресурсы

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Чем больше объём вашего медиаархива, тем сложнее в нём ориентироваться. Как быстро найти нужную фотографию среди тысяч похожих? Как выбрать из общего объёма контента только работы конкретного сотрудника? Как найти фотографии ветерана, Петрова А. И., на снимках позапрошлого года, когда общий штат предприятия больше 50 000 человек?

Все эти задачи поиска решает DAM-система, и основа для этого решения – метаданные. Сегодня подробно поговорим о том, какую информацию несут в себе ваши изображения и как ей пользоваться.

Что такое метаданные? Какие форматы метаданных существуют?

Метаданные в широком смысле – это «данные, которые предоставляют информацию о других данных» (Википедия). То есть, они представляют собой набор сведений, который содержат в себе сами медиаактивы (изображения, видео или др. файлы).

Изображения без метаданных не имеют практической ценности: сложно быстро найти нужный файл в большом архиве, не понятен контекст (что, где, когда происходит), а также нет информации, можно ли легально использовать контент и т. д.

Когда пользователи понимают, что поля метаданных каждого файла должны содержать разнообразную инфу, возникает страх «утонуть» в этих процессах: работы по описанию, тегированию, заполнению полей данных игнорируют – в итоге вместо полноценной цифровой библиотеки получаем хаос из файлов и папок.

Тем не менее, если придерживаться профессионального подхода и использовать соответствующие инструменты, задача обогащения изображений метаданными решается заметно проще, чем можно было предположить. Сейчас же давайте посмотрим на то, какие вообще бывают метаданных.

EXIF

Часть работ по описанию файлов за нас делает электроника. Например, фотокамера автоматически прописывает метаданные стандарта EXIF.

EXIF – Exchangeable Image File Format – это стандарт, который по умолчанию используется большинством цифровых фотоаппаратов и поддерживается повсеместно. Предназначен он для графических файлов JPEG, RAW и TIFF. Первая версия EXIF была введена Японской ассоциацией электронной и ИТ-индустрии JEIDA (Japan Electronic Industry Development Association) в 1995 году. Стандарт, который был разработан JEIDA, и в последствии был принят повсеместно.

Чтобы посмотреть данные EXIF, вам достаточно открыть свойства любой фотографии на своём компьютере под управлением ОС от Microsoft:

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
Время и дата в настройках камеры

Одно из самых важных полей метаданных EXIF – «Дата создания» :

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Параметры съемки в метаданных EXIF:

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Поля, которые входят в состав метаданных EXIF (с примерами):

  • Manufacturer – производитель камеры (Canon);
  • Model – модель камеры (600d);
  • Software – программное обеспечение (v 1.01);
  • Date and time – дата и время (2020:08:11 17:32:40);
  • YCbCr positioning – YCbCr позиционирование, цветовое пространство изображения (центр);
  • Compression – сжатие, формат файла (JPEG);
  • X resolution – разрешение по оси X (72.0);
  • Y resolution – разрешение по оси Y (72.0);
  • Resolution unit – единица измерения разрешения (дюйм);
  • Exposure time – выдержка (1/659 с);
  • F-number – диафрагма (f/4.0);
  • Exif version – версия стандарта EXIF (2.1);
  • ISO – ISO (ISO-100);
  • Exposure bias – экспокоррекция (0 шаг);
  • Metering mode – экспозамер (по шаблону);
  • Compressed bits per pixel – сжатие битов на пиксель (4.01);
  • Flash – вспышка (без вспышки);
  • Focal length – фокусное расстояние (50 мм);
  • Color space – цветовое пространство (SRGB);
  • Pixel X dimension – размер в пикселях по оси X (2240);
  • Pixel Y dimension – Размер в пикселях по оси Y (1680);
  • White Balance – баланс белого (Авто);
  • GEO latitude – геолокация, широта (36; 6; 48.360000000000589);
  • GEO longtitude – геолокация, долгота (115; 10; 20.7299999999981).

Наиболее важными для практического применения являются следующие метаданные:

  • время и дата создания,
  • формат файла,
  • геолокация.

Пример использования: редактор фотоагентства, в которое ежедневно поступает миллионы изображений, фильтром по полю «Дата создания» выбирает все материалы, загруженные за последние 12 часов.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

А с помощью поля геолокации безликий снимок обретает привязку к конкретному месту.

По геолокации было определено, что на фотографии кладбище недалеко от хутора Пономарев в Кашарском районе Ростовской области.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

IPTC\XMP

Для полноценного использования изображения технических данных, которые содержатся в метаданных EXIF, вам будет недостаточно. Необходима более полная и содержательная информация— ключевые слова, описание, сведения от фотографа, авторских правах и т. д.. Поэтому был создан новый стандарт — IPTC или XMP.

IPTC — стандарт метаданных фотографий, который назван в честь своих разработчиков — Международного совета прессы и телекоммуникаций (с англ. International Press Telecommunications Council). С конца 1970-х годов деятельность IPTC была сосредоточена на разработке и продвижении отраслевых стандартов для обмена новостными данными всех распространенных типов СМИ. Подробнее о деятельности совета и обновлениях стандарта можно узнать по ссылке.

Как именно форматы метаданных фотографий хранятся внутри файлов изображений, определяется стандартами форматов файлов, отличными от IPTC – такими как JPEG / JFIF, TIFF, PNG и другими.

На основании IPTC компания Adobe разработала свой стандарт обмена данным — XMP, в дальнейшем разработка стандарта велась совместно. Стандарт предусматривает множество полей данных «на все случаи жизни», 15 наиболее значимых из них в практическом смысле объединили в «Dublin Core». Впоследствии состав ядра был расширен и дополнен, сейчас он выглядит следующим образом (курсивом выделены изначальные 15 полей):

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Формат IPTC имеет несколько содержащих информацию блоков:

Разберем подробнее содержание полей IPTC / XMP (с примерами):

  • Author — имя автора и/или название организации (Serguei Fomine),
  • Address — кроме адреса может содержать полное название организации, почтовый ящик (3-rd Tverskaya-Yamskaya 46),
  • City – название города, где находится автор (Moscow),
  • Postal Code – почтовый индекс автора (125047),
  • Country – страна автора (Russia),
  • Author: Telephone – телефон автора и/или организации в формате +код страны-код региона-номер-дополнительный, (+7(495)5179444)
  • Author: Email – электронный адрес автора и/или организации, (info@globallookpress.com),
  • Author: URL – сайт автора и /или организации, может быть несколько адресов через запятую, (www.russianfromabove.ru),
  • Headline – заголовок до 256 знаков, (Astrakhan region from above)
  • Description/Caption – описание происходящего на фотографии: кто, где, когда, до 2000 знаков, (Astrakhan Oblast, Russia. Aerial image of swans flying over Volga Delta),
  • Keywords – ключевые слова: простые либо составные. Разделяются запятой или точкой с запятой, (Russia, Astrakhan, Volga river, swan, bird, flying, water, daylight, aerial, view from above),
  • IPTC Subject Code – это поле может быть использовано для описания и категоризации снимка посредством специальных кодов http://cv.iptc.org/newscodes/subjectcode, (06006008, Name: wildlife, Definition: All forms of animal life that have not been domesticated),
  • Date Сreated дата съемки (08.11.2017),
  • Location – место, показанное на фотографии, географическое название или название достопримечательности (Volga Delta),
  • City – город на фотографии,
  • State/Province – название области, региона, края и т.п.(Astrakhan Oblast),
  • Country – название страны на фотографии (Russia),
  • ISO Country Code – код страны (RU),
  • Title – название-идентификатор, может быть использовано название файла (_DSC4252),
  • Job Identifier — поле может быть использовано для идентификаторов, используемых в вашем рабочем процессе,
  • Instructions – любые специальные инструкции (Media usage only),
  • Description Writer – имя автора описания (Serguei Fomine),
  • Copyright – имя фотографа, название организации и права. Lightroom использует данные из этого поля для водяного знака (© Serguei Fomine/globallookpress.com),
  • Copyright Status – состояние авторского права (copyrighted, защищено),
  • Credit Line – определяет, как должно быть подписано изображение (© Serguei Fomine/globallookpress.com),
  • Rights Usage Terms – параметры лицензирования (editorial usage only),
  • Copyright Ingo URL – ссылка на информацию по использованию изображения (globallookpress.com, legal)
  • Source – источник (globallookpress.com)

Очевидно, что с такой информацией изображение имеет большую ценность – гораздо легче найти файл в системе и понять, можно ли его использовать в рекламе или СМИ.

Сложно ли добавить метаданные формата IPTC/XMP к фотографии?

Совсем нет, достаточно использовать профессиональные инструменты для работы с изображениями — например, DAM-систему, Adobe Bridge или другую подобную программу. Такое ПО позволяет внести изменения в метаданные ко множеству фотографий разом или создать необходимые шаблоны.

Например, если фотограф знает, что завтра у него съемка матча ЦСКА – Интер, он может заранее подготовить шаблон:

  • Заголовок: Матч ЦСКА — Интер
  • Описание: 20.03.2019 матч в рамках чемпионата УЕФА сезона 2018-2019, стадион Спартак, победа Интер 1-0
  • Ключевые слова: футбол, спорт, УЕФА, чемпионат УЕФА, ЦСКА, Интер, 2018-2019.

Благодаря использованию такого шаблона, после матча фотограф опишет сотни изображений в течении нескольких секунд.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
Метаданные в Adobe Bridge

Конечно, детальное описание кадра может занять больше времени, однако основные сведения для профессионального использования и поиска будет доступны сразу после загрузки изображений. Могут возникнуть сложности при описании фотографий со множеством людей, но эту задачу можно автоматизировать с помощью искусственного интеллекта. Сегодня обогащение метаданных с помощью технологий искусственного интеллекта — модный тренд. Эти технологии могут распознавать лица, объекты, номера на изображении, локации и т.д., переводить текстовые описания на другие языки.

Описание метаданных при отлаженных процессах и использовании профессиональных инструментов не займет много времени.

В чём разница между метаданными и тегами?

Сотрудники компаний, которые незнакомы со стандартами описаний изображений, часто считают, что для организации работы с фотографиями достаточно их протегировать. Очевидно, что это заблуждение пришло к нам из ежедневного опыта обращения с соцсетями. На практике же теги (или ключевые слова) — это всего лишь инструмент поиска, они важны, но не заменяют собой остальные данные.

Для полноценного использования изображения вам, возможно, понадобятся:

  1. описание;
  2. информация об авторских правах и возможность лицензирования;
  3. наличие разрешений на использование изображений от моделей или владельцев объекта собственности;
  4. возраст модели на снимке и др.

Таким образом, программы, предназначенные исключительно для тегирования изображений, помогают найти нужное изображение, но этого может оказаться недостаточно. Никаких возможностей для управления медиаактивами они не создают.

В некоторых случаях использование тегов или ключевых слов является самодостаточным: например, если архив изображений — это стоковая коллекция (*стоковое изображение — это изображение, которое носит общий характер и может применяться для иллюстрации типичных ситуаций). Если же мы делаем корпоративные снимки событий, то контекст имеет бОльшее значение, чем в случае со стоковыми картинками.

Пример:
Возьмем стоковую картинку на общеизвестном банке фотографий Shutterstock – газопровод неизвестно где, компания-владелец тоже неизвестна, никаких исходных данных. Просто строительная площадка, о чем нам сообщает «Описание».

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

И второе изображение со строительства «Северного потока» в фотобанке Global look press, который работает для СМИ.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Использование метаданных в изображениях зависит от целей коммуникации. В приведённых примерах эти цели разные – первую фотографию можно использовать в любых материалах про трубы, тогда как вторая предназначена прежде всего для освещения конкретного события со строительства Nord Stream.

Мы в Picvario уделили максимальное внимание чтению и настройке полей метаданных. DAM-система поддерживает все вышеописанные стандарты – и мы можем настроить поля так, чтобы в поиске использовались только те из них, которые сейчас необходимы.

Вот так выглядит цифровой актив в Picvario:

Заголовок, чёткое описание, авторская информация, актуальные теги – всё, что необходимо. При этом уровень доступа к просмотру разных метаданных гибко настраивается для разных групп сотрудников и для отдельных пользователей. В результате имеем готовый цифровой актив, с которым сразу можно начинать работать, без какой-то дополнительной подготовки или поисков дополнительной информации.

Проблемы работы с метаданными в РФ и других мультиязычных странах

Изначально IPTC создавался для английского языка и не был адаптирован к использованию других кодировок/языков. Игнорирование национальных языков в стандартах распространилось на многие программные продукты, несмотря на то, что современная версия стандарта XMP позволяет поддерживать поля данных с указанием языковой метки.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
Проблемы кодировок

В результате нередко случается так, что информация, заполненная на одном компьютере на русском языке, не может быть прочитана на другом.

При разработке DAM Picvario мы эту проблему решили: наша система считывает мультиязычные метки, сохраняет всю информацию. Эти задачи решаются специально разработанным приложением Uploader, доступным для скачивания бесплатно. Программа корректно работает с описаниями на русском (и любом другом языке).

Как DAM-системы работают с метаданными?

DAM-системы умеют:

  • Читать метаданные. Записанные другими программами метаданные нужно показать в нужных нам полях. В некоторых случаях данные записаны некорректно, поэтому система исправляет чужие ошибки, снижая трудозатраты пользователя. Пример – мы прочитали метаданные у изображения, отправленного фотографом в ДАМ-систему прямо с матча:
  • Обогащать метаданные. Технология распознания лиц определила Александра Овечкина, и это сразу же было отражено в соответствующем поле:
Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
Автоматическое распознавание лиц в Picvario
  • Редактировать метаданные. Например, если сделанное фотографом описание файла не соответствует стандартам редакции, через Picvario его легко можно изменить (есть функция массового редактирования метаданных);
  • Экспортировать метаданные. Теперь необходимо отправить изображение клиентам из СМИ, сохранив всю нужную информацию – эту задачу Picvario тоже решает в один клик;

В результате получаете чётко структурированный и правильно организованный цифровой архив.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
После экспорта все метаданные у изображения сохранены. Проверяем это в Adobe Photoshop

Настройка импорта и экспорта метаданных

Для просмотра или присвоения таких метаданных DAM-система не обязательна, но именно она гарантирует, что вся перечисленная информация (либо её часть, зависит от настроек экспорта) сохранится при пересылке цифровых активов. К примеру, если вы просто перешлёте фотографию коллеге через WhatsApp – без использования DAM – данные будут утрачены.

Получение метаданных при загрузке контента из других источников – в том числе устаревших программ и БД – важная задача. В Picvario мы перед установкой системы определяем, какие метаданные и в каком формате хранятся у вас в компании, и готовим DAM к их чтению: получим все поля из любых источников.

Что касается экспорта, здесь тоже важна тонкая настройка: не всегда нужно отдавать все хранимые в базе метаданные. К примеру, необходимо удалять персональные данные пациента, если вы делаете выгрузку томограммы для публикации. Другая ситуация: фотография отправляется в зарубежное издание – можно удалить русские метаданные, которые не нужны.

Заключение

На то, чтобы обучить сотрудников правильному использованию метаданных, уходит всего несколько часов. Эти несколько часов в будущем сэкономят вам десятки и сотни дней, которые были бы потрачены на поиск по неструктурированным папкам, а также помогут защитить компанию от дополнительных трат: расходов на реструктуризацию архива, судебные разбирательства по поводу авторских прав и т. д.

Вам нужна консультация по работе с метаданными в Picvario? Пишите, всегда рады помочь!

Вас заинтересует: