Для чего нужны метаданные
Что такое метаданные. Объясняем простыми словами
Метаданные — это средство классификации, упорядочивания и характеристики данных.
Проще говоря, метаданные — это данные о данных (об их составе, содержании, статусе, происхождении, местонахождении, качестве, форматах, объёме, условиях доступа, авторских правах и т. п.).
Ежедневно мы отправляем электронные сообщения или файлы. У каждого такого послания есть не только содержание, но и дата и время отправки, указание отправителя и получателя, тип вложения, его объём и прочие характеристики. Это и есть метаданные.
Пример употребления на «Секрете»
«ProPublica обвинила корпорацию в сборе метаданных пользователей WhatsАpp — картинок, номеров телефонов, часовых поясов и даже IP-адресов. Куда они потом передавались? Журналисты ProPublica утверждают, что прямиком к американским силовикам».
(Из материала об уязвимостях проектов Facebook.)
Нюансы
Изначально этот термин означал средство каталогизации архивной информации: карточки библиотечного каталога включают систематизированные данные о каждой книге, в том числе название книги, его автора, жанр, аннотацию и т. д. Идея метаданных с тех пор не изменилась, хоть поле деятельности перешло в цифровой мир. По сути, вы генерируете метаданные прямо сейчас.
У любого файла, телефонного разговора, публикации в Facebook, видеофильма или перевода денег через банковское приложение есть метаданные. Мы часто не замечаем их, поскольку наше внимание закономерно сфокусировано на содержании. Но метаданные неотделимы от самих данных — трудно представить себе документ, у которого нет даты создания или редактирования.
Наличие возможности фильтровать метаданные значительно облегчает поиск определённого документа, файла или контента, ведь они содержат больше ценной информации, чем может показаться на первый взгляд. По метаданным можно выследить человека или получить на него компромат, полностью изменив его жизнь.
Доступ к вашим метаданным, которые передаются через интернет, есть у самых разных людей и организаций. Это могут быть как маркетологи, так и хакеры с госорганами. Например, заголовки писем могут быть доступны не только отправителю и адресату, но и почтовым провайдерам и даже спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии браузера и операционной системы. Это объясняется тем, что зачастую метаданные общедоступны и никак не защищены.
Правительства разных стран требуют от телекоммуникационных компаний хранить метаданные определённое количество времени для нужд правоохранительных органов и спецслужб. В России за эту процедуру отвечает «пакет Яровой», который предписывает сотовым операторам и интернет-компаниям хранить до шести месяцев весь пользовательский трафик — переписку в мессенджерах, социальных сетях и электронной почте, аудиозаписи звонков. При этом метаданные — то есть информацию о том, кому и когда звонил или пересылал файлы пользователь, — нужно хранить ещё дольше, а именно в течение трёх лет. Правоохранительные органы могут получить эту информацию по запросу.
Виды метаданных
Национальная организация по информационным стандартам (NISO) предлагает классифицировать метаданные таким образом:
Примеры
Метаданные используются при организации разных видов цифровой информации. Вот несколько примеров:
Существуют и признанные стандарты метаданных для определённых форматов данных. Например, таковым можно назвать общеевропейский исследовательский информационный формат (CERIF). Этот стандарт ЕС рекомендует своим государствам-членам для регистрации информации об исследовательской деятельности.
Как метаданные меняют жизнь людей
В апреле 2017 года московского математика Дмитрия Богатова обвинили в том, что он якобы призывал в Сети к массовым беспорядкам и терроризму на акции протеста. По версии следствия, Богатов под псевдонимом Айрат Баширов публиковал на интернет-форуме провокационные материалы о подготовке к вооружённому восстанию. Правоохранительные органы утверждали, что вычислили математика по IP-адресу. Сам Богатов объяснял, что не имеет к Айрату Баширову никакого отношения, поскольку в его квартире функционировал выходной узел сети Tor, с помощью которой с его IP-адреса публиковать сообщения мог фактически кто угодно. Поэтому трафик злоумышленника, предположительно, прошёл через компьютер математика.
Таким образом, метаданные (IP-адрес) послужили поводом для уголовного преследования. После того как Богатов провёл несколько месяцев в СИЗО, уголовное дело против него прекратили. Затем математик вместе с женой покинул Россию. Впоследствии по этому делу задержали Владислава Кулешова из Ставрополя, который признал вину и получил полтора года ограничения свободы.
Что такое метаданные, куда их добавлять и имеют ли они смысл в 2020 году
Метаданные – содержимое интернет-страницы, заполняемое для поисковых систем.
По метаданным поисковые алгоритмы осуществляют быстрый перебор запрашиваемой информации и формируют поисковую выдачу.
Немного истории поисковых систем
Для продвижения страницы в далеком 2009 году следовало написать большой текст 6000+ символов и наполнить его ключевыми фразами, выделяя их для надежности жирным шрифтом.
Страницы часто выглядели примерно так:
Это было по меньшей мере странно, но приносило определенный результат и такие страницы занимали топы поисковой выдачи. Правда, от этого никому не было лучше, так как пользователь не мог найти необходимый контент и решить свою задачу. А владелец ресурса редко получал целевого клиента.
Но в 2010 году Яндекс ввел поисковой фильтр «Переспам» и все страницы с подобным контентом в течение месяца провалились в поисковых выдачах. У Google все обстояло немного по-другому, поисковик плохо анализировал русский текст. Следовательно, в выдаче было всякое.
SEOшники не особо растерялись и начали делать ключи более релевантными, добавляя метаданные в подзаголовки, выделяя жирным, делая сноски и всячески вписывая высокочастотные запросы в страницы. На это в 2011 году Яндекс ввел новый фильтр «Переоптимизация», а Google ввел алгоритм «Panda». В следующем году пришел «Penguin».
Затем в 2015 году Google углубился в алгоритмы машинного обучения и создал «RankBrain». А в 2017 году Яндекс ввел алгоритм машинного обучения «Баден-Баден» и поисковую выдачу очень сильно перевернуло.
Прошлое знаковое обновление всех поисковых систем случилось в 2019 году – у Яндекса появилась «Вега», а у Google «BERT». Суть этих алгоритмов очень схожая, оба анализируют различные коммерческие факторы, метаданные, поведение пользователей, отказы и много других параметров.
После запуска «Вега» и «BERT» многие SEO-специалисты уверенно заявили, что SEO больше не работает, и нет смысла делать продвижение. Закупаем трафик у поисковых систем и т.д.
К 2020 году в топах плотно обосновались сайты-агрегаторы и услуги поисковых систем.
Метаданные в 2020 году
После поверхностного взгляда на эволюцию поисковых систем можно вернуться к мете.
Имеет ли смысл собирать семантические ядра и прорабатывать SEO-составлявшую сайта?
Ответ однозначный: да.
Метаданные никуда не делись, просто их необходимо размешать более аккуратно и вдумчиво. Не стоит раскидывать оптимизированные тексты по страницам.
Статья на сайте нужна только там, где она нужна. Имея карточки товара на вашем ресурсе, совершенно бесполезно, а часто даже вредно, заполнять их SEO-текстами. Стоит обойтись минимальным и полезным описанием товара, без воды, четким и по делу. А сами ключи (метаданные) следует добавлять в активные элементы: Title, description, H1-H6. Стоит увеличивать количество страниц, но избегать дублей страниц и страниц с «мусорным» контентом. А также рекомендуется очень аккуратно создавать внешние ссылки. Внешние ссылки – важный фактор ранжирования, но при этом ссылка на плохом ресурсе или спамная ссылка может призвать санкции на сайт.
Где брать мету для сайта?
У конкурентов и у поисковых систем.
Первым делом стоит провести мозговой штурм и собрать максимально широкую таблицу метаданных. Далее открываем все органические сайты из топов поисковиков и копируем всю мету. После этого удаляем повторения и проверяем частотность, чтобы через сервисы или wordstat.yandex.ru выбрать подходящие и внедрить их на сайт.
Если разобраться глубже, то метаданные могут быть и не заполнены, или заполнены частично.
В таком случае поисковые системы обойдут страницу и выведут общие тезисы, используя их как метаданные.
То есть мы заполняем Title, а description оставляем пустым, ждем индексацию и смотрим, какой description создал поисковик. Обычно это оптимальное описание страницы. Можно взять метаданные из сформированного description страницы и после небольших правок поставить их в Title. Далее просмотреть, измениться ли ранжирование страницы, и проследить, работает ли дынный метод в вашей отрасли.
В целом SEO – это бесконечный метод проб и ошибок. Большинство рекомендаций, которые хорошо подходят для сайта по продаже мыла, совершенно не подойдут фирме, оказывавшей услуги печати или форуму. Да и в каждой отдельной ситуации необходимо ориентироваться на конечную выдачу поисковых систем.
Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
Чем больше объём вашего медиаархива, тем сложнее в нём ориентироваться. Как быстро найти нужную фотографию среди тысяч похожих? Как выбрать из общего объёма контента только работы конкретного сотрудника? Как найти фотографии ветерана, Петрова А. И., на снимках позапрошлого года, когда общий штат предприятия больше 50 000 человек?
Все эти задачи поиска решает DAM-система, и основа для этого решения – метаданные. Сегодня подробно поговорим о том, какую информацию несут в себе ваши изображения и как ей пользоваться.
Что такое метаданные? Какие форматы метаданных существуют?
Метаданные в широком смысле – это «данные, которые предоставляют информацию о других данных» (Википедия). То есть, они представляют собой набор сведений, который содержат в себе сами медиаактивы (изображения, видео или др. файлы).
Изображения без метаданных не имеют практической ценности: сложно быстро найти нужный файл в большом архиве, не понятен контекст (что, где, когда происходит), а также нет информации, можно ли легально использовать контент и т. д.
Когда пользователи понимают, что поля метаданных каждого файла должны содержать разнообразную инфу, возникает страх «утонуть» в этих процессах: работы по описанию, тегированию, заполнению полей данных игнорируют – в итоге вместо полноценной цифровой библиотеки получаем хаос из файлов и папок.
Тем не менее, если придерживаться профессионального подхода и использовать соответствующие инструменты, задача обогащения изображений метаданными решается заметно проще, чем можно было предположить. Сейчас же давайте посмотрим на то, какие вообще бывают метаданных.
Часть работ по описанию файлов за нас делает электроника. Например, фотокамера автоматически прописывает метаданные стандарта EXIF.
EXIF – Exchangeable Image File Format – это стандарт, который по умолчанию используется большинством цифровых фотоаппаратов и поддерживается повсеместно. Предназначен он для графических файлов JPEG, RAW и TIFF. Первая версия EXIF была введена Японской ассоциацией электронной и ИТ-индустрии JEIDA (Japan Electronic Industry Development Association) в 1995 году. Стандарт, который был разработан JEIDA, и в последствии был принят повсеместно.
Чтобы посмотреть данные EXIF, вам достаточно открыть свойства любой фотографии на своём компьютере под управлением ОС от Microsoft:
Одно из самых важных полей метаданных EXIF – «Дата создания» :
Параметры съемки в метаданных EXIF:
Поля, которые входят в состав метаданных EXIF (с примерами):
Наиболее важными для практического применения являются следующие метаданные:
Пример использования: редактор фотоагентства, в которое ежедневно поступает миллионы изображений, фильтром по полю «Дата создания» выбирает все материалы, загруженные за последние 12 часов.
А с помощью поля геолокации безликий снимок обретает привязку к конкретному месту.
По геолокации было определено, что на фотографии кладбище недалеко от хутора Пономарев в Кашарском районе Ростовской области.
IPTC\XMP
Для полноценного использования изображения технических данных, которые содержатся в метаданных EXIF, вам будет недостаточно. Необходима более полная и содержательная информация— ключевые слова, описание, сведения от фотографа, авторских правах и т. д.. Поэтому был создан новый стандарт — IPTC или XMP.
IPTC — стандарт метаданных фотографий, который назван в честь своих разработчиков — Международного совета прессы и телекоммуникаций (с англ. International Press Telecommunications Council). С конца 1970-х годов деятельность IPTC была сосредоточена на разработке и продвижении отраслевых стандартов для обмена новостными данными всех распространенных типов СМИ. Подробнее о деятельности совета и обновлениях стандарта можно узнать по ссылке.
Как именно форматы метаданных фотографий хранятся внутри файлов изображений, определяется стандартами форматов файлов, отличными от IPTC – такими как JPEG / JFIF, TIFF, PNG и другими.
На основании IPTC компания Adobe разработала свой стандарт обмена данным — XMP, в дальнейшем разработка стандарта велась совместно. Стандарт предусматривает множество полей данных «на все случаи жизни», 15 наиболее значимых из них в практическом смысле объединили в «Dublin Core». Впоследствии состав ядра был расширен и дополнен, сейчас он выглядит следующим образом (курсивом выделены изначальные 15 полей):
Формат IPTC имеет несколько содержащих информацию блоков:
Разберем подробнее содержание полей IPTC / XMP (с примерами):
Очевидно, что с такой информацией изображение имеет большую ценность – гораздо легче найти файл в системе и понять, можно ли его использовать в рекламе или СМИ.
Сложно ли добавить метаданные формата IPTC/XMP к фотографии?
Совсем нет, достаточно использовать профессиональные инструменты для работы с изображениями — например, DAM-систему, Adobe Bridge или другую подобную программу. Такое ПО позволяет внести изменения в метаданные ко множеству фотографий разом или создать необходимые шаблоны.
Например, если фотограф знает, что завтра у него съемка матча ЦСКА – Интер, он может заранее подготовить шаблон:
Благодаря использованию такого шаблона, после матча фотограф опишет сотни изображений в течении нескольких секунд.
Конечно, детальное описание кадра может занять больше времени, однако основные сведения для профессионального использования и поиска будет доступны сразу после загрузки изображений. Могут возникнуть сложности при описании фотографий со множеством людей, но эту задачу можно автоматизировать с помощью искусственного интеллекта. Сегодня обогащение метаданных с помощью технологий искусственного интеллекта — модный тренд. Эти технологии могут распознавать лица, объекты, номера на изображении, локации и т.д., переводить текстовые описания на другие языки.
Описание метаданных при отлаженных процессах и использовании профессиональных инструментов не займет много времени.
В чём разница между метаданными и тегами?
Сотрудники компаний, которые незнакомы со стандартами описаний изображений, часто считают, что для организации работы с фотографиями достаточно их протегировать. Очевидно, что это заблуждение пришло к нам из ежедневного опыта обращения с соцсетями. На практике же теги (или ключевые слова) — это всего лишь инструмент поиска, они важны, но не заменяют собой остальные данные.
Для полноценного использования изображения вам, возможно, понадобятся:
Таким образом, программы, предназначенные исключительно для тегирования изображений, помогают найти нужное изображение, но этого может оказаться недостаточно. Никаких возможностей для управления медиаактивами они не создают.
В некоторых случаях использование тегов или ключевых слов является самодостаточным: например, если архив изображений — это стоковая коллекция (*стоковое изображение — это изображение, которое носит общий характер и может применяться для иллюстрации типичных ситуаций). Если же мы делаем корпоративные снимки событий, то контекст имеет бОльшее значение, чем в случае со стоковыми картинками.
Пример:
Возьмем стоковую картинку на общеизвестном банке фотографий Shutterstock – газопровод неизвестно где, компания-владелец тоже неизвестна, никаких исходных данных. Просто строительная площадка, о чем нам сообщает «Описание».
И второе изображение со строительства «Северного потока» в фотобанке Global look press, который работает для СМИ.
Использование метаданных в изображениях зависит от целей коммуникации. В приведённых примерах эти цели разные – первую фотографию можно использовать в любых материалах про трубы, тогда как вторая предназначена прежде всего для освещения конкретного события со строительства Nord Stream.
Мы в Picvario уделили максимальное внимание чтению и настройке полей метаданных. DAM-система поддерживает все вышеописанные стандарты – и мы можем настроить поля так, чтобы в поиске использовались только те из них, которые сейчас необходимы.
Вот так выглядит цифровой актив в Picvario:
Заголовок, чёткое описание, авторская информация, актуальные теги – всё, что необходимо. При этом уровень доступа к просмотру разных метаданных гибко настраивается для разных групп сотрудников и для отдельных пользователей. В результате имеем готовый цифровой актив, с которым сразу можно начинать работать, без какой-то дополнительной подготовки или поисков дополнительной информации.
Проблемы работы с метаданными в РФ и других мультиязычных странах
Изначально IPTC создавался для английского языка и не был адаптирован к использованию других кодировок/языков. Игнорирование национальных языков в стандартах распространилось на многие программные продукты, несмотря на то, что современная версия стандарта XMP позволяет поддерживать поля данных с указанием языковой метки.
Проблемы кодировок
В результате нередко случается так, что информация, заполненная на одном компьютере на русском языке, не может быть прочитана на другом.
При разработке DAM Picvario мы эту проблему решили: наша система считывает мультиязычные метки, сохраняет всю информацию. Эти задачи решаются специально разработанным приложением Uploader, доступным для скачивания бесплатно. Программа корректно работает с описаниями на русском (и любом другом языке).
Как DAM-системы работают с метаданными?
В результате получаете чётко структурированный и правильно организованный цифровой архив.
Настройка импорта и экспорта метаданных
Для просмотра или присвоения таких метаданных DAM-система не обязательна, но именно она гарантирует, что вся перечисленная информация (либо её часть, зависит от настроек экспорта) сохранится при пересылке цифровых активов. К примеру, если вы просто перешлёте фотографию коллеге через WhatsApp – без использования DAM – данные будут утрачены.
Получение метаданных при загрузке контента из других источников – в том числе устаревших программ и БД – важная задача. В Picvario мы перед установкой системы определяем, какие метаданные и в каком формате хранятся у вас в компании, и готовим DAM к их чтению: получим все поля из любых источников.
Что касается экспорта, здесь тоже важна тонкая настройка: не всегда нужно отдавать все хранимые в базе метаданные. К примеру, необходимо удалять персональные данные пациента, если вы делаете выгрузку томограммы для публикации. Другая ситуация: фотография отправляется в зарубежное издание – можно удалить русские метаданные, которые не нужны.
Заключение
На то, чтобы обучить сотрудников правильному использованию метаданных, уходит всего несколько часов. Эти несколько часов в будущем сэкономят вам десятки и сотни дней, которые были бы потрачены на поиск по неструктурированным папкам, а также помогут защитить компанию от дополнительных трат: расходов на реструктуризацию архива, судебные разбирательства по поводу авторских прав и т. д.
Вам нужна консультация по работе с метаданными в Picvario? Пишите, всегда рады помочь!
Метаданные
Метаданные, в общем случае, это:
Содержание
Иерархии метаданных
Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).
Различие между данными и метаданными
Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:
Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).
Использование
Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные, могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.
В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.
Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.
Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.
Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную, имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».
Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.
Редактировать метаданные графических файлов можно в специальных программах для работы с метаданными.
Классификация метаданных
Метаданные можно классифицировать по:
Формат метаданных
Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.
Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).
Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.
Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)
Классификация форматов метаданных по описываемой предметной области: