Enterprise taxonomy and ontology management что это
Enterprise taxonomy and ontology management что это
О компании
Видеоматериалы
Недавно всемирно известная исследовательская компания Gartner, аналитические отчеты которой регулярно появляются в таких изданиях как Financial Times, The Wall Street Journal, The New York Times, Der Spiegel, The Register и ZDNet, опубликовала доклад под названием «The Hype Cycle for Emerging Technologies» суть которого сводится к изучению технологий, которые в ближайшие 5-10 лет станут основными драйверами роста и развития digital рынка.
В ходе исследования было выделено три ключевых направления: искусственный интеллект (AI), эффект погружения и цифровые платформы. Каждая из трех технологий открывает перед бизнесом широкий круг новых возможностей, в том числе перспективу интеграции компаний с принципиально новыми бизнес-экосистемами.
Рассмотрим каждую технологию подробнее:
Повсеместное применение искусственного интеллекта
Искусственный интеллект (AI) проникнет во все сферы жизни современного человека за счет заоблачных вычислительных мощностей, практически бесконечных объемов данных и беспрецедентных достижений в области разработки и внедрения нейронных сетей, которые в будущем позволят организациям, использующих в своей работе AI, использовать его потенциал и доступные данные для быстрой адаптации к новым ситуациям и решению проблем, с которыми никто не сталкивался ранее.
Аналитики Gartner считают, что самыми перспективными направлениями в этой области являются:
Эффект погружения
В данное понятие специалисты Gartner умещают целый ряд технологий, которые позволят внести ясность в отношения между людьми, бизнесом и вещами. Что бы не подразумевали под этими словами сотрудники компании, но перечисленные технологии действительно выглядят очень многообещающе:
Цифровые платформы
В Gartner утверждают, что новые технологии требуют кардинального пересмотра основ привычных нам способов работы с данными. Чтобы обеспечить «безболезненный» переход от разделенной технологической инфраструктуры к новому бизнес укладу требуются совершенно новые цифровые платформы, которые бы смогли сформировать мост между пользователями и современными технологиями, о которых мы говорили выше. Многие энтузиасты уже сегодня работают в этом направлении, разрабатывая решения на грани фантастики: блокчейн, оцифровка сознания, краевые и облачные вычисления, нейроморфная инженерия и т.д.
Мы используем cookies, чтобы улучшить работу сайта и предоставить вам больше возможностей. Продолжая использовать сайт, вы соглашаетесь на обработку файлов «cookies».
Корпоративная таксономия — это раскладывание терминов по полочкам
Таксономии, т. е. наборы категорий, широко применяются для организации данных на интернет-сайтах, порталах и в корпоративных хранилищах данных. (В российской практике они более известны как каталоги, классификаторы, номенклаторы. — Прим. ред.) Таксономия задает иерархическую структуру категорий. Например, в биологии собаки относятся к царству животных, типу хордовых, классу млекопитающих, отряду хищных, семейству псовых, роду собак и виду собака обыкновенная. Таксономии в сочетании со средствами метатеговой разметки, анализом текста и поисковыми системами обеспечивают в корпоративных средах высокое качество поиска и навигации, недостижимое при использовании одних лишь поисковых машин.
Корпоративная таксономия представляет собой попытку классифицировать и уложить в одну структуру практически всю информацию в компании. Построение таксономии, охватывающей всё предприятие, обещает многочисленные выгоды (см. врезку «Семь причин использовать корпоративную таксономию»). В определенных условиях универсальная таксономия категорически обязательна. Например, в министерстве национальной безопасности и в правоохранительных органах таксономии помогают соединять информацию из разных источников, устанавливать взаимосвязи между существенными фактами и за счет этого эффективнее выявлять угрозы.
Нужна ли вашей организации единая таксономия, зависит от проблем, которые вы пытаетесь решить. «Если вы стремитесь просто улучшить поиск документов или работу со структурированными данными в СУБД, в этом, может быть, и нет необходимости, — говорит Джош Пауэрс, главный онтолог компании Convera, разрабатывающей поисковые системы. — Но если ставится задача улучшить взаимодействие различных подразделений, оптимизировать процессы работы с информацией в пределах компании, то вы должны прийти к некоторому соглашению».
Но реализовать корпоративную таксономию не так-то просто. К построению таксономии есть два подхода. Первый, бескомпромиссный, заключается в том, чтобы попробовать создать и насадить ее собственными силами (через рабочую группу, приказы руководства, обучение и т. п.). Во втором, упрощенном варианте делается попытка увязать разные точки зрения. Если отдел продаж видит рынок не так, как группа управления продуктами, стоит выбрать второй подход и примирить два взгляда, автоматически установив соответствие между каждым из них и центральной таксономией.
Таксономия своими силами
Чтобы получить единую непротиворечивую таксономию для всей организации, необходимо добиться общего согласия по используемой терминологии и способам организации данных. У каждого отдела всегда есть собственные приоритеты, своя терминология и предпочтительная структура информации, так что трудно добиться общего согласия по поводу единого базового набора категорий. Этому можно обучить сотрудников предприятия (в России такие семинары проводит НЦИТ «Интертех». — Прим. ред.) либо привлечь профессиональных таксономистов, которые, в свою очередь, нередко обращаются за консультацией к экспертам по предметной области*. Можно разрабатывать категории с опорой на «народные таксономии» (folksonomies), используемые в публичных службах обмена контентом (таких, как Flickr.com или Del.icio.us.com). Авторы и пользователи подобных служб приписывают контенту метки, которые считают подходящими, и, следовательно, могут сыграть роль таксономистов. Но надо иметь в виду, что «народные таксономии» не обязательно являются непротиворечивыми и нормализованными.
В настоящее время уже появилось специализированное ПО, автоматизирующее задачи разметки контента и классификации. Так, разработанная IBM Research labs служба Dogear обеспечивает создание, группировку и классификацию закладок, относящихся как к Интернету, так и к внутренним корпоративным сетям, помогая клиентам фильтровать и размечать (в первую очередь путем присвоения категорий) большие объемы данных с тем, чтобы сделать эту информацию доступной для использования другими сотрудниками предприятия.
Использование готовой таксономии
Если вы хотите сэкономить время, к вашим услугам готовые отраслевые и тематические таксономии. Например, в Национальной медицинской библиотеке США разработан классификатор MeSH (Medical Subject Headings), который используется при индексировании статей в медицинских журналах. Компания Factiva предлагает Taxonomy Warehouse — набор готовых таксономий (частью платных, частью бесплатных) из разных источников, от издательств до библиотеки Конгресса США, а Convera — таксономии по генетике, финансам и бизнесу, а также по технологии.
Некоторые компании настраивают готовые таксономии в соответствии со своими специфическими потребностями. «Если только вы не считаете, что готовая таксономия в состоянии решить все ваши проблемы, и хотите ее изменить, она становится шаблоном для строительства», — говорит Ферн Хелпер, занимающий должность партнера в компании Hurwitz Group. Если таксономия слишком подробна, допустимо частично проигнорировать ее. Иногда компании адаптируют для своих нужд таксономии, разработанные специальными журналами или фирмами: если последние тратят свои силы и время на выявление ключевых тематических областей, так почему бы не воспользоваться плодами их трудов?
Существуют и технологии автоматической генерации таксономий путем анализа обширного корпуса документов и извлечения оттуда понятийной иерархии. Все основные участники рынка — Autonomy, Convera, Endeca Technologies и Teragram — предлагают программные средства, помогающие строить таксономии, тестировать их и управлять ими, хотя ни одно из них не является полностью автоматическим — без вмешательства человека не обойтись нигде.
Запуск в работу
Разработанная тем или иным способом корпоративная таксономия полезна только при условии, что она может быть непротиворечивым образом применена. Однако разметка контента в соответствии с построенной таксономией может оказаться весьма тяжелой задачей. Распределение существующей информации по категориям сталкивается со сложностями как в ходе приписывания меток единицам данных, так и при отнесении этих меток к той или иной категории. По словам Деборы Сильвермен (Питсбургский университет), даже у библиотекарей, которые пользуются классификатором библиотеки Конгресса, присвоение книгам категорий требует больших трудозатрат, — что уж говорить о тех, кто вынужден строить собственную схему!
Автоматизированные инструменты способны облегчить эту работу. Например, слово Columbia в документе может относиться и к университету, и к звукозаписывающей фирме, и к кинодстудии, и к космическому челноку, но система разметки в состоянии по контексту определить, о чем речь, проанализировав соседние слова. Инструменты для извлечения смысловых единиц (entity extraction), выпускаемые рядом компаний, автоматически опознают имена людей, названия мест, организаций и другие подобные элементы.
Семь причин использовать корпоративную таксономию
Более эффективный корпоративный поиск. В Интернете Web-страницы связаны друг с другом ссылками, поэтому популярны алгоритмы, основанные на ранжировании страниц (например, Google). Поскольку между документами Microsoft Word, Excel, PowerPoint и других форматов, обычных для предприятий, ссылок нет, с ними плохо работают приемы, пригодные для поиска в Web. Разметка информации в соответствии с корпоративной таксономией позволяет быстро сузить результаты поиска, ограничив их пределами некоторой категории.
Уничтожение избыточности. Единая терминология и категоризация позволяют выявить дублирование работ по созданию контента.
Рост ценности интеллектуальных активов. В отраслях, активно работающих со знаниями, таких как консалтинг или финансовые услуги, интеллектуальные активы тем ценнее, чем больше они используются. Таксономия организует и упрощает поиск этих активов, за счет чего повышается коэффициент их использования.
Улучшение работы с клиентами. Продавцы будут работать значительно эффективнее, если получат возможность быстро находить нужную информацию перед тем, как позвонить существующему или потенциальному клиенту. В контакт-центре время — деньги, но их сотрудникам постоянно приходится общаться с клиентами, не знающими точной номенклатуры продуктов и услуг компании. Таксономия помогает интерпретировать такого рода вопросы и отвечать на них.
Поддержка глобализации и локализации. Работа по переводу и локализации контента весьма сложна. Задав глобальную таксономию, можно снизить затраты на перевод, максимально активизировать использование контента и избежать несоответствий при построении брендов, а также в корпоративных коммуникациях.
Упрощение объединения компаний. При слиянии двух фирм часто бывает сложно увязать между собой их продуктовые линейки и корпоративные культуры, причем не в последнюю очередь из-за различий в словаре. Унифицированная таксономия способствует выработке общего взгляда.
Совершенствование навигации по сайту. Таксономии, стандартизирующие терминологию, помогают более логично представлять информацию. Некоторые системы поиска содержат средства администрирования, регистрирующие случаи, когда клиент что-то искал, но не нашел. В результате исследования часто выясняется, что нужная ему информация на сайте присутствовала, но по ошибке была отнесена не к той категории.
Интеграция с поисковыми системами
Надо сказать, что в ряде случаев эти системы интегрированы с поисковыми механизмами. Поиск по ключевым словам имеет одно фундаментальное ограничение — он выделяет только те категории, названия которых совпадают с соответствующими словами. Например, если в документе упоминается Вьетнам, но не встречается выражение «Юго-Восточная Азия», то он не будет отнесен к категории «Юго-Восточная Азия» — ведь программе не известно, как соотносятся значения слов. Такие поставщики, как Inxight или Convera, предлагают технологии извлечения (распознавания) понятий, позволяющие выявлять подобные смысловые взаимосвязи.
Сейчас поставщики активно развивают средства создания таксономий и их соединения с технологиями поиска. Одной из задач, которые ставила IBM при разработке своей поисковой платформы с открытыми кодами UIMA (Unstructured Information Management Architecture — архитектура для управления неструктурированной информацией), было обеспечение совместной работы разных технологий, таких как поиск ключевых слов или понятий.
IBM включила свой таксономический инструмент WebFountain в поисковую систему OmniFind и добавляет все новых партнеров к UIMA. Аналогичным путем движется и Oracle, расширяя поисковую систему Secure Enterprise Search.
Еще одно качество поиска, полезное с точки зрения работы с таксономиями, — это способность интерпретировать метатеги: скажем, определять, что последовательность цифр с данным тегом представляет собой не какое-то произвольное число, а идентификационный номер продукта.
Кластеризация
Для тех, кто не может или не хочет тратить время и силы на построение таксономии, альтернативным решением может стать кластеризация. Работа соответствующего механизма наглядно демонстрируется на сайте www.clusty.com. Введите в поле поиска запрос, и его результаты в соответствии с алгоритмом кластеризации компании Vivisimo будут распределены по тематическим группам, названия которых (вместе с числом найденных страниц при каждой) появятся в левой части экрана. Если же вы выберете представление «облако разметки» (tag cloud), то увидите тематические кластеры в виде полей слов, где более крупным и жирным шрифтом показаны самые многочисленные результаты. Категории могут быть не в точности теми, что вы ожидали, но это в любом случае полезный фильтр, помогающий быстрее находить нужную информацию.
Шаг к онтологии
Там, где жизненно важна точность, вступают в игру онтологии. Онтология — это не просто способ организации информации: она предполагает точные определения всех терминов, логические правила, описывающие отношения между терминами, и позволяет соединить два не связанных друг с другом набора данных или две таксономии, задав для них общее понимание терминов.
«Таксономия — это просто раскладывание терминов по полочкам, — говорит Билл Андерсен, главный научный сотрудник компании Ontology Works, — а с помощью онтологии можно представить структуру тех объектов, которым в таксономии присвоены категории. В действительности таксономии входят в состав каркаса большинства онтологий».
Онтология учитывает значение категорий и их отношение к другой информации. Например, географическая онтология не только позволит опознать слово Columbia как название города, но и определит, что этот город находится в американском штате Мэриленд, который расположен на берегу Чесапикского залива.
В настоящее время онтологическое ПО предлагают компании Ontology Works и Teragram. Спрос на него растет, его применяют федеральное правительство и фармацевтические компании. В этих функциях онтологии заменяют модели данных, представляя собой их расширенную и более явную форму.
Еще одна задача, для которой используются онтологии, — это обеспечение выполнения требований законодательства. «Представьте, что у вас в компании сто баз данных и требуется определить, соблюдаются ли в ней все условия закона Сарбейнса — Оксли, — объясняет Билл Андерсен. — Для этого вам следует поставить очень высокоуровневые вопросы о ведении бизнеса, ответы на которые невозможно получить из имеющихся баз. Надо каким-то образом перевести высокоуровневый понятийный словарь, относящийся к содержанию закона, в низкоуровневые термины ваших баз данных».
Точно так же в биомедицинских базах часто хранятся низкоуровневые экспериментальные данные, а исследователи стремятся найти способы воздействия на организм на более высоком уровне. «Как перейти от очень высокоуровневого вопроса к данным, которые помогут на него ответить? — спрашивает Билл Андерсен. — До недавнего времени, пока не была проделана огромная работа в области онтологии, это могли сделать только очень умные люди».
* В российской практике наиболее распространено составление классификаторов собственными силами, на что тратятся огромные временные и трудовые ресурсы. Лишь недавно на рынке стали появляться компании, предлагающие услуги по составлению таксономий, и одним из первых среди них оказался НЦИТ «Интертех». В отдельных областях и отраслях действуют небольшие фирмы, например «ТОиР Консалт», успешно решающие специфические проблемы автоматизации ремонтов и связанной с ними классификации оборудования. — Прим. ред.
Enterprise taxonomy and ontology management что это
Better management of taxonomies and ontologies ensures that they will help you get more value out of your data assets—which is the job that business metadata is supposed to do. Whether you have centralized taxonomies and other vocabularies or a network of connected ones in your enterprise, with the right tools and standards support, business vocabulary terms and the relevant data about them can be made available to end users via user interfaces or to other systems as web services for navigation, disambiguation, search enhancement, and more. When a network of vocabularies includes industry standards developed outside of your organization, good management tools let you track their relationship to internal standards and get the best value from the combination.
Benefits include:
Tagging of shared content for easier retrieval, Master Data Management, and the use of code lists in web forms are very different tasks, but they have something in common: they’re all done much better and contribute to the business more if they’re driven by well-organized, standards-based curation and governance of the vocabularies used in these tasks.
The actual terms in those vocabularies are only one part of how they can add value. Data about those terms, such as their definitions, history, provenance, and especially their relationships to other terms can enhance the operations of other systems in your enterprise when this data can be shared across a network.
TopQuadrant Solution
TopQuadrant’s taxonomy and ontology management solution combines the capabilities of:
To address your goals, a total solution will create an integrated environment where TopBraid products are combined with your systems so that your vocabularies can provide the greatest value to your business systems.
For more information or to schedule a demo, contact us at sales@topquadrant.com.
TopQuadrant offers related solutions for managing taxonomies and ontologies and for enhancing content and enriching search:
Related Solutions include:
TopBraid Taxonomy & Ontology Management Products
TopBraid Enterprise Vocabulary Net™ (EVN) delivers the following vocabulary management capabilities:
TopBraid EVN Viewer delivers the following vocabulary management capabilities:
Make your curated taxonomies available to an unlimited number of viewers to look up vocabulary data and metadata.
Интерес к управлению данными возвращается
В конце июля – начале августа этого года Gartner выпустил целую серию исследований посвященных управлению данным:
Интерес к теме управления данными у Gartner присутствовал всегда, но если раньше в исследованиях преобладали рассуждения о роли управления основными данными (master data management) для успеха SOA или BPM проектов, то сейчас тема данных стала вполне самодостаточной. На вершине пика завышенных ожиданий информационной архитектуры предприятия находится Semantic Web. Правда в мэйнстрим корпоративных информационных систем попадет он еще не скоро. О возможностях использования Semantic Mediawiki для отображения архитектуры предприятия я рассказывал некоторое время тому назад на заседании Клуба архитекторов Microsoft и на SOA мероприятии AHConference Архитектура предприятия в формате Semantic Web Подходят к пику ожиданий: Complex-Event Processing, Enterprise Taxonomy and Ontology Management (Таксономия и фолксономия), Data Services, Enterprisewide Metadata Repositories.
А вот Master Data Management покинул пик ожиданий и начал сползать в котлован разочарований. Т.е. интерес к MDM будет угасать, а недовольство высокой стоимостью MDM решений – расти. На мой взгляд, это совершенно несправедливо, т.к. практической пользы от MDM можно получить существенно больше, чем например от сервисов. Master Data Management — тема не очень новая и не очень сложная. Введение в тему можно почитать в статье Задачи управления мастер-данными Некоторое замешательство могут вызвать русскоязычные аналоги этого понятия «управление основными данными» и «нормативно-справочная информация». Но, в общем и целом большинству людей понятно, что речь идет о синхронизации справочников из различных информационных систем предприятия. Есть транзакционные данные, т.е. записи о конкретных операциях и есть справочники, на которые ссылаются транзакционные данные. Под мастер-данными (основными данными) и понимают справочники в широком смысле, т.е. существительные, отвечающие на вопросы «кто?» (клиенты, сотрудники, партнеры), «что?» (продукты, услуги), «где?» (адреса) и т.д. Наведение порядка в справочниках – задача скорее организационная, чем техническая. Впрочем, технические проблемы, являющиеся в данном случае прямым следствием организационно-политических причин, присутствуют тоже
Поделиться:
Понравилось это:
Похожее
Интерес к управлению данными возвращается: 12 комментариев
Есть и еще один термин: «интеграция данных», при которой большую роль играют справочные данные (reference data, а не master data). В инженерии это крайне важная штука, ибо MDM решения по факту работают только в масштабе предприятия, а вот работа со справочными данными и интеграция данных предполагает в том числе и работу в составе расширенного предприятия (extended enterprise), то есть по факту «в масштабах отрасли» (ибо речь идет о предприятиях, выполняющих крупные инжиниринговые проекта — часто множество в разных вариантах кооперации с другими предприятиями). Для этого есть разные варианты стандартов интеграции данных — и они основываются на онтологиях, а не просто «словарях-справочниках». Мы, например, используем ISO 15926.Это, кстати, полностью отражает подмеченный вами ход на неминуемую семантизацию/онтологизацию (только ISO 15926 будет много покруче semantic web. Хотя и он явно не последнее слово онтологической инженерии).
Reference data — крайне важная штука не только в инженерии. 🙂 Я думаю, что существенен следующий аспект. Нужно ли уделять внимание мастер данным и как их структурировать решает сама организация. А вот референсные данные, действительно, создаются «в масштабах отрасли» или даже домена.
Когда-то, список стран и курсы валют получали из ERP системы. Уже лет, наверное, десять никто и не подумает оформлять заявку на доступ к ERP, чтоб узнать курс.
Справочников адресов телеком-операторы когда-то вели самостоятельно. В какой-то момент появился КЛАДР ну и т.д. Может я излишне оптимистичен, но я думаю, что рано или поздно наступит момент, когда реквизиты контрагента, полученные из Интернет будут более актуальны, чем те же данные, полученные из внутренней финансовой системы компании, а данные абонента мы будем получать не из CRM, а из социальных сетей.
На что все это влияет? Сейчас организации сами решают нужен ли им MDM и как организовывать свои основные данные. При этом, от глупостей в построении справочников, классифицировании объектов, создании таксономий никто не застрахован. Для референсных же данных, скорее всего, будут выработаны более качественные и более легитимные подходы, т.к. делаться это будет не только в рамках одного предприятия.
Нашёл Ваш блог случайно — очень рад! И пост как раз «в жилу», я сейчас как раз занимаюсь проектом, связанными с управлением справочными данными.
Для финансовых организаций управление справочными данными тоже одна из ключевых проблем, во всяком случае на западе. И без целостной технологической поддержки, одними административными методами, толком не решаемой. В компании, где сейчас работаю — средних размеров, занимающейся управлением инвестфондами — как раз много текущих проблем из-за этой однобокости в прошлом, которые сейчас преодолевать приходится.
И, кстати, мы тоже используем SMW для представления архитектуры предприятия. Пришлось правда пару расширений «на коленке» сделать, так как платформа ещё очень и очень далека от зрелости. Я посмотрел Вашу презентацию по ссылке, деталей не много, но выглядит очень похоже. Приходилось ли Вам дорабатывать движок напильником? Скажите, насколько далеко Вы продвинулись внедряя SMW в управление архитектурой?
Если говорить в двух словах, то я считаю, что мы «не выжали» из проекта c SMW всех возможностей. Архитекторы продолжают её использовать(конечно же без доработок не обошлось) для документирования архитектуры проектов, но другие подразделения компании остаются «читателями». Идея семантических ссылок в масштабах компании, безусловно, осталась не понятой. До разработки систем на SMW, как это делает Ryan Lane http://ryandlane.com/wiki мы не дошли.
Более успешным явился опыт отображения на SMW не архитектуры предприятия, а системной архитектуры интеграционных сред. Наверное потому, что в системной архитектуре объекты и отношения между ними менее абстрактные. Реальные компоненты проще отобразить в категории, а используемые интерфейсы отиграть гиперссылками.
Может быть, кто-нибудь из нашей команды меня дополнит?
Любопытные вещи делает Ryan Lane. Спасибо, присмотрюсь.
Если под MDM понимать ту ее распространенную интерпретацию, которая требует создания централизованного репозитария мастер-данных, то такая парадигма, очевидно, будет понемногу (а может и быстро) загибаться — все это никак не пилится с концепцией облачных сервисов и распределенного хранения и обработки информации. Занимаюсь сейчас этим в практическом смысле — делаем софт, обслуживающий произвольные распределенные справочники
Вот простой пример от нашего клиента — большая компания, имеющая структурные подразделения в нескольких странах. Обычный справочник, отражающий структуру и штатное расписание такой компании, надо делать распределенным — если делать это хорошо, так как обособленные подразделения сами ведут свою структуру и свое штатное расписание, а интегрирующий софт должен представлять все это в одном иерархическом справочнике, доступном откуда угодно
MDM с централизованным репозитарием, где есть только одна главная копия всех справочных данных, такую естественную задачу не решает
Интересный у вас софт. Это заказная разработка или продукт?
Я думаю, что облачные вычисления, наоборот, приведут к уменьшению количества справочников и подходов к их составлению. Понятно, что часть справочников, та же организационная иерархия тяготею к распределенности. Но множество справочников, особенно в больших многофилиальных компаниях частично или полностью дублируют друг-друга. Здесь к технологиям информационным необходимо добавлять технологии управленческие. Пока такие справочники распределены по системам, дублирование данных не очевидно, а когда вытащишь их в единое хранилище картинка становится прозрачней.
Ну да, само понятие справочника в облаках меняется, по крайней мере, в русскоязычном толковании — мы считаем, что справочник, как правило, это такая таблица, а вот англоязычное понятие reference data вполне себе актуально смотрится и в облаках, где минимальная единица данных справочника представлена как элемент данных, доступный по ссылке, т.е. это фактически не таблица, а запись
Дублирование IMHO это то, что в облаках будет считаться естественным и нормальным и от чего избавиться будет нельзя в принципе. Необходимо будет только такие дублированные данные снабжать 1) уникальным идентификатором типа GUID и 2)адресом, т.е. ссылкой, чтобы маркировать множество копий одних и тех же данных.
Разумная (и даже) неразумная избыточность и дублирование информации присутствует всюду в живой природе и является конкурентным преимуществом 🙂
Это тиражируемый прикладной продукт, имеющий бесплатную версию (в данном блоге у меня нет цели про него рассказывать :), так что подробности опущу.
Многие из тех, кто понаделали за годы разных справочников, пришли к мысли о необходимости универсального инструмента, администрирующего управление распределенными структурированными данными, в частности, справочниками. Облака, в которых реляционные БД с взаимосвязанными «нормализованными» таблицами не работают, усилили проблему распределенной обработки данных в современных СУБД.
Та же СУБД MS SQL Server не приблизилась, а максимально отдалилась от файлов — файл с базой данных уже нельзя просто переписать на другой компьютер, работать не будет.А ведь в облаках уже и файл слишком большой объект для адресации, нужна возможность адресовать собственно элементы данных, разбросанные в произвольном порядке по HTML-страницам — появление всевозможных RSS и других XML-структур, виджетов с доступом к БД на HTML-страницах и т.п. это ответ на потребность интеграции структурированных данных и неструктурированной информации.
Уже ощущается потребность полностью компоновать новые web-приложения на распределенных иерархических адресуемых структурах данных, доступных друг из друга по ссылкам и хранящихся как в текстах документов, так и в файлах и в таблицах БД. В частном случае такие структуры данных будут представлять собой распределенные справочники. От вендоров ничего реально функционирующего пока не последовало на эту тему — провал MDM это подтверждает (я ваще не понимаю, как они собираются отделять «master» данные от всех остальных, критерий очевидно ущербный)
Ниже моя концепция на эту тему, которую мы, я надеюсь, в каком-то виде скоро реализуем в своей ACM — сама задача возникла потому, что в простой и эффективной ACM системе встала проблема как привязывать справочники и таблицы с данными к сообщениям, а делать это традиционными способами означает гробить на корню саму концепцию ACM как простой в разворачивании и использовании системы
Такие реально распределенные структуры данных будут базироваться на использовании тегов данных (datatags — это я их так называю), представляющих собой расширение понятия тегов для обеспечения возможности маркировки распределенных в облаке данных. Сами справочники данных могут представлять собой аналог обычных таблиц СУБД, а также XML-структур, представляющих такие таблицы, доступ к которым осуществляется через их URL-адрес. Сами данные могут содержать такие же datatags — в результате образуется адресуемое пространство тегов данных, аналогичное web-линкам. С той разницей, что пространство web-ссылок связывает неструктурированную информацию, а пространство тегов данных позволяет связать и обработать распределенные структурированные данные — ну, в частности, таким инструментарием легко и просто будет решаться вышеупомянутая задача ведения структуры и штатного расписания большой географически распределенной компании — каждое подразделение будет вести свой кусочек, а вся большая структура будет сама как мозаика собираться вместе из этих кусочков и видна откуда угодно по ссылкам, да еще и в любых разрезах — это ж данные, по ним любые фильтры можно будет делать
Интересный у вас продукт. Ссылочкой не поделитесь, а?
Про провал MDM это Вы зря. Объективная реальность против. Вон, хотя бы, гартреровская диаграмма в верху страницы говорит, что системы MDM, можно сказать, только-только взрослеть начинают. А «мастер» данные от «остальных» отделить легко: что не является транзацией, то является записью в справочнике.
— с некоторых пор я решил, что ссылки на свой продукт в чужом блоге не очень неуместны 🙂
— мне лично кажется, что диаграмм Гартнера с очередной 3-хбуквенной аббревиатурой с очередными «визионерами», которые так и не успевают стать «лидерами», потому, что аббревиатура перестает использоваться вместе с ее концепцией — как минимум много
— останусь при своем мнении, что «мастер» данные от «остальных» отделить, в общем случае 1) нелегко и 2) не нужно. Тот же пример с ведением распределенной структуры предприятия — те же справочники подразделений, должностей etc. вроде бы мастер данные, а не транзакции, ан нет — реструктуризация на предприятии превратилась в непрерывный процесс и требуется вести эту структуру с сохранением ее состояния за прошлые периоды — вот вам и транзакции.
Иванова вышла замуж, стала Петровой — в прошлогоднем приказе о начислении премии она Иванова, в нынешнем приказе о предоставления отпуска она уже Петрова, а ссылки в СЭД из обоих документов должны указывать на данные об одном человеке, и желательно, чтобы факт смены фамилии в этих данных был отражен — вот вам и необходимость интеграции справочных данных и транзакций и невозможность их разделить