Для чего нужно упорядоченное хранение данных

Учитель информатики

Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.

ГДЗ по Информатике 11 класс. База данных как модель предметной области.

§ 12. База данных как модель предметной области

Вопросы и задания

1. Для чего нужно упорядоченное хранение данных?

3. Имеете ли вы опыт использования каких-либо информационных систем?

4. Что такое база данных? Как связаны информационная система и база данных?

5. Что такое предметная область? Как представляются объекты предметной области и их свойства в информационной модели предметной области?

6. Что такое сущность? Что такое экземпляр сущности? Приведите примеры.

7. Что называют моделью «сущность-связь»?

8. Постройте модель «сущность—связь» для предметной области «Концертный зал».

9. Назовите типы связей между сущностями предметной области.

10. Определите тип связей между сущностями:

11. Что такое модель данных? Для чего она создаётся?

12. Опишите иерархическую модель данных.

13. Опишите сетевую модель данных.

14. Опишите реляционную модель данных.

15. Опишите таблицу реляционной БД.

16. Что такое ключевое поле? Каковы требования к ключевому полю?

17. Какого типа связи могут быть установлены между таблицами реляционной БД? Охарактеризуйте каждый тип связи.

18. Во фрагменте БД представлены сведения об участниках выставки:

1) Охарактеризуйте связь между представленными таблицами БД.
2) Художники из скольких стран представили на выставке пейзажи?
3) Представьте всю имеющуюся информацию о выставке в одной таблице.
4) Представьте всю имеющуюся информацию о выставке в форме графа.

19. Во фрагменте БД представлены сведения о родственных отношениях:

Представьте имеющуюся информацию в форме графа и ответьте на следующие вопросы.

1) Сколько внуков у Решко Д. А.?
2) Информация о скольких супружеских парах представлена в таблицах?
3) Какой идентификационный номер (ID) у дяди Решко В. А.?

Источник

Хранение данных. Или что такое NAS, SAN и прочие умные сокращения простыми словами

TL;DR: Вводная статья с описанием разных вариантов хранения данных. Будут рассмотрены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Зачем это все?

Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.

Надежно хранить данные в больших объемах, а также выдерживать отказы физических носителей — весьма интересная и сложная инженерная задача.

Хранение данных

Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования. Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям. Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.

По способу подключения есть следующие варианты:

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных
подключение дисков в сервере

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных
дисковая полка, подключаемая по FC

По типу используемых накопителей возможно выделить:

Если рассматривать форму хранения данных, то явно выделяются следующие:

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

По реализации достаточно сложно провести четкие границы, однако можно отметить:

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных
RAID контроллер от компании Fujitsu

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных
пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure

Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.

Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор. Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками. Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков. К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения. Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости и\или более высокой скорости работы, чем единичный накопитель. Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.

Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования. Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет. Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Давайте разберем более детально устройство SAN, для этого логически разделим ее на две важных части, сервера с HBA и дисковые полки, как оконечные устройства, а также коммутаторы (в больших системах — маршрутизаторы) и кабели, как средства построения сети. HBA — специализированный контроллер, размещаемый в сервере, подключаемом к SAN. Через этот контроллер сервер будет «видеть» диски, размещаемые в дисковых полках. Сервера и дисковые полки не обязательно должны размещаться рядом, хотя для достижения высокой производительности и малых задержек это рекомендуется. Сервера и полки подключаются к коммутатору, который организует общую среду передачи данных. Коммутаторы могут также соединяться с собой с помощью межкоммутаторных соединений, совокупность всех коммутаторов и их соединений называется фабрикой. Есть разные варианты реализации фабрики, я не буду тут останавливаться подробно. Для отказоустойчивости рекомендуется подключать минимум две фабрики к каждому HBA в сервере (иногда ставят несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа SAN.

Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики. Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.

Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих. Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа. Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Unified storage

Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству. Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.

Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.

Наиболее яркими представителями являются GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных
Пример SDS на основе GlusterFS

Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования. Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SAN\NAS, но без присущих им недостатков. Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.

Гиперконвергентные системы

Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры. Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить. Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее. На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Облака и эфемерные хранилища

Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless). Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки. Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные. Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью и\или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.

Заключение

Надеюсь, статья была полезной не только новичкам. Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, написать о своем опыте построения систем хранения данных.

Источник

Для чего нужны системы хранения данных

Все организации, фирмы, корпорации, магазины и другие предприятия не обходятся без электронных компьютерных баз, с помощью которых передают большое количество информации. Примерно 90% документов, которые обрабатываются в компании проходят в электронном виде. Это позволяет фирме или компании экономить массу финансовых средств, использовать возможности передачи информации и общения, а также дает множество других преимуществ.

Преимущества систем хранения данных

Множество компаний, которые работают в разных отраслях человеческой жизни, пользуются функциями и преимуществами электронного оборота документов. Стоит заметить, что компьютерная система имеет недостатки, например, если в сети случится необратимый сбой, то все хранимое на жестких дисках будет утрачено.

Для того чтобы избежать таких неприятностей компании должны использовать специальные системы хранения данных. Такая система представляет собой специальные диски или программное обеспечение, которое создано для хранения и обработки большого количества важной информации. Стоит заметить, что такие системы позволяют не только хранить всю важную информацию, но и выполнять множество других задач.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Так, например, системы хранения информации позволяют сохранять информацию не на определенном жестком диске, а в специальном хранилище, которое может представлять собой сервер или домен электронной почты или же сервер СУБД. Кроме того, такие хранилища могут сохранять в себе неограниченное количество различных документов, в отличие от жестких дисков, которые могут сохранять только определенные объемы информации.

Еще одним преимуществом системы хранения данных является то, что информацию практически невозможно удалить или потерять, как это может случиться с жесткими дисками или флэш-накопителями вследствие халатности сотрудников компании. Также, если компания большая и имеет множество филиалов, то такой способ хранения и передачи информации с помощью системы хранилища станет идеальным вариантом.

Главным преимуществом системы хранилища можно назвать то, что она не требует большого количества средств, постоянного усовершенствования и специально обученного персонала для её обслуживания. Система хранения данных работает автономно и постоянно обновляется и обслуживается работниками компании, которая предоставляет услуги СХД.

Источник

ГДЗ по информатике 11 класс учебник Босова параграф 12

1. Для чего нужно упорядоченное хранение данных?

Для быстрого поиска нужной информации.

2. Что такое информационная система? Каково основное назначение информационных систем?

Система, предназначенная для хранения, поиска и обработки информации.

3. Имеете ли вы опыт использования каких-либо информационных систем?

Да, телефонный справочник.

4. Что такое база данных? Как связаны информационная система и база данных?

База данных — это упорядоченное по определенным правилам набор взаимосвязанных данных.

5. Что такое предметная область? Как представляются объекты предметной области и их свойства в информационной модели предметной области?

Множество всех предметов, свойства которых и отношения, между которыми рассматриваются в научной теории.

6. Что такое сущность? Что такое экземпляр сущности? Приведите примеры.

Сущность предметной области — это тип реального или мнимого объекта предметной области.

Например, сущность Классы может состоять из объектов 11А, 11Б, 11В и т.д. Отдельные объекты сущности называют экземплярами сущности. Сущность имеет как минимум один экземпляр. Например, сущность Учебник информатики имеет только один экземпляр сущности, если все ученики школы учатся, используя учебник информатики одного авторского коллектива.

7. Что называют моделью «сущность-связь»?

Модель данных, позволяющая описывать концептуальные схемы предметной области.

8. Постройте модель «сущность—связь» для предметной области «Концертный зал».

Определены следующие объекты в БД:

Между объектами выявлены следующие взаимосвязи:

· Один пользователь может множество раз входить в систему.

· Несколько исполнителей могут выступить в нескольких концертах. Связь М:N.

· Исполнителей одного жанра может быть несколько. Связь М:1.

· Каждый концерт сопровождается несколькими типами рекламы. Связь М:N.

· Каждая реклама может быть нескольких видов. Связь 1:М.

· На каждый концерт продается множество билетов. Связь 1:М.

· Стоимость билетов зависит от концерта. Связь М:1.

· Билетов одного типа несколько. Связь М:1.

· Проданных билетов разного типа может быть несколько. Связь М:1.

· Один артист может получить несколько выплат. Связь 1:М.

9. Назовите типы связей между сущностями предметной области.

10. Определите тип связей между сущностями:

11. Что такое модель данных? Для чего она создаётся?

Модель данных – это совокупность структур данных и операций их обработки. С помощью модели данных могут быть представлены информационные объекты и взаимосвязи между ними.

12. Опишите иерархическую модель данных.

Иерархическая модель данных — это модель данных, где используется представление базы данных в виде древовидной (иерархической) структуры, состоящей из объектов (данных) различных уровней.

13. Опишите сетевую модель данных.

Сетевая модель данных определяется в тех же терминах, что и иерархическая. Она состоит из множества записей, которые могут быть владельцами или членами групповых отношений. Связь между записью-владельцем и записью-членом также имеет вид 1:N.

14. Опишите реляционную модель данных.

Реляционная модель представляет собой совокупность данных, состоящую из набора двумерных таблиц. В теории множеств таблице соответствует термин отношение (relation), физическим представлением которого является таблица, отсюда и название модели – реляционная.

15. Опишите таблицу реляционной БД.

Реляционная база данных — это совокупность взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного типа. Строка таблицы содержит данные об одном объекте (например, товаре, клиенте), а столбцы таблицы описывают различные характеристики этих объектов — атрибутов (например, наименование, код товара, сведения о клиенте). Записи, т. е. строки таблицы, имеют одинаковую структуру — они состоят из полей, хранящих атрибуты объекта. Каждое поле, т. е. столбец, описывает только одну характеристику объекта и имеет строго определенный тип данных. Все записи имеют одни и те же поля, только в них отображаются различные информационные свойства объекта.

16. Что такое ключевое поле? Каковы требования к ключевому полю?

Ключевое поле — это одно или несколько полей, комбинация значений которых однозначно определяет каждую запись в таблице.

Первичный ключ должен удовлетворять требованиям уникальности и минимальности. Уникальность ключевого поля обеспечивает одно из требований целостности БД – целостность согласования. Минимальность ключевого поля обеспечивает эффективное использование памяти БД.

17. Какого типа связи могут быть установлены между таблицами реляционной БД? Охарактеризуйте каждый тип связи.

• связь один к одному;

• связь один ко многим;

• связь многие ко многим.

18. Во фрагменте БД представлены сведения об участниках выставки:

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

1) Охарактеризуйте связь между представленными таблицами БД.

Страна участник один ко многим

Участник жанр один к одному
2) Художники из скольких стран представили на выставке пейзажи?

Четыре
3) Представьте всю имеющуюся информацию о выставке в одной таблице.

Самостоятельно
4) Представьте всю имеющуюся информацию о выставке в форме графа.

19. Во фрагменте БД представлены сведения о родственных отношениях:

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Представьте имеющуюся информацию в форме графа и ответьте на следующие вопросы.

1) Сколько внуков у Решко Д. А.?
2) Информация о скольких супружеских парах представлена в таблицах?
3) Какой идентификационный номер (ID) у дяди Решко В. А.?

Самостоятельно строим граф и находим решение.

Источник

Объектные системы хранения – что, зачем и для чего

Если погуглить по ключевым словам «объектные системы хранения» или object storage, то можно найти много текстов, объясняющих, что такое объектное хранилище и как оно работает, как объектные системы опережают в росте объемов другие типы систем хранения: блочные и файловые. Но мало кто говорит, чем такой рост вызван, какие практические преимущества могут дать ИТ-бизнесу объектные системы хранения, для решения каких проблем они создаются.

Чтобы избавить вас от попыток составить единую картину из разрозненных фактов, которые к тому же надо искать преимущественно в англоязычных источниках, мы постараемся дать краткое и, по возможности, полное объяснение, что такое объектные системы хранения, зачем и в каких случаях они нужны.

Зачем?

Не секрет, что рост объемов хранимых данных в последние годы происходит экспоненциально. По результатам опроса, проведенного исследовательской компанией «451 Research» в 2017 году, более 60 % организаций заявили, что объемы их систем хранения превышают 50 Петабайт, и процент их роста выражен двузначной цифрой. Если читатель работает инженером по системам хранения, ему не нужно объяснять, что традиционные системы хранения (блочные и файловые) просто не рассчитаны на такие темпы роста объемов данных, которые нужно надежно хранить и защищать.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Объемы хранимых данных (источник: 451 Research, Western Digital, 2017 г.)

Традиционный подход

Традиционный подход к хранению данных – системы SAN (Storage Area Network) или NAS (Network attached Storage), если не рассматривать совсем простые системы DAS (Direct Attached Storage) – это, например, внешняя дисковая полка, подключенная напрямую к RAID-контроллеру сервера.

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Различия SAN и NAS

Такой метод подойдет при относительно небольших объемах хранения. При росте дискового хранилища возникают проблемы с файловой системой. Традиционные файловые системы разбивают каждый файл на маленькие блоки, обычно объемом 4 килобайта, и сохраняют месторасположение каждого блока в таблицах просмотра (lookup table) файловой системы. Для небольших объемов данных это хорошо, но как только вы расширите систему хранения до петабайта и больше, таблицы станут непомерно огромными. Это сильно замедляет поиск нужного блока и увеличивает возможность ошибок.

Поэтому пользователи вынуждены разбивать свои наборы данных на многочисленные логические узлы LUN (Logical Unit Number), чтобы как-то поддержать быстродействие на приемлемом уровне. Однако при этом значительно увеличиваются сложность и затраты на администрирование и поддержку ИТ-системы, а проблемы быстродействия, потери данных и простои системы сказываются на бизнес-процессах.

Распределенная файловая система

Для решения этой проблемы стали использовать так называемые горизонтально-масштабируемые (Scale-out) файловые системы, такие как HDFS (Hadoop Distributed File System). Это распределенная файловая система на базе Hadoop, свободно распространяемого набора утилит для создания распределенных систем, работающих на кластерах из сотен и тысяч узлов. Проблема масштабирования при этом решается, однако поддержка таких систем также довольно трудоемка. Они конструктивно сложны и требуют постоянного обслуживания. К тому же в них чаще всего используется механизм репликации данных, то есть попросту хранения копий одних и тех же данных в разных местах системы. Стандартно сохраняются три копии каждого файла. Излишне говорить, что это увеличивает требуемый дисковый объем на целых 200 %! Хотя цены на диски все время снижаются, но объемы данных, которые необходимо хранить, растут еще быстрее. Это напрочь съедает экономию на недорогих дисках. Для петабайтов информации такой подход неприемлем.

Облачное хранение

Для минимизации этих проблем многие стали прибегать к использованию облачных хранилищ. Модель оплаты по мере потребления (pay-as-you-go) работает отлично, но опять-таки – для относительно небольших объемов данных и при нечастом их использовании. При постоянном масштабировании объемов данных, интенсивной работе с ними этот подход также становится весьма затратным, не дешевле HDFS. Дело в том, что многие облачные провайдеры берут плату не только за объем хранимых данных, но и за трафик извлекаемых/записываемых данных, а также и за число транзакций (обращений) к хранилищу. Поэтому, когда приходится иметь дело с анализом больших данных, передачей массивных объемов данных, то хранилище в публичном облаке – наверное, самый дорогой подход. Кроме того, могут возникнуть проблемы конфиденциальности данных и производительности системы, если много других пользователей также будут интенсивно использовать ресурсы данного облака.

Что делать?

Выходом в такой ситуации может быть объектная система хранения (object storage), в которой используются примерно те же технологии, что в публичном облаке (HTTP, API). Объектные хранилища можно легко масштабировать до объемов петабайта в одном домене, без какой-либо деградации производительности. Кроме того, объектные хранилища имеют функционал управления данными, чего нет в традиционных системах: управлении версиями, кастомизации метаданных и встроенной аналитике.

Такие характеристики достигаются за счет абстрагирования уровней системы – общий подход, который сейчас используется практически во всех ИТ- и телеком-системах, не только в системах хранения. Каждый диск на нижележащем уровне форматируется простой локальной файловой системой, такой как EXT4. На верхнем уровне, абстрагированном от нижнего, размещаются средства управления, что позволяет интегрировать все элементы в едином унифицированном томе. Файлы различного вида хранятся как «объекты», а не как файлы в файловой системе. Поскольку низкоуровневое управление блоками передано локальной файловой системе, объектное хранилище ведает только функциями управления высокого уровня, которые управляют нижележащим уровнем через стандартный интерфейс прикладного программирования API (Application Programing Interface).

Для чего нужно упорядоченное хранение данных. Смотреть фото Для чего нужно упорядоченное хранение данных. Смотреть картинку Для чего нужно упорядоченное хранение данных. Картинка про Для чего нужно упорядоченное хранение данных. Фото Для чего нужно упорядоченное хранение данных

Объектная система хранения

Принцип объектного хранения можно сравнить с услугой парковки, когда вы просто оставляете машину (объект) для ее размещения на парковочном пространстве и получаете карточку, по которой вы можете получить машину обратно. В карточку могут быть внесены «метаданные»: ваше имя, номер и марка машины. Где именно запаркуют машину, вам неинтересно (абстрагирование), и вам не нужно кружить по парковке в поисках свободного места.

Такой подход позволяет сохранять таблицы просмотра файловой системы каждого узла нижележащего уровня в пределах легко управляемого размера. Это позволяет масштабировать систему до сотен петабайт без заметного снижения производительности.

Структурированные и неструктурированные данные

Понятие «структурированные» и «неструктурированные» данные – весьма относительно. Все файлы с данными имеют ту или иную структуру, тип файла. Поэтому, с этой точки зрения, все файлы – структурированные. Когда говорят, что данные – неструктурированные, имеется в виду, что они не хранятся в единой базе и содержат разные типы данных. Это просто набор разнородных файлов, созданных в различных приложениях и полученных из разных источников. Если открыть на компьютере папку «Мои документы», то примерно это там и будет.

Объектное хранилище предназначено в основном для работы с неструктурированными данными. Объекты неструктурированных данных можно пометить метаданными, которые описывают их содержимое и помогают быстро извлечь из хранилища нужный объект. В этом случае сами метаданные будут структурированы, т. е. будут иметь стандартную форму, определенную в API. Это позволяет отслеживать и индексировать объекты, без необходимости применять внешние программы или базы данных. Использование метаданных открывает новые возможности для аналитики. Файлы (объекты) можно индексировать и искать в объектном хранилище, не зная структуру их содержимого или того, в какой программе они были созданы.

Защита данных

Нужна ли репликация данных для надежного хранения в объектной системе? Да, нужна, но при этом не требуется утраивать объем дискового пространства, как в блочной системе. Для максимизации доступного дискового пространства и защиты данных используется технология Erasure Coding (ЕС). Упрощенно ее можно назвать следующим поколением хорошо известного метода защиты данных RAID, при котором необходимо двойное или тройное резервирование.

В методе ЕС файлы объектов разделяются на фрагменты (shards). Для некоторых из них создаются копии избыточности в формате N+M. Например, если для шести из десяти фрагментов создаются копии, это будет формат 10+6. Данные, для которых нужно, например, N дисков, копии избыточности распределяются по N+M дискам (в данном случае 16). При потере любых шести дисков, оставшихся десяти достаточно для восстановления исходных данных. Таким образом, избыточность объема хранения получается не такой большой, как в RAID, и она может противостоять множественным отказам дисков без риска потери данных. Тома ЕС могут выдерживать больше отказов дисков, чем дисковые массивы RAID. При этом петабайтное масштабирование системы не будет приводить к столь большим затратам на закупку дисков, как в файловых системах.

Для чего?

Объектное хранилище часто выбирается для данных WORM, которые пишутся один раз, но читаются много раз (Write Once Read Many). Оно подходит не для всех объемов данных и сценариев использования, но, безусловно, имеет много применений.

Объектные системы хранения целесообразно использовать в следующих случаях:

Таким образом, мы видим, что объектные системы хранения хорошо подходят для хранения массивных разнородных (неструктурированных) данных и отвечают запросам бурного роста объемов данных, которые нужно хранить, обрабатывать и анализировать в различных отраслях. Именно поэтому объемы объектных систем хранения растут значительно быстрее объемов файловых систем.

В следующей статье мы представим обзор рынка объектных СХД на примере популярных систем объектного хранения:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *