Fault management что это
fault management
контроль сетевых сбоев
Одна из пяти определенных ISO областей управления сетями. Основной задачей этой области сетевого управления является детектирование, изоляция и корректировка сбойных фрагментов сети.
[http://www.lexikon.ru/dict/net/index.html]
Тематики
разрешение проблемных ситуаций
—
[Л.Г.Суменко. Англо-русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.]
Тематики
управление обработкой отказов
—
[Л.Г.Суменко. Англо-русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.]
Тематики
Тематики
устранение неисправностей
Процедура системы управления, обеспечивающая сбор статистики об ошибках и устранение последствий сбоев и отказов в сети. Выполняет регистрацию сообщений об ошибках и их фильтрацию, выделяет из потока данных те сообщения, которые с точки зрения управления являются наиболее важными, и автоматически локализует источник взаимосвязанных отказов.
[Л.М. Невдяев. Телекоммуникационные технологии. Англо-русский толковый словарь-справочник. Под редакцией Ю.М. Горностаева. Москва, 2002]
Тематики
Полезное
Смотреть что такое «fault management» в других словарях:
Fault management — In network management, fault management is the set of functions that detect, isolate, and correct malfunctions in a telecommunications network, compensate for environmental changes, and include maintaining and examining error logs, accepting and… … Wikipedia
Fault management — Dans le cadre de la supervision de réseaux, le Fault management est l ensemble des fonctions qui permettent de détecter, isoler et corriger les erreurs dans un réseau de télécommunication et de réagir aux changements environnementaux. Cela inclut … Wikipédia en Français
fault management — One of the five basic types of network management defined by the International Organization for Standardization (ISO) and CCITT. Fault management is used in detecting, isolating, and correcting faults on the network … Dictionary of networking
fault management — Detects, isolates, and corrects network faults. One of five categories of network management defined by the ISO … IT glossary of terms, acronyms and abbreviations
Fault tree analysis — (FTA) is a failure analysis in which an undesired state of a system is analyzed using boolean logic to combine a series of lower level events. This analysis method is mainly used in the field of safety engineering to quantitatively determine the… … Wikipedia
Avaya Unified Communications Management — Developer(s) Nortel (now Avaya) Operating system MS Windows, and Linux Type Unified Communications Configuration and Management Avaya Unified Communications Management in computer networking is the name of a collection o … Wikipedia
Network management model — The ISO under the direction of the OSI group has created a network management model as the primary means for understanding the major functions of network management systems. The model in question is interchangeably called either the OSI network… … Wikipedia
Operations, administration and management — or operations, administration and maintenance (OA M or OAM) is a general term used to describe the processes, activities, tools, standards, etc involved with operating, administering, managing and maintaining any system. It is more commonly used… … Wikipedia
Systems management — refers to enterprise wide administration of distributed systems including (and commonly in practice) computer systems.[citation needed] Systems management is strongly influenced by network management initiatives in telecommunications. Centralized … Wikipedia
Network management — refers to the activities, methods, procedures, and tools that pertain to the operation, administration, maintenance, and provisioning of networked systems.[1] Operation deals with keeping the network (and the services that the network provides)… … Wikipedia
Avaya Proactive Voice Quality Management — Avaya PVQM Proactive real time voice quality management continuously and passively monitors the user voice experience without user knowledge, and conducts real time problem resolution while calls are on going without user interference. Avaya… … Wikipedia
1. Введение.
2. Необходимые требования.
Если вы заинтересовались данной связкой программы NOC и оборудованием Alentis NetPing, рассмотрим минимальные требования:
Необходимые системные требования для установки NOC. Перед установкой крайне рекомендуется ознакомится со следующими материалами:
Если вы планируете писать свои правила, очём речь пойдёт дальше, вам также необходимы некоторые минимальные знания:
понимание структуры типа словарь (json);
3. Краткий обзор системы мониторинга и управления ошибками NOC.
Просмотреть структурированный список всех ошибок в сети можно в Fault Managment →Alarms отсортировав вывод по Severity:
(На момент написания статьи аварий на сети не было, пришлось отправить в перезагрузку CPE устройство за облаком провайдера. В данный момент такие линки привязать через UI нет возможности).
Изображение стойки получим выделив её название «Rack 1». В стойках уже видно расположение самих объектов:
Если два раза кликнуть на объекте в стойке, потом перейти на вкладку Managed Objects и нажать кнопку Alarms, то появится список ошибок по конкретному объекту:
4. Регистрация объекта в системе NOC.
Сначала надо завести сам объект в базу NOC. Для этого заходим в Service Activation → Managed Objects и нажимаем кнопку +Add.
Откроется окно, показанное на рисунке ниже, в котором необходимо прописать:
Name:
SA Profile:
Внутренний профиль объекта в NOC. Если подходящего нет, выбираем Generic.Host.
Scheme:
Тип управления устройством. Может быть telnet, ssh, HTTP.
Address:
Port:
Порт, на котором слушает управляющий сервис.
User:
Password:
Trap Source IP:
IP адрес объекта, с которого будут приходить SNMP сообщения.
Trap Community:
Пароль для SNMP сообщений.
RO Community:
Пароль для SNMP подключения.
После ввода всех учётных данных объекта нажимаем кнопку Save.
5. Система управления ошибками (NOC FM).
Система управления ошибками (Fault Management FM) в NOC может сохранять все сетевые события, классифицировать их, выводить приоритезированные сообщения об ошибках, выполнять определённые действия при каком-либо событии. Настройка NOC для работы FM.
Мы затронем только часть FM — как создать новое правило классификатора для распознания SNMP или SYSLOG сообщения от сетевого устройства.
Чтобы просматривать сетевые события в NOC откроем вкладку Fault Managment → Events, изображённую на рисунке ниже.
5.1 Пример с SNMP Trap.
Видим не классифицированное событие, в поле «Class» которого стоит «Unknown | SNMP Trap». Войдем в него 2 раза кликнув. Получим картинку изображённую на рисунке ниже:
Теперь перейдем на вкладку Data, показанную на следующем рисунке.
Обращаем внимание: передаваемые в SNMP Trap переменные, которые можно извлечь из сообщения и использовать для его классификации. Эти переменные находятся в разделах Resolved Variables и Raw Variables.
Теперь нажимаем Create Rule и получим форму для создания правила:
Сначала надо выбрать класс события NOC. Список всех классов также можно просмотреть в
/opt/noc/fm/collections/eventclasses/.
Нас интересует влажность, она находится в каталоге Environment:
Теперь приступим к написанию регулярных выражений для классификации события
Обязательная переменная name: Humidity указывает на название сенсора. Мы её не извлекаем, а добавляем внизу. Остальные переменные measure, min, max извлекаем из данных SNMP Trap. Не забываем при этом заменить переменные цифровые значения на \d+
Для сохранения правила необходимо нажать кнопку Save
Открылась вкладка Fault Managment → Clasification Rules: здесь есть список всех правил класификации для всех устройств. Для фильтрации списка, набираем производителя Alentis и видим наше правило. На нём не стоит метка Build in.
Открываем правило для редактирования два раза кликнув на нём.
В открывшемся окне нажимаем кнопку JSON.
Копируем содержимое окна в файл Humidity_Returned_to_Normal_Range_1_SNMP_.json
Этот файл можно отослать на http://bt.nocproject.org/secure/Dashboard.jspa — таким образом база NOC будет поддерживать больше оборудования разных производителей.
Для подгрузки нового правила необходимо перезапустить NOC сервис.
После перезагрузки входим в наше правило два раза кликнув.
И нажимаем кнопку Reclasify
Возвращаемся назад, нажав кнопку Close
Видим, что наше сообщение теперь распозналось.
5.2 Пример с сообщением Syslog.
Если не получилось с SNMP можно попробовать Syslog. Как показывает опыт, для Syslog написать регулярное выражение, зачастую, бывает сложнее.
Итак, открываем такое же правило Sysylog, сообщение о нормализации влажности.
Выбираем класс события Environment | Humidity Returned to Normal Range
Меняем имя так, чтобы оно было уникально, добавив номер.
Смотрим какие переменные надо извлечь в файле:
/opt/noc/fm/collections/eventclasses/Environment/Humidity_Returned_to_Normal_Range.json
Нажимаем кнопку +Add и добавляем имя name и его значение Humidity:
Теперь создаём само регулярное выражение, по которому будет классифицироваться событие. Особое внимание необходимо обратить на экранирование спец символов «(», «)» и «.» с помощью «\». Также мы в этом случае оставим пробелы, которые обычно стоит заменять на «\s+» или «\s*». Дело в том, что в конкретно этом случае сообщения о выходе влажности за пределы нормы и возвращение влажности в пределы нормы различаются всего одним пробелом!
Нажимаем кнопку Test для проверки нашего регулярного выражения:
Копируем уникальный идентификационный номер нашего сообщения, как в примере с SNMP. И нажимаем кнопку Test для вывода результата проверки:
Пример успешного тестирования:
Для закрытия нажимаем Close
Чтобы сохранить наше новое правило нажимаем Save.
Открылась вкладка Fault Managment → Clasification Rules: здесь есть список всех правил классификации для всех устройств. Вводим производителя Alentis, для фильтрации списка и видим наше правило. На нём не стоит метка Build in.
Открываем правило для редактирования два раза кликнув на нём.
В открывшемся окне нажимаем кнопку JSON.
Копируем содержимое окна в файл Humidity_Returned_to_Normal_Range_1_SYSLOG_.json Потом закрываем нажав Close.
Подробное описание переменных и дополнительных функций для правил класификации событий.
Этот файл желательно отослать на http://bt.nocproject.org/secure/Dashboard.jspa, так база NOC будет обогащаться поддержкой оборудования разных производителей.
Для вступления правила в силу необходимо перезапустить NOC.
6. Выполнение определённых действий при наступлении некого события.
6.1 Старый механизм pyrule.
Не будем здесь его описывать просто приведём ссылки:
fault management
1 fault management
контроль сетевых сбоев
Одна из пяти определенных ISO областей управления сетями. Основной задачей этой области сетевого управления является детектирование, изоляция и корректировка сбойных фрагментов сети.
[ http://www.lexikon.ru/dict/net/index.html]
Тематики
разрешение проблемных ситуаций
—
[Л.Г.Суменко. Англо-русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.]
Тематики
управление обработкой отказов
—
[Л.Г.Суменко. Англо-русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.]
Тематики
Тематики
устранение неисправностей
Процедура системы управления, обеспечивающая сбор статистики об ошибках и устранение последствий сбоев и отказов в сети. Выполняет регистрацию сообщений об ошибках и их фильтрацию, выделяет из потока данных те сообщения, которые с точки зрения управления являются наиболее важными, и автоматически локализует источник взаимосвязанных отказов.
[Л.М. Невдяев. Телекоммуникационные технологии. Англо-русский толковый словарь-справочник. Под редакцией Ю.М. Горностаева. Москва, 2002]
Тематики
2 fault management
3 fault management
4 fault management
5 fault management
6 Fault Management (FM)
7 fault management
8 fault management
9 fault\ management
10 fault management
11 fault management
12 fault management
13 fault of management
14 fault of management
15 fault of management
16 fault of management
17 fault of management
18 fault of management
См. также в других словарях:
Fault management — In network management, fault management is the set of functions that detect, isolate, and correct malfunctions in a telecommunications network, compensate for environmental changes, and include maintaining and examining error logs, accepting and… … Wikipedia
Fault management — Dans le cadre de la supervision de réseaux, le Fault management est l ensemble des fonctions qui permettent de détecter, isoler et corriger les erreurs dans un réseau de télécommunication et de réagir aux changements environnementaux. Cela inclut … Wikipédia en Français
fault management — One of the five basic types of network management defined by the International Organization for Standardization (ISO) and CCITT. Fault management is used in detecting, isolating, and correcting faults on the network … Dictionary of networking
fault management — Detects, isolates, and corrects network faults. One of five categories of network management defined by the ISO … IT glossary of terms, acronyms and abbreviations
Fault tree analysis — (FTA) is a failure analysis in which an undesired state of a system is analyzed using boolean logic to combine a series of lower level events. This analysis method is mainly used in the field of safety engineering to quantitatively determine the… … Wikipedia
Avaya Unified Communications Management — Developer(s) Nortel (now Avaya) Operating system MS Windows, and Linux Type Unified Communications Configuration and Management Avaya Unified Communications Management in computer networking is the name of a collection o … Wikipedia
Network management model — The ISO under the direction of the OSI group has created a network management model as the primary means for understanding the major functions of network management systems. The model in question is interchangeably called either the OSI network… … Wikipedia
Operations, administration and management — or operations, administration and maintenance (OA M or OAM) is a general term used to describe the processes, activities, tools, standards, etc involved with operating, administering, managing and maintaining any system. It is more commonly used… … Wikipedia
Systems management — refers to enterprise wide administration of distributed systems including (and commonly in practice) computer systems.[citation needed] Systems management is strongly influenced by network management initiatives in telecommunications. Centralized … Wikipedia
Network management — refers to the activities, methods, procedures, and tools that pertain to the operation, administration, maintenance, and provisioning of networked systems.[1] Operation deals with keeping the network (and the services that the network provides)… … Wikipedia
Avaya Proactive Voice Quality Management — Avaya PVQM Proactive real time voice quality management continuously and passively monitors the user voice experience without user knowledge, and conducts real time problem resolution while calls are on going without user interference. Avaya… … Wikipedia
fault\ management
Смотреть что такое «fault\ management» в других словарях:
Fault management — In network management, fault management is the set of functions that detect, isolate, and correct malfunctions in a telecommunications network, compensate for environmental changes, and include maintaining and examining error logs, accepting and… … Wikipedia
Fault management — Dans le cadre de la supervision de réseaux, le Fault management est l ensemble des fonctions qui permettent de détecter, isoler et corriger les erreurs dans un réseau de télécommunication et de réagir aux changements environnementaux. Cela inclut … Wikipédia en Français
fault management — One of the five basic types of network management defined by the International Organization for Standardization (ISO) and CCITT. Fault management is used in detecting, isolating, and correcting faults on the network … Dictionary of networking
fault management — Detects, isolates, and corrects network faults. One of five categories of network management defined by the ISO … IT glossary of terms, acronyms and abbreviations
Fault tree analysis — (FTA) is a failure analysis in which an undesired state of a system is analyzed using boolean logic to combine a series of lower level events. This analysis method is mainly used in the field of safety engineering to quantitatively determine the… … Wikipedia
Avaya Unified Communications Management — Developer(s) Nortel (now Avaya) Operating system MS Windows, and Linux Type Unified Communications Configuration and Management Avaya Unified Communications Management in computer networking is the name of a collection o … Wikipedia
Network management model — The ISO under the direction of the OSI group has created a network management model as the primary means for understanding the major functions of network management systems. The model in question is interchangeably called either the OSI network… … Wikipedia
Operations, administration and management — or operations, administration and maintenance (OA M or OAM) is a general term used to describe the processes, activities, tools, standards, etc involved with operating, administering, managing and maintaining any system. It is more commonly used… … Wikipedia
Systems management — refers to enterprise wide administration of distributed systems including (and commonly in practice) computer systems.[citation needed] Systems management is strongly influenced by network management initiatives in telecommunications. Centralized … Wikipedia
Network management — refers to the activities, methods, procedures, and tools that pertain to the operation, administration, maintenance, and provisioning of networked systems.[1] Operation deals with keeping the network (and the services that the network provides)… … Wikipedia
Avaya Proactive Voice Quality Management — Avaya PVQM Proactive real time voice quality management continuously and passively monitors the user voice experience without user knowledge, and conducts real time problem resolution while calls are on going without user interference. Avaya… … Wikipedia