Контроль работоспособности системы

    "– Помогите, у нас N часов не принимались события!
    – Как вы это заметили?
    – Да как то тихо стало на пульту..."

    Из разговора с техподдержкой. 

     Основная задача любой Системы передачи извещений – доставка событий на пульт. Работоспособность системы можно отслеживать по принятым событиям: они актуальные и доходят до оператора. При сбое любого из элементов в системе важно максимально быстро обнаружить неисправность и оперативно отреагировать. Именно оператор постоянно, 24 часа присутствует на пульту, поэтому на него возлагается первичный контроль за работоспособностью системы. Он должен уметь увидеть, что есть проблема и вовремя оповестить технических специалистов о ней. В ПО "Центр Охраны" разработаны специальные алгоритмы для облегчения этой задачи оператору.

     Рассмотрим 3 основных момента контроля приема событий: контроль приема событий в целом, контроль прохождения событий по каждому каналу связи, контроль приема событий по каждому объекту. 

    1. Контроль прохождения/приема событий в целом

    (Как контролировать, что сервер не завис и ЦО работает)

     В модуле Дежурный оператор в самом низу есть окно с отображением последнего принятого события. В настройках модуля можно задать интервал (30 секунд по умолчанию) не чаще которого там будут появляться события. Интервал нужен что бы избежать шквала событий в этой строке и постоянного звукового сопровождения по ним. 

     

     В верхнем правом углу отображается системное время с точностью до секунды. При нормальном режиме работы время вверху идет, оно актуальное(можно сравнивать с другими часами), внизу с заданным интервалом появляются события. Контролируя постоянное звуковое сопровождение и время у последних принятых событий можно быть уверенным, что вся система работает и события от объектов идут корректно.

     "Давящая" тишина и неактуальное время – явный признак проблем.  

      Приведем несколько причин возникновения проблем, от чего все может "зависнуть" и события с объектов не доходят до оператора: неисправности ПК(ОЗУ, HDD, питание...), блокировки после обновления антивируса, фаервола, брандмауэра, ошибки операционной системы или установленного ПО.

     Интервал появления и сами звуки для тестов можно менять и подобрать наиболее комфортные для операторов.  

    2. Контроль источников, обработчиков событий, каналов связи

    (Как контролировать центральные станции, прием событий по IP-каналам и СОМ-портам)

     События в ПО "Центр Охраны" могут принимается по различным каналам связи от различных центральных станций, стороннего ПО и напрямую от объектов. Для приема событий в ЦО используются источники и обработчики событий. Важно контролировать работу каждого источника или обработчика событий отдельно, это позволяет понимать с каким элементом системы проблемы. 

       Источники событий

     В настройках всех Источников событий есть параметр "Контрольное время(мин)".

     Если в течение указанного времени через источник не прошло ни одного события, то система сгенерирует тревогу по внутреннему номеру источника.   Контрольное время позволяет отслеживать факт приема событий источником и информировать оператора об отсутствии событий.

     Пример тревоги связи при отсутствии событий от ЦС: 

     Значение Контрольного времени выбирается в зависимости от загруженности источника, количества событий которое проходит через него. Понять какое количество событий приходит по определенному каналу связи можно создав отчет(1-13-По каналам связи). в Менеджере отчетов. 

     При настройке Источников событий так же важно каждому указывать свой(уникальный) внутренний номер объекта, создать карточку объекта с таким же номером и шаблоном событий "Центральная станция".

     

     Обработчики событий

     В обработчиках осуществляется контроль наличия подключения и возможности передачи событий т.е. самого канала. Если связь рвется по каким-то причинам, то по внутреннему номеру обработчика будет сгенерирована тревога: 

     

     Обработчики событий так же важно разделять по разным номерам объектов и создавать отдельные карточки используя шаблон "Обработчики событий". В настройках обработчика правильно настраивать Интервал активности(на клиенте в 2-3 раза больше, чем на сервере).

     Примеры неисправностей, который можно оперативно выявить при правильной настройке источников и обработчиков событий: выход из строя центральной станции, пропал интернет, сбой сетевого оборудования, отсутствие связи по портам... 

    Для оперативного реагирования инженер пульта может получать СМС оповещение  при тревогах связи. 

     

    3. Контроль каналов связи по каждому объекту

    (Как контролировать, что объект на связи и события проходят по всем каналам) 

     В модуле Менеджер объектов есть вкладка Контрольное время, в которой задается важнейший из параметров для объекта - Контрольное время. Если в течение заданного времени с объекта не придет ни одного события, будет сгенерирована тревога.  Когда на объекте несколько каналов связи, то для контроля каждого необходимо использовать индивидуальные настройки для каждого типа канала. 

    Пример тревоги связи по разным каналам: 

     Контрольное время выставляется в зависимости от интервалов тестов с объекта. Оценить правильность выставления общего времени и на каких объектах оно указано можно при помощи отчета "1-06-По отклонению времени". 

     Причины отсутствия событий с объекта могут быть разные: "глушение" объекта злоумышленниками, проблемы у оператора или провайдера, помехи в эфире, наводки на оборудование, неисправность объектового оборудования (контрольной панели, передатчика)... 

     Для новых GSM приборов контролировать IP-каналы можно по методике из статьи.  

     

     Применяя и правильно настроив все три вышеописанных пункта в комплексе можно  оперативно обнаружить и отреагировать на различные неисправности начиная от объекта, заканчивая рабочим местом оператора. . 

    С подробным описанием настроек ПО "Центр охраны" можно ознакомится в Инструкции по эксплуатации