
IV Международная научно-техническая конференция
46
общим количеством узлов около 140. В ЛИТ создан комплекс для включения его в
инфраструктуру проекта LCG (LHC Computing Grid). На нем проводятся сеансы массового
моделирования событий для всех экспериментов, готовящихся на LHC.
Качественная система мониторинга является важным условием эффективной работы
любой грид-системы – как в силу специфики построения систем данного типа, так и по
своему вкладу в увеличение их производительности и надежности. Так, OSG (Open Science
Grid, инфраструктура грид-компьютинга США, обеспечивающая свободное сотрудничество
ученых, программистов и поставщиков компьютерных ресурсов) декларировала в своем
глоссарии терминов следующую необходимую функциональность грид-мониторинга: сбор,
анализ и публикация информации от распределенной рабочей инфраструктуры с целью
определения статуса серверов и хода выполнения приложения. Сюда также относится
регулярная регистрация данных о производительности CPU, сетей и запоминающих
устройств. Сотрудники ОИЯИ принимали участие в развитии средств мониторинга для
вычислительных кластеров с большим количеством узлов (10 тыс. и более), эти разработки
включены в создаваемую архитектуру системы глобального мониторинга GMA (Grid
Monitoring Architecture).
Существенным элементом данного процесса является локальный мониторинг – то
есть анализ и контроль работы устройств, систем и служб, используемых Грид, в рамках
отдельно взятого кластера. Данные, предоставляемые службой локального мониторинга,
имеют большое значение как для сетевых администраторов, ответственных за
предоставление оборудования и каналов, так и для разработчиков и пользователей сервисов
grid. В рамках программы по развитию грид-мониторинга для эффективного
функционирования виртуальных организаций нами проводится работа по построению
системы локального мониторинга для нужд ЦИВК ОИЯИ.
Разрабатываемая система должна включать в себя мониторинг нескольких уровней:
1) Мониторинг оборудования, то есть отдельных компьютеров и устройств.
Осуществляется сбор и отображение данных об отдельных узлах, их аппаратном
обеспечении и ОС, сетевой доступности, загруженности процессоров и свободном дисковом
пространстве, источниках бесперебойного питания, температурном режиме.
2) Сетевой мониторинг (доступность различных сетевых устройств и служб). В
рамках ОИЯИ сюда входит сбор и отображение данных о состоянии локальной сети ЦИВК и
ЛИТ, состояние памяти и загрузка процессоров используемых маршрутизаторов,
характеристики отдельных их портов; характеристики транков между головным
маршрутизатором ЦИВК и маршрутизаторами следующего уровня; состояние внешнего
канала и доступность важнейших сетей.
3) Мониторинг сервисов, включая грид-специфичный мониторинг.
Система должна выдавать результаты своей работы единообразно и централизованно,
посредством единого веб-интерфейса, независимо от количества и способа интеграции
используемых при построении программных средств. Эти результаты могут включать
текущее состояние интересующих объектов, историю сбоев и нештатных ситуаций, графики
для исследуемых параметров, а также вспомогательные отображения, облегчающие работу
администраторов, вплоть до карты сети, плана стоек с указанием размещенных в них
объектов и их состояния.
Наиболее интересным и эффективным решением является система мониторинга со
свойствами экспертной системы, то есть накапливающая данные о возможных сбоях,
условиях их возникновения и методике устранения и способная использовать их для
оперативной реакции на сбои параллельно с оповещением соответствующего персонала, а
также и выявления потенциальных сбоев до их возникновения. Однако такая система может
быть довольно сложна в разработке и требует дополнительно большого объема работы для
создания базы знаний, достаточной для принятия корректных решений в критической
ситуации. Оптимальным было бы оставить возможность дальнейшего внедрения в систему
углубленных механизмов анализа собираемых данных, а также средств принятия решений.