ПРОБЛЕМЫ УПРАВЛЕНИЯ 4/2005

Надежность и техническая диагностика

< индекс---содержание № 4---след. статья в № 4---список рубрик >

УДК 681.518.54;004.3.001.4

СПОСОБ САМОДИАГНОСТИРОВАНИЯ

НЕОДНОРОДНЫХ ЦИФРОВЫХ СИСТЕМ

В.А. Ведешенков

Институт проблем управления им. В.А. Трапезникова, г. Москва

Предложен способ самодиагностирования (СД) компонентов неоднородных цифровых систем, содержащих одинаковое число устройств двух типов (процессоров, памяти). Для осуществления контроля и СД связанные разнотипные устройства объединяются в подсистемы: проверяющие и проверяемые. Допускаются устойчивые кратные отказы ограниченного числа компонентов. Разработана организация СД рассматриваемых неоднородных цифровых систем, основанная на постепенном расширении множества исправных модулей. Дан пример реализации СД компонентов в 14-модульной системе.

ВВЕДЕНИЕ

Любой метод системного диагностирования технического состояния компонентов в цифровых системах (многопроцессорных и многомашинных вычислительных системах (ММВС)) основан на том, что вводится ограничение на максимальное число произвольно расположенных отказавших компонентов, которое позволяет оставшимся исправным модулям получить информацию, достаточную для правильного диагностирования состояния компонентов. Для описания результатов тестирования модулей в данной работе используется модель Барси – Грандони – Маестрини (БГМ) [1], которая предполагает, что модули, на которые разбивается исходная ММВС, однородные и обладают функциональными возможностями, достаточными для реализации диагностических алгоритмов, составными частями которых являются процедуры проверки компонентов системы и сбора результатов этих проверок.

Однако многие ММВС содержат устройства различных типов (процессоры, станции памяти, каналы связи). Примером такой ММВС может служить неоднородная система обработки радиолокационной информации [2], содержащая семь процессоров и семь станций памяти, соединенных каналами связи в соответствии с графом, показанным на рис. 1, где процессоры обозначены четными номерами, а станции памяти – нечетными. Любой процессор системы связан с любым другим процессором через одну станцию памяти. Наличие устройств разных типов не позволяет непосредственно применить системные методы диагностирования. Но автоматизированное диагностирование состояния компонентов неоднородных цифровых систем представляется необходимым, так как позволяет сократить время восстановления работоспособности систем после обнаружения факта их неправильного функционирования.

Далее представлен способ организации контроля и самодиагностирования (СД) состояния компонентов неоднородных цифровых систем, предполагающий на этапах контроля и СД объединение связанных разнотипных устройств в проверяющие и проверяемые подсистемы, обладающие необходимыми функциональными возможностями для реализации диагностических алгоритмов.

Рис. 1 Граф неоднородной системы Q₁₄_,₂₁

Напомним, что в однородных системах при выполнении процессов контроля и СД проверяющий модуль подает на входы проверяемого модуля последовательность проверок (тест), получает ответные реакции проверяемого модуля на этот тест, сравнивает их с эталонными, а результат сравнения оценивает в двоичной форме: 0 – результаты правильные, 1 – неправильные. В модели БГМ предполагается, что оценка результатов теста всегда достоверна, если исправен проверяющий модуль; эта оценка равна 1, если неисправны оба модуля, и недостоверна (0 или 1) в том случае, когда неисправен проверяющий модуль, а проверяемый исправен. Поэтому нулевая оценка, выдаваемая проверяющим модулем, с большой вероятностью подтверждает исправность проверенного им модуля. Такая предпосылка модели БГМ существенно упрощает процедуру диагностирования, так как для идентификации исправных модулей достаточно 0-путей единичной длины (в терминологии работы [3]).

Суммарная оценка результатов выполненных тестов t₁,..., t_l образует двоичный вектор R= r₁,..., r_l , который называется реальным синдромом. В большинстве алгоритмов системного диагностирования предполагается (или констатируется), что результаты тестов, образующие реальный синдром R, собираются и обрабатываются (дешифрируются) внешним устройством. По результатам работы этого устройства (результатам диагностирования) обслуживающий персонал заменяет отказавшие компоненты и восстанавливает работоспособность ММВС. В настоящей статье, как и в работах [4, 5], развивается другой подход, основанный на организации самодиагностирования системы, когда необходимые алгоритмы, включая сбор реального синдрома R и его обработку, реализуются на исправных процессорах самой системы.

ЗАКЛЮЧЕНИЕ

Представлен способ СД компонентов неоднородных цифровых систем, содержащих равное число устройств двух типов (процессоров, памяти). Для проведения процессов контроля и СД связанные разнотипные устройства объединяются в подсистемы: проверяющие и проверяемые. В основу организации СД, реализующего предложенный способ, как и в работе [4], положен принцип постепенного расширения множества исправных модулей: выполнение необходимых процедур начинается с исправной подсистемы и последовательно передается другим подсистемам, исправность которых подтверждена предшествующими проверками. Отметим, что начальная подсистема процесса СД не является фиксированной, а определяется по результатам работы системы контроля.

Предполагается, что в исходной неоднородной системе есть диагностический монитор, который инициирует процессы контроля и СД.

В рассмотренном примере организация контроля и СД отказавших компонентов в неоднородной 14-модульной системе осуществляется с точностью до подсистемы, включающей в себя процессор, память и линию связи между ними, или линии, связывающей разные подсистемы. Требование такой точности целесообразно при диагностировании отказоустойчивых систем с реконфигурацией, в которых отказавшая подсистема автоматически заменяется исправной резервной [2, 5]. Автором был рассмотрен и другой пример организации контроля и СД отказавших компонентов в той же системе с точностью до отдельного компонента (процессора, памяти, линии связи). Для получения такой точности необходимо, чтобы проверяемые подсистемы различались номерами входящих в них устройств памяти или процессоров. Но увеличение числа различных проверяемых подсистем требует пропорционального увеличения числа необходимых проверок. В результате, снижение требуемой точности диагностирования (в приведенном примере) позволило в 3 раза уменьшить число необходимых проверок и существенно сократить трудоемкость последующих процедур. Хотя в приведенном примере показано правильное диагностирование отказов двух компонентов, но можно подобрать такие сочетания двух неисправных компонентов, диагноз которых даст неправильный результат. Причина в структуре таблицы состава, в которой каждая проверяющая подсистема тестирует по две проверяемых подсистемы, поэтому выбранные системы проверок обеспечивают достоверное диагностирование только одиночных компонентов.

ЛИТЕРАТУРА

1. Barsi F., Grandoni F., Maestrini P. A theory of diagnosability of digital systems // IEEE Trans. Comput. – 1976. – Vol. C-25, N 6. – P. 585 – 593.

2. Каравай М.Ф. Минимизированное вложение произвольных гамильтоновых графов в отказоустойчивый граф и реконфигурация при отказах. Ч. 1. Одно-отказоустойчивые структуры // Автоматика и телемеханика. – 2004. – № 12. – С. 159 – 177.

3. Пархоменко П. П. Определение технического состояния многопроцессорных вычислительных систем путем анализа графа синдромов // Там же. – 1999. – № 5. – С. 126 – 135.

4. Ведешенков В.А. Организация самодиагностирования технического состояния цифровых систем // Там же. – 2003. – № 11. – С. 165 – 182.

5. Ведешенков В.А. Самодиагностирование отказов цифровых систем с реконфигурацией // Проблемы управления. – 2003. – № 4. – С. 39 – 51.

( (095) 334-75-90

E-mail: vva@l9.ipu.rssi.ru