Надежность информационных систем

Проблема надёжности информационных систем (ИС) является комплексной, системотехнической. Производственный опыт и теоретические исследования свидетельствуют, что нельзя добиться значительного увеличения надёжности отдельными разрозненными мероприятиями. Совместное проведение многих мероприятий объединенных в систему не только увеличивает эффективность каждого из них, но и даёт возможность получить качественно новые результаты.

Надёжность ИС определяется надёжностью её элементов и аппаратуры, надёжностью программного обеспечения, управляющего выполнением вычислительного процесса, а также использованием средств контроля и восстановления системы. Пользователя компьютерной техники интересует только получение правильных результатов вычислений за заданное время. Для достижения этой цели необходимо, чтобы всё названные составляющие обладали необходимой надёжностью. Для разработки эффективной системы мероприятий по обеспечению надёжности ИС нужно ясное понимание студентами идей, лежащих в основе многих различных методов оценки и повышения надёжности, позволяющее им трезво оценить возможности и особенности применения этих методов.

Цель курса лекций «Надёжность информационных систем» – освещение вопросов, связанных с обеспечением высокой надёжности информационных систем. В лекциях изложены вопросы оценки и расчёта надёжности аппаратурных и программных средств ИС на основе статистических, структурных и эксплуатационных моделей, вопросы надёжности ПО, надежность ОУС, задачи оптимального резервирования ИС.

Данный курс базируется на знаниях общих и профилирующих дисциплин. Учебным планом для этой дисциплины отводится: общее количество лекционных часов – 36, практических часов – 18, лабораторных – 18 часов.

Надеюсь, что курс лекций по надёжности ИС будет полезен магистрам, аспирантам и широкому кругу специалистов, связанных с проектированием и разработкой высоконадёжных информационных и технических систем.

Надёжность, информационные системы, классификация отказов, внезапный отказ, постепенный отказ, сбой, безотказность, сохраняемость, ремонтопригодность, восстанавливаемые системы, обслуживаемые, необслуживаемые, высоконадёжный элемент, резервирование, аппаратная избыточность, программное обеспечение, контроль, диагностика, встроенные средства, типовые элементы замены, самопроверяемые устройства, самовосстановление, отказоустойчивость, работоспособность.
Информационная система – это сложная человеко-машинная система, включающая в свой состав эргатические звенья, технические средства и программное обеспечение.

Использование современных компьютеров и компьютерных систем (КС) может иметь место при условии их достаточно надежной работы. Основными причинами, определяющими повышенное внимание к проблемам надежности являются:


рост сложности аппаратуры и появление сложных высокопроизводительных компьютерных систем КС;

медленный рост уровня надежности комплектующих элементов;

увеличение важности выполняемой аппаратурой функций;

усложнение условий эксплуатации и др.


Надежность компьютеров и КС определяется, с одной стороны, отсутствием отказов, сбоев и ошибок в работе устройств, с другой возможностью восстановления аппаратуры и вычислительного процесса.

Основными задачами теории надежности являются:


методы анализа надежности элементов и систем;

установление видов количественных показателей надежности;

выработка методов аналитической оценки надежности;

разработка методов оценки надежности по результатам испытаний;

оптимизация надежности на стадиях разработки и эксплуатации.


При определении основных терминов и понятий в области надежности (например, отказ, восстановление, само понятие надежности и др.) будем следовать нормативно-техническим документам системе государственных стандартов «Надежность в технике», описываемая ГОСТ.24.701-86.

Основным понятием в теории надежности является понятие системы. Под системой понимают совокупность элементов, взаимодействующих между собой в процессе выполнения заданных функций. Например, в качестве систем могут рассматриваться КС, вычислительный комплекс, автоматическая система управления движением космического корабля, судна, микропроцессорная система и др.

Объекты, образующие системы представляют собой элементы системы. Элементом системы называют часть системы, которая имеет самостоятельную характеристику надежности, используемую при расчетах и выполняющую определенную функцию в интересах системы. Примерами элементов для систем, перечисленных выше, могут служить соответственно ЗУ-КС, мини-микро ЭВМ вычислительного комплекса, исполнительный механизм рулевого привода и т.д. Каждый из этих элементов можно рассматривать в качестве системы, состоящей из более мелких элементов.

Элементы и системы могут находится в двух состояниях: работоспособном и неработоспособном.

Работоспособным называется такое состояние системы (элемента), при котором они способны выполнить заданные функции, сохраняя значения заданных параметров в пределах установленных нормативно-технической документацией (НТД).

Неработоспособным называется состояние системы, при котором значение хотя бы одного параметра, характеризующего способность выполнять заданные функции, не находится в переделах, установленных, нормативно-технической документацией.

Событие, заключающееся в нарушении работоспособности системы, т.е. в переходе её из работоспособного в неработоспособное состояние, называется отказом.

Отказы объектов могут классифицироваться по многим признакам, например по характеру возникновения, внешним проявлениям, способам обнаружения. Приведем классификацию отказов по основным признакам (табл. 1).
Таблица 1

Классификационный признак

Значение классификационного признака

Вид отказа

1

Характер измене-ния параметров объекта до воз-никновения отказов

Скачкообразное изменение одного или нескольких параметров

Внезапный отказ

Постепенное изменение одного или нескольких параметров

Постепенный отказ

2

Взаимосвязь отказов

Отказ элемента объекта не обусловлен отказами других элементов объекта

Независимый отказ элемента

Отказ элемента объекта обусловлен отказами других элементов объекта

Зависимый отказ элемента

3

Происхождение отказов

Нарушение норм и методов конструирования

Конструкционный отказ

Нарушение процесса изготовления, ремонта, технологии

Производственный отказ

Нарушение условия эксплуатации объекта

Эксплуатационный отказ

4

Устойчивость неработоспособного состояния (характер воздействия отказа)

Неработоспособность сохраняется устойчиво

Устойчивый отказ

Неработоспособность сохраняется кратковременно, затем восстанавливается

Самоустраняющийся отказ (сбой)

Неработоспособность одного и того же характера возникает и самоустраняется многократно

Перемежающийся отказ


При анализе надежности конкретного объекта классификация его отказов позволяет выявить причины отказов и найти пути повышения надежности. Отметим, что в общей массе отказов в вычислительных машинах и микропроцессорных системах преобладают сбои, т.е. самоустраняющиеся отказы.

Под сбоем логического элемента КС понимается непредусмотренное изменение состояния этого элемента, после которого работоспособность самовосстанавливается (без проведения ремонта). Сбои приводят к кратко-временному нарушению работоспособности, они опасны для компьютеров, КС, любых ИС так как приводят к искажению информации и к неправильному функционированию системы.

На основании использования понятий работоспособности и отказа сформулируем понятие надежность

Основы физики и электротехники. Лекции, курсовые, задачи, учебники