бесплатно рефераты

бесплатно рефераты

 
 
бесплатно рефераты бесплатно рефераты

Меню

Исследование возможности применения искусственных нейронных сетей для автоматического управления процессом металлизации бесплатно рефераты

Многослойный персептрон

В многослойном персептроне помимо входного и выходного слоев добавляются скрытые слои. Они представляют собой нейроны, которые не имеют непосредственных входов исходных данных, а связаны только с выходами входного слоя и с входом выходного слоя. Таким образом, скрытые слои дополнительно преобразуют информацию и добавляют нелинейности в модели (рис. 5.5).

Простой персептрон хорошо справляется с задачами классификации. Каждому выходу нейронной сети сопоставляется определенный класс входного набора данных. Обученная нейронная сеть анализирует полученную информацию и активизирует только один выход - тот, который соответствует классу входного набора. Простой персептрон не способен решать большинство других практических задач. Многослойный персептрон с сигмоидной функцией активации нейронов способен аппроксимировать любую функциональную зависимость и, таким образом, способен решать большой круг самых разнообразных задач. Но при этом заранее не известно ни нужное число слоев сети, ни нужное количество скрытых нейронов, ни необходимое для обучения сети время. В большинстве случаев эти задачи решаются при конструировании сети эмпирическим путем.

4.2.3 Сети обратного распространения информации

4.2.3.1 Многослойные сети

Рекуррентные (Recurrent networks), рециркуляционные (Recirculation networks) и релаксационные нейронные сети характеризуются как прямым (feed forward), так и обратным (feed back) распространением информации. При этом обратное распространение информации осуществляется по-разному для таких нейронных сетей. В рециркуляционных нейронных сетях распространение информации происходит по двунаправленным связям, которые имеют в различных направлениях разные весовые коэффициенты. При обратном распространении сигналов в таких сетях осуществляется их преобразование с целью восстановления входного образа. При прямом распространении сигналов происходит сжатие входных данных. В результате осуществляется рециркуляция информации. Обучение рециркуляционных нейронных сетей производится без учителя. Рекуррентные нейронные сети характеризуются обучением с учителем и обратными связями, по которым передаются результаты обработки сетью данных на предыдущем этапе. В результате этого входом рекуррентной нейронной сети в каждый фиксированный момент времени является вектор входных данных и результаты обработки информации сетью на предыдущем этапе. Обучение таких сетей базируется на алгоритме обратного распространения ошибки. Это дало повод, несмотря на различия между рекуррентными и рециркуляционными нейронными сетями, отнести их к одному классу.

Рекуррентные сети

Рекуррентными нейронными сетями называются такие сети, в которых выходы нейронных элементов последующих слоев имеют синаптические соединения с нейронами предшествующих слоев. Это приводит к возможности учета результатов преобразования нейронной сетью информации на предыдущем этапе для обработки входного вектора на следующем этапе функционирования сети. Рекуррентные сети могут использоваться для решения задач прогнозирования и управления. Существуют различные варианты архитектур рекуррентных нейронных сетей. В 1986 г. Джордан (Jordan) предложил рекуррентную сеть (рис. 5.6), в которой выходы нейронных элементов последнего слоя соединены посредством специальных входных нейронов с нейронами промежуточного слоя. Такие входные нейронные элементы называются контекстными нейронами (context units). Они распределяют выходные данные нейронной сети на нейронные элементы промежуточного слоя.

Число контекстных нейронов равняется числу выходных нейронных элементов рекуррентной сети. В качестве выходного слоя таких сетей используются нейронные элементы с линейной функцией активации. Тогда выходное значение j-го нейронного элемента последнего слоя определяется по формуле:

где vij - весовой коэффициент между i-м нейроном промежуточного и j-м нейроном выходного слоев; pi(t) - выходное значение i-го нейрона промежуточного слоя; Tj - пороговое значение j-го нейрона выходного слоя.

Взвешенная сумма i-ro нейронного элемента промежуточного слоя определяется следующим образом:

где wji - весовой коэффициент между j-м нейроном входного и i-м нейроном промежуточного слоев;

р - число нейронов выходного слоя; wki - весовой коэффициент между k-м контекстным нейроном и i-м нейроном промежуточного слоя;

Тj - пороговое значение i-го нейрона промежуточного слоя;

n - размерность входного вектора.

Тогда выходное значение i-го нейрона скрытого слоя:

pi(t)=F(Si(t)) (5.2.1.)

В качестве функции нелинейного преобразования F обычно используется гиперболический тангенс или сигмоидная функция.

Другой вариант рекуррентной нейронной сети предложил Элман (Elman) в 1990 году.

В такой сети выходы нейронных элементов промежуточного слоя соединяются с контекстными нейронами входного слоя.

Тогда взвешенная сумма i-го нейронного элемента промежуточного слоя:

где т - число нейронов промежуточного слоя; pk(t-1) - выходное значение k-го нейрона промежуточного слоя.

Выходное значение k-го нейрона промежуточного слоя определяется следующим образом:

pk(t-1)=F(Si(t-1))(5.2.3.)

Для построения рекуррентных нейронных сетей можно использовать также два приведенных выше подхода.

В этом случае существуют обратные связи к контекстным нейронам, как от нейронных элементов выходного, так и промежуточного слоев.

Число контекстных нейронов входного слоя равняется общему числу нейронов промежуточного и выходного слоев. Тогда:

где p - число нейронов выходного слоя.

Рециркуляционные нейронные сети

Рециркуляционные сети характеризуются как прямым У = f (X), так и обратным Х = f (У) преобразованием информации. Задача такого преобразования - достижение наилучшего автопрогноза или самовоспроизводимости вектора Х. Рециркуляционные нейронные сети применяются для сжатия (прямое преобразование) и восстановления исходной (обратное преобразование) информации. Такие сети являются самоорганизующимися в процессе работы, где обучение производится без учителя. Они были предложены в 1988 г. Теоретической основой рециркуляционных нейронных сетей служит анализ главных компонент (principal component analysis). Этот метод применяется в статистике для сжатия информации без существенных потерь её информативности. Он состоит в линейном ортогональном преобразовании входного вектора X размерности n в выходной вектор Y размерности p, где p < n. При этом компоненты вектора Y являются некоррелированными ,и общая дисперсия после преобразования остаётся неизменной.

Рециркуляционная нейронная сеть представляет собой совокупность двух слоев нейронных элементов, которые соединены между собой двунаправленными связями (рис. 5.8).

Каждый из слоев нейронных элементов может использоваться в качестве входного или выходного. Если слой нейронных элементов служит в качестве входного, то он выполняет распределительные функции.

В противном случае нейронные элементы слоя являются обрабатывающими. Весовые коэффициенты, соответствующие прямым и обратным связям, характеризуются матрицей весовых коэффициентов W и W'. Для наглядности рециркуляционную сеть можно представить в развернутом виде, как показано на рис. 5.9.

Такое представление сети является эквивалентным и характеризует полный цикл преобразования информации. При этом промежуточный слой нейронных элементов производит кодирование (сжатие) входных данных X, а последний слой - восстановление сжатой информации Y. Слой нейронной сети, соответствующий матрице связи W, назовем прямым, а соответствующий матрице связей W' - обратным.

Рециркуляционная сеть предназначена для сжатия данных и восстановления сжатой информации. Сжатие данных осуществляется при прямом преобразовании информации в соответствии с выражением

Y=F(WTX) (5.2.5.)

Восстановление или реконструкция данных происходит при обратном преобразовании информации:

X=F(W'Y) (5.2.6.)

В качестве функции активации нейронных элементов F может использоваться как линейная, так и нелинейная функции. При использовании линейной функции активации.Релаксационные нейронные сети

Релаксационные нейронные сети характеризуются прямым и обратным распространением информации между слоями сети. В основе функционирования таких сетей лежит итеративный принцип работы. Он заключается в том, что на каждой итерации происходит обработка данных, полученных на предыдущем шаге. Такая циркуляция происходит до тех пор, пока не установится состояние равновесия. При этом состояния нейронных элементов перестают изменяться и характеризуются стационарными значениями. Для анализа устойчивости релаксационных нейронных сетей используются функции Ляпунова. Такие сети применяются в качестве ассоциативной памяти и для решения комбинаторных задач оптимизации. К релаксационным относятся нейронные сети Хопфилда, Хемминга, двунаправленная ассоциативная память и машина Больцмана.

В 1982 г. американский биофизик Д. Хопфилд (Hopfield) представил математический анализ релаксационных сетей с обратными связями. В основе анализа лежит теория изинговых спинов, которая используется для изучения ферромагнетиков при низких температурах. Поэтому такие нейронные сети получили название сетей Хопфилда.

Нейронная сеть Хопфилда характеризуется обратными связями. В ней каждый нейрон имеет синаптические связи со всеми остальными нейронами сети.

Архитектуру такой сети представим в виде двух слоёв нейронных элементов (рис. 5.10).

При этом первый слой является распределительным, а второй слой нейронных элементов осуществляет нелинейное преобразование взвешенной суммы:

где yi(t+1) - выходное значение i-го нейронного элемента в момент времени t+1; F - оператор нелинейного преобразования; Ti - пороговое значение i-го нейрона.

В матричной форме модель Хопфилда можно представить как:

Y(t+1)=F (S(t)); S(t)=WTY(t)-T (5.2.8.)

При этом используемые векторы имеют вид:

S=[S1, S2,…,Sn]T; Y=[y1, y2,…,yn]T; T=[T1, T2,…,Tn]T;

(5.2.9.)

В качестве матрицы весовых коэффициентов Хопфилд использовал симметричную матрицу (wij=wji) с нулевой главной диагональю (wii=0). Последнее условие соответствует отсутствию обратной связи нейронного элемента на себя. В качестве функции активации нейронных элементов F может служит как пороговая, и непрерывная функции, например сигмоидная или гиперболический тангенс.

Сеть Хопфилда может использоваться в качестве ассоциативной памяти. В этом случая она способна распознавать зашумлённые или искажённые образы. Для обучения нейронной сети Хопфилда используется правило Хебба.

В 1987 г. Р. Липпманом (Lippman) была предложена нейронная сеть Хэмминга (Hamming Network). Она представляет собой релаксационную, многослойную нейронную сеть с обратными связями между отдельными слоями. Сеть Хэмминга применяется в качестве ассоциативной памяти. При распознавании образов она использует в качестве меры близости расстояние Хэмминга. Весовые коэффициенты и пороги сети Хэмминга определяются из условия задачи, поэтому такая сеть является нейронной сетью с фиксированными связями.

Сеть Хэмминга является многослойной, состоящей из различных классов нейронных сетей. Пусть имеется m образов, каждый из которых имеет размерность n:

Тогда нейронная сеть Хэмминга будет состоять из сети с прямыми связями, сети Хопфилда и слоя выходных нейронов (рис. 5.11).

Сеть с прямыми связями состоит из n входных распределительных и m выходных нейронных элементов. Она вычисляет меру подобия между входными и эталонными образами, хранящимися в ней. В качестве меры подобия используется число одинаковых разрядов между входным и эталонным образом.

Сеть Хопфилда используется для разрешения возникающих конфликтов, когда входной паттерн является подобным нескольким эталонным образам, хранящимся в сети. При этом на выходе сети остаётся активным только один нейрон-победитель.

Выходной слой нейронной сети состоит из m нейронов, каждый из которых имеет пороговую функцию активации. Он предназначен для преобразования выходной активности нейрона-победителя сети Хэмминга в единичное значение. При этом значения всех остальных нейронов выходного слоя устанавливаются в нулевое состояние. Таким образом, происходит идентификация входного паттерна, который кодируется номером нейрона выходного слоя, имеющим единичное значение. Если входной образ не совпадает с эталонным, то на выходе сети Хэмминга будет формироваться такой эталонный паттерн, который имеет минимальное расстояние Хэмминга по отношению к выходному образу.

В 1988 г. Б. Коско предложил дальнейшее развитие сети Хопфилда - двунаправленную ассоциативную память, представляющей собой релаксационную сеть с циркуляцией информации.

Двунаправленная ассоциативная память состоит из двух слоёв нейронных элементов. Нейроны каждого из слоёв могут быть как входными, так и выходными. Архитектура двунаправленной ассоциативной памяти аналогична рециркуляционной нейронной сети (рис. 5.8). Однако принципы функционирования таких сетей разные.

4.2.3.2 Саморганизующиеся нейронные сети

Самоорганизующиеся нейронные сети (self-organising networks) характеризуются обучением без учителя, в результате которого происходит адаптация сети к решаемой задаче. К таким сетям относятся нейронные сети Кохонена, адаптивного резонанса и рециркуляционные сети (см. п. 5.2.3.1). В каждой из этих сетей самоорганизация происходит в результате различных механизмов обучения. Наиболее известными среди самоорганизующихся нейронных сетей являются сети, которые разработал в 80-х годах финский ученый Т.Кохонен (Kohonen). Нейронные сети Кохонена осуществляют топологическое упорядочивание входного пространства паттернов. Они широко применяются в задачах распознавания образов, оптимизации и управления.

Самоорганизующиеся нейронные сети используются для решения различных задач: кластеризации, векторного квантования, сокращения размерности входного пространства, выделения характерных признаков и т.д. При кластеризации входные образы группируются в кластеры, причем каждому кластеру ставится в соответствие отдельный нейрон. Векторное квантование применяется для сжатия данных. Для обучения самоорганизующихся нейронных сетей используется конкурентный метод, который был предложен в 1976 г. С. Гроссбергом (S. Grossberg) и затем развит в работах финского ученого Т. Кохонена (Т. Kohonen).

Сети адаптивного резонанса

Нейронные сети адаптивного резонанса были предложены С. Гроссбергом (S.Grossberg) в 1976 г. Они основываются на теории адаптивного резонанса (Adaptive Resonance Theory). В соответствии с ней такие нейронные сети называются ART-сетями. Резонанс в них происходит при идентификации какого-либо события или образа. В процессе функционирования ART-сетей в них происходит циркуляция информации до тех пор, пока не наступит состояния резонанса. Нейронные сети адаптивного резонанса обучаются без учителя и характеризуются самоорганизацией в процессе работы. Они могут использоваться для распознавания образов, обработки речевых сигналов и в задачах управления.

Теория адаптивного резонанса базируется на следующих основных принципах:

1. Адаптация входного паттерна к паттернам, хранящимся в сети, осуществляется при помощи резонанса.

2. Резонанс происходит при идентификации входного образа, когда он максимально совпадает с образом, хранящимся в сети. В процессе функционирования сеть резонирует до тех пор, пока не выделит паттерн наименее отличающийся от входного, или не зарезервирует новый класс.

3. В процессе адаптации входного паттерна к образам, имеющимся в сети, происходит его контрастное усиление. Оно характеризуется тем, что только отличительные особенности входного паттерна отображаются на синаптические веса. Это напоминает процесс биологической эволюции, когда отдельные признаки усиливаются, а другие ослабляются.

4. Хранение информации осуществляется в кратковременной (short-term-memory) и долговременной (long-term memory) памяти. Кратковременная память хранит входной паттерн, который должен быть декодирован, а долговременная соответствует образам, которые хранятся в нейронной сети.

Отсюда следует, что теория адаптивного резонанса имеет биологические предпосылки. Так, долговременная и кратковременная память соответствует типам памяти, которые имеются у человека. Явление резонанса играет большую роль, как при самоорганизации индивида, так и биологической системы.

Постановка задачи при распознавании образов методом адаптивного резонанса состоит в следующем. Необходимо найти такие синаптические векторы W1,W2,...,Wm, которые разбивают входное пространство паттернов на различные кластеры. Каждый кластер имеет размер, который характеризуется угловым расстоянием (рис. 5.15) и соответствующей ему величиной = cos , называемой параметром бдительности.

Если имеет маленькое значение, то входные векторы будут отображаться на большие кластеры, в противном случае на маленькие (рис. 5.15). В соответствии с параметром бдительности нейронная сеть должна каждый раз решать, принадлежит ли входной вектор уже имеющемуся кластеру, или резервировать для него новый кластер с соответствующим весовым вектором. Это обеспечивает, с одной стороны, пластичность сети, так как каждый раз сеть может реагировать на незнакомый образ и, с другой стороны, стабильность, так как уже идентифицированные кластеры не размываются посредством новых входных векторов.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11