Основы теории нейронных сетей


Использование обучения - часть 2


Допустим, что первоначально вес взят равным значению в точке

A
. Если случайные шаги по весу малы, то любые отклонения от точки
A
увеличивают целевую функцию и будут отвергнуты. Лучшее значение веса, принимаемое в точке
B
, никогда не будет найдено, и система будет поймана в ловушку локальным минимумом вместо глобального минимума в точке
B
. Если же случайные коррекции веса очень велики, то как точка
A
, так и точка
B

будут часто посещаться, но то же самое будет верно и для каждой другой точки. Вес будет меняться так резко, что он никогда не установится в желаемом минимуме.


Рис. 7.2. 

Полезная стратегия для избежания подобных проблем состоит в больших начальных шагах и постепенном уменьшении размера среднего случайного шага. Это позволяет сети вырываться из локальных минимумов и в то же время гарантирует окончательную стабилизацию сети.

Ловушки локальных минимумов досаждают всем алгоритмам обучения, основанным на поиске минимума (включая персептрон и сети обратного распространения), и представляют серьезную и широко распространенную трудность, которую почему-то часто игнорируют. Стохастические методы позволяют решить эту проблему. Стратегия коррекции весов, вынуждающая веса принимать значение глобального оптимума в точке

B
, вполне возможна.

В качестве объясняющей аналогии предположим, что на рис. 7.2 изображен шарик на поверхности внутри коробки. Если коробку сильно потрясти в горизонтальном направлении, то шарик будет быстро перекатываться от одного края к другому. Нигде не задерживаясь, в каждый момент времени шарик будет с равной вероятностью находиться в любой точке поверхности.

Если постепенно уменьшать силу встряхивания, то будет достигнуто условие, при котором шарик будет на короткое время "застревать" в точке

B
. При еще более слабом встряхивании шарик будет на короткое время останавливаться как в точке
A
, так и в точке
B
. При непрерывном уменьшении силы встряхивания будет достигнута критическая точка, когда сила встряхивания достаточна для перемещения шарика из точки
A
в точку
B
, но недостаточна для того, чтобы шарик мог "вскарабкаться" из
B
в
A
.




Начало  Назад  Вперед



Книжный магазин