Category: образование

Category was added automatically. Read all entries about "образование".

БК

Поведенческий алгоритм или эксперимент с мышью

Простой эксперимент с мышью в Т-образном лабиринте. Сначала хотел изложить весь параграф полностью, но подумал что не искушённый читатель утомится, поэтому привожу только краткие цитаты из монографии. Для справки: "Адаптация сложных систем", Растригин, Рига, 1981 г. Параграф  три точка семь.

"Рассмотрим модель поведения мыши в Т-образном лабиринте (см. рисунок). Подобные эксперименты неоднократно проводились в различных лабораториях. Мышь здесь должна выбрать одно из двух напрвлений. Пусть pi - вероятность её поворота влево в i-м эксперименте. Легко представить результаты такого рода экспериментов."




"В первом эксперименте (рисунок 3.7.1, а) зверёк научится устойчиво поворачивать влево в результате поощрения получаемого при нужной реакции (кусочек сала). Динамика такого обучения выражается следующей рекурентной формулой:
Pi+1=(1-a)*Pi+a
где 0<a<1 - параметр обучения при поощрении...
Совершенно иначе построен второй эксперимент (рисунок 3.7.1, б), в котором для обучения используется наказание. Мышь и здесь научится поворачивать влево, причём процесс обучения  можно предствавить аналогичной формулой  Pi+1=(1-b)*Pi+b, где b так же параметр обучения, но не совпадающий с а.
Третий вариант - "обучение по "принципу кнута и пряника", где коэффициент обучения  будет гамма"
В соответствии с этими экспериментами в параграфе описываются три схемы для алгоритмов случайного поиска, это было бы интересно специалистам в области кибернетики, меня же привлёк выввод данного параграфа, точнее с какой очевидностью разрушаются "философские" споры о методах воспитания.

"Варьируя величинами а и b можно придать различный характер поведению алгоритма случайного поиска, моделируя при этом различные способы обучения (точнее - дрессировки).
Любопытно что при а > b то есть при более интенсивном поощрении, поиск напоминает поведение любознательного зверька: он ищет в более широкой области чем при b>a когда поиск приобретает локальный характер. Сильное наказание сужает область поиска зоной ближайшего локального экстремума."