Читать книгу: «Не рычите на собаку! Книга о дрессировке людей, животных и самого себя», страница 3

Шрифт:

Джекпот

Одним из самых полезных приемов пищевого или иного положительного подкрепления в отношении людей или животных является джекпот.

Джекпот – это значительное подкрепление, порой раз в десять больше обычного, которое является для субъекта полным сюрпризом.

Когда-то я работала в рекламном агентстве. На Рождество у нас устраивалась вечеринка, а, кроме этого, мы в неформальной обстановке отмечали завершение большого проекта или заключение контракта с новым важным клиентом. Но наш президент имел обыкновение устраивать в течение года пару неожиданных вечеринок. В разгар рабочего дня он появлялся в офисе, кричал, чтобы все бросали работу. Приемная закрывалась, и в конференц-зал чередой тянулись музыканты, бармены, официанты, несли шампанское и копченую семгу. Все это устраивалось для сотрудников без всякого повода. Это был настоящий джекпот для пятидесяти человек. И такая политика приносила плоды. Я думаю, что замечательным моральным климатом наше агентство было обязано именно своему президенту.

Джекпот можно использовать для стимулирования неожиданного прорыва. Так поступил один мой знакомый тренер. Когда молодая лошадь впервые выполнила сложный маневр, наездник соскочил с нее, снял седло и уздечку и выпустил лошадь на манеж. Джекпотом стала полная свобода, и это способствовало закреплению нового поведения.

Удивительно, но один джекпот может оказаться весьма эффективным в работе с недоверчивым, пугливым и сопротивляющимся субъектом, который вообще не демонстрирует желательного поведения. В парке «Си Лайф» мы использовали результаты исследований, проводящихся на военно-морском флоте. Мы пытались обучить дельфина новым реакциям вместо уже усвоенных. Мы работали с очень послушным дельфином по кличке Хоу, который очень редко демонстрировал новые реакции. Не получая подкрепления за проделанный трюк, он переставал работать. Во время одного из сеансов он двадцать минут ничего не делал. В конце концов тренер выдал ему две рыбки просто так. Впечатленный такой щедростью дельфин начал работать очень активно. Очень скоро он сделал движение, которое нужно было подкрепить. На следующих сеансах мы достигли огромного прогресса.

То же самое произошло и во время моей работы с дельфинами. Когда мне было пятнадцать, то наибольшее удовольствие мне доставляли уроки верховой езды. В конюшне, где я занималась, продавали абонементы на десять занятий. На свои карманные деньги я могла себе позволить только один абонемент в месяц. Тогда я жила со своим отцом, Филиппом Уайли, и мачехой, Рикки. Хотя они были очень добры ко мне, в переходном возрасте я была не самой послушной дочерью. Однажды вечером мои любящие и терпеливые родители сказали, что ужасно устали от моего поведения и поэтому решили вознаградить меня.

Они подарили мне новый абонемент в школу верховой езды. Они не пожалели сил и времени, чтобы съездить и купить его. Надо же! Незаслуженный джекпот! Насколько я помню, я исправилась тут же. И Рикки Уайли подтвердила, что это действительно было так (я беседовала с ней, когда писала эту книгу).

Почему незаслуженный джекпот оказывает такое резкое и длительное воздействие, я толком не понимаю. Может быть, кто-нибудь когда-нибудь защитит докторскую диссертацию на эту тему и объяснит нам этот феномен. Я помню, что абонемент в школу верховой езды избавил меня от чувств тоски и обиды. Мне кажется, что дельфины чувствовали то же самое.

Условное подкрепление

В работе, и особенно в работе с пищевыми подкреплениями, часто случается так, что дать подкрепление в момент желательного поведения просто невозможно. Уча дельфина прыгать, я не имею возможности дать ему рыбу, когда он находится в воздухе. Если после каждого прыжка, то есть после неизбежной задержки, кидать ему рыбу, он сумеет связать прыжки и получение пищи и станет прыгать чаще. Но животное не может понять, какой именно аспект прыжка мне понравился. Высота? Траектория? Может быть, погружение с брызгами? Потребуется немало повторений, прежде чем животное поймет, какой именно прыжок мне нужен. Чтобы решить эту проблему, мы стали использовать условные подкрепления.

Условное подкрепление – это первоначально бессмысленный сигнал (звук, вспышка, движение), который подается перед или во время подкрепления.

В работе с дельфинами мы использовали в качестве условного подкрепления полицейский свисток. Его легко услышать даже под водой, и при его использовании руки остаются свободными для подачи других сигналов и бросания рыбы. С другими животными я часто пользовалась «сверчком», маленькой игрушкой, которая при нажатии издает звук «клик-клик». Иногда я использовала конкретную похвалу, приберегаемую только для условного подкрепления. «Хорошая собака». «Хороший пони». Школьные учителя тоже часто пользуются некими ритуализованными и тщательно подобранными похвалами («Хорошо», «Очень хорошо»), и дети ожидают подобных слов.

Условные подкрепления окружают нас постоянно. Мы с радостью слышим телефонный звонок и видим новые письма в почтовом ящике, хотя очень часто звонки не доставляют нам удовольствия, а большая часть писем оказывается обычным спамом. Но в нашей жизни было немало случаев, которые помогли нам связать звонки и конверты с чем-то приятным. Нам нравится рождественская музыка, нас пугает запах в приемной дантиста. Мы украшаем свой дом картинами, тарелками и сувенирами не только потому, что они красивы или полезны, но и потому, что они напоминают нам о счастливых временах или дорогих людях. Все это – условные подкрепления.

Практическая дрессировка с использованием положительного подкрепления почти всегда должна начинаться с определения условного подкрепления. Перед началом выработки конкретного поведения, хотя животное еще не сделало ничего особенного, вы должны научить его понимать значимость условного подкрепления, сочетая его с пищей, лаской или иным реальным подкреплением. Вы сразу поймете (по крайней мере, при работе с животными), когда субъект начинает распознавать ваш одобрительный сигнал. Животное воспринимает условное подкрепление и начинает искать подкрепление реальное. После усвоения условного подкрепления у вас есть реальный способ дать понять животному, что именно вам нравится в его поведении. Так что вовсе не обязательно быть доктором Дулиттлом, чтобы уметь разговаривать с животными. Усвоенным подкреплением вы можете «сказать» очень многое.

Условные подкрепления могут быть очень значимыми. Я видела, как морские млекопитающие даже после насыщения долго работали ради условного подкрепления. Лошади и собаки работали более часа при наличии очень малого количества первичных (то есть реальных) подкреплений. Люди, конечно, могут бесконечно работать ради денег, которые по сути своей являются обычными условными подкреплениями – жетонами, на которые можно купить товары. Много работают даже те, кто уже заработал денег больше, чем сможет потратить. Такие люди впадают в настоящую зависимость от условного подкрепления.

Можно сделать условное подкрепление еще более сильным, сочетая его с несколькими реальными подкреплениями. Предположим, что в данный момент ваш объект не хочет еды. Но если тот же самый подкрепляющий звук или слово сознательно связывается с едой или другими удовольствиями, он сохраняет свою полезность. Мои кошки слышат фразу: «Хорошая девочка!», когда я насыпаю им еду, глажу их, впускаю или выпускаю из дома, когда они выполняют маленькие трюки и получают за них вознаграждение. Следовательно, я могу использовать ту же фразу в качестве подкрепления, сгоняя кошку с кухонного стола. И при этом мне не потребуются подкрепления реальные.

Деньги потому являются для нас таким сильным подкреплением, что их можно совместить с чем угодно. Это исключительно обобщенное условное подкрепление.

Еще одно очень важное правило.

Сформировав условное подкрепление, нужно быть очень осторожным, чтобы не использовать его всуе, то есть не рассеивать его силу.

Дети, которые катаются на моих уэльских пони, очень быстро учатся произносить фразу «Хороший пони!» только тогда, когда нужно подкрепить поведение. Если они хотят выразить любовь и нежность, то пользуются любыми другими словами. Однажды дети заметили, что ребенок, только что присоединившийся к группе, гладит лошадку по морде и говорит: «Ты – мой хороший пони!» Они очень удивились: «Зачем ты ему это говоришь? Он же ничего не сделал!» Точно так же можно и нужно общаться с детьми (супругами, родителями, любимыми и друзьями).

Выражайте свою любовь и внимание вне связи с конкретным поведением любыми словами. Но выделите определенную фразу, сделав ее условным подкреплением, и свяжите ее с чем-то реальным.

В счастливой семье происходит множество событий, заслуживающих похвалы. Поэтому здесь происходит постоянный обмен подкреплениями. Однако ложная или бессмысленная похвала может быстро превратиться в ничего не значащий набор слов и утратить свою силу. Такую неискренность чувствуют даже маленькие дети.

Клик!

Тренеры, работающие с морскими млекопитающими, пользуются условным подкреплением (обычно свистком) в обучении китов, дельфинов, тюленей и белых медведей. Эту концепцию впервые применил в дельфинариях в 1960-е годы Келлер Бреланд, ученик Б. Ф. Скиннера. Бреланд назвал свисток «мостовым стимулом», потому что этот сигнал не только информировал дельфина о том, что он только что заслужил рыбу, но еще и заполнял промежуток времени между важным событием, то есть желательным поведением, и возвращением в бассейн. Усвоив этот сигнал, дельфины сразу же подплывали к бортику за заслуженной наградой.

Бихевиористская литература подтверждает важность этих аспектов условного подкрепления. Но со временем были открыты новые преимущества этого метода. В 1990-е годы многие дрессировщики стали использовать условное подкрепление. Те же приемы стали использовать хозяева собак (см. главу 6). Поскольку владельцы собак применяют металлический кликер в пластиковом корпусе, обучение собак стали называть «кликер-тренингом».

Звук, используемый в кликер-тренинге, является не только условным подкреплением и мостовым стимулом между зарабатыванием и получением пищи. Этот сигнал выполняет и другие функции. Во-первых, он устанавливает то, что Огден Линдсли назвал «событийным маркером». Благодаря ему животное точно понимает, какое именно поведение является желательным. Но у сигнала есть и другие значения. Он передает контроль в руки, лапы, ласты или в то, что есть у объекта обучения. Через определенное время объект не просто повторяет желательное поведение, но еще и демонстрирует намерение: «Эй! Я заставил тебя кликнуть! Посмотри на меня, я собираюсь сделать это снова!» Кликер-тренеры называют этот момент «загоранием лампочки». Он чрезвычайно важен и для тренера, и для ученика.

Эллен Риз указала мне на то, что условное подкрепление в кликер-тренинге является также завершающим сигналом. Он означает «работа сделана». Как говорит Гэри Уилкс: «Клик завершает поведение». Такой сигнал является подкреплением сам по себе. Но это порой шокирует традиционных тренеров. Сигнал не кажется им естественным. Им странно, что для того, чтобы научить собаку держать палку, нужно кликнуть, когда она ее только возьмет, а потом ей можно позволить бросить палку и насладиться заслуженной наградой.

Еще одно преимущество маркерных сигналов заключается в том, что их можно использовать для передачи конкретной информации. Полицейский Стив Уайт рассказал мне, что как-то раз послал свою немецкую овчарку искать брошенный предмет, который упал на верхушку шестифутового куста. Собака долгое время бесплодно обнюхивала землю. Когда же она подняла голову, Стив кликнул. Собака втянула в себя воздух, насторожилась и стала искать в том месте, куда и упал предмет. Она даже поднималась на задние лапы, чтобы лучше чувствовать воздух. Без всякой помощи со стороны Стива собака нашла нужный предмет, упавший на густой кустарник, и достала его.

Сигнал продолжения

Интересно то, что при общении с собакой Стив использовал подкрепление, которое не являлось сигналом завершения. Это был сигнал продолжения. Сигнал подкрепил «высокое» обнюхивание, и желательное поведение продолжалось до тех пор, пока потерянный предмет не был найден. В первом издании этой книги я писала о том, что условное подкрепление можно использовать несколько раз, не сочетая его с подкреплением реальным. Я писала так, потому что в парке «Си Лайф» мы не раз поступали так с дельфинами, формируя длительное поведение или поведенческие цепочки. В то время я не понимала, что на самом деле мы использовали два (по меньшей мере) условных подкрепления или маркерных сигнала: свисток означал все вышесказанное («Правильно, хорошо, пища тебя ждет, иди получи свое лакомство, работа сделана»), а второй, приглушенный, свисток означал совсем другое («Это хорошо, но работа еще не закончена»).

Многие начинающие кликер-тренеры, с которыми я работала в 90-е годы, были теми, кого писатель Морган Спектор называет «перекрестными» тренерами (то есть людьми, опытными в тренинге, основанном на коррекции, но пытающимися перейти к системе положительного подкрепления). Я обнаружила, что они слишком часто используют кликеры бесцельно, из-за чего ценность сигнала недопустимо снижается. Необходимо усвоить главное правило – «один клик – одно угощение». Только так можно эффективно сформировать желательное поведение.

Однако в реальной жизни возникает множество ситуаций, в которых очень полезен может быть промежуточный подкрепляющий стимул. Так произошло с собакой Стива Уайта. В такой ситуации можно использовать иной подкрепляющий стимул, который говорит ученику: «Все хорошо, продолжай в том же духе». Интересно, что сигнал продолжения не должен быть непосредственно связан с первичным подкреплением. Просто начните вставлять его перед завершающим кликом, и ученик быстро поймет, что он ведет к реальному подкреплению.

Затем вы можете включить воображение и использовать его в качестве информативного маркерного сигнала внутри цепочки, не разрывая ее. Например, на соревнованиях по аджилити собак друг за другом пускают на полосу препятствий на время. Владелец должен дать понять собаке, какое препятствие нужно преодолеть следующим. Причем делается это в крайней спешке. Я видела, как собака преодолевала одно препятствие, а потом замирала в недоумении, потому что не понимала, что делать дальше. Бросаться в туннель или прыгать? Собака недоуменно крутила головой. Хозяин крикнул: «Да», и собака взяла барьер. Она правильно поняла хозяина и быстро прошла всю дистанцию.

Как и в случае с сигналом завершения, неважно, какой стимул вы используете для продолжения действий. Это может быть кликер, свисток, окрик или движение руки. Важно, чтобы стимул не являлся сигналом бессмысленного подбадривания, который лишь отвлекает животное или случайно подкрепляет нежелательное поведение. Нужно сформировать прочное и точно используемое условное подкрепление.

Условное отрицательное подкрепление

Правильно поданное условное положительное подкрепление говорит ученику: «То, что ты сейчас делаешь, хорошо и правильно. Это действие принесет тебе пользу, так что продолжай в том же духе». Но можно также установить отрицательный условный сигнал. Такое действие говорит ученику: «То, что ты сейчас делаешь, нехорошо. Если ты не прекратишь, с тобой случится что-то плохое».

Условные отрицательные подкрепления более эффективны, чем угрозы. Некоторые субъекты – и в частности, кошки – не реагируют на крики и выговоры. Но моей подруге удалось совершенно случайно отучить кота от дурной привычки драть диван, сделав условным раздражителем слово «Нет!». Как-то раз, готовя обед, моя подруга уронила большой медный поднос, который упал прямо рядом с котом. Когда поднос падал, подруга воскликнула: «Нет!» – а после этого слова поднос приземлился на пол со страшным звоном. Кот ужасно перепугался, подскочил, шерсть на нем встала дыбом. Когда в следующий раз подруга заметила, что кот дерет диван, она громко крикнула: «Нет!» Испуганный кот тут же умчался прочь. Достаточно было двух повторений, чтобы раз и навсегда положить конец вредной привычке.

Выговоры являются неотъемлемой частью нашего существования. Использование в качестве основного средства обучения положительного подкрепления вовсе не означает, что вы не можете при необходимости использовать и отрицательные подкрепления. Это жизненно необходимо, например, когда ребенок пытается засунуть шпильку в электрическую розетку. Однако часто мы совершаем две ошибки: во-первых, не учитываем побочный эффект, который оказывает отрицательное подкрепление на ученика (см. главу 4, «Наказание»). И, во-вторых, используем выговоры и наказания, не устанавливая предупреждающего сигнала, то есть условного отрицательного подкрепления.

Например, любой, кто считает необходимым использовать электрошокер при воспитании собаки, должен всегда говорить «нет», когда собака что-то делает неправильно. После этого нужно сделать паузу, прежде чем нажать на кнопку шокера, чтобы собака имела возможность избежать отрицательного подкрепления, изменив свое поведение. Простое нажатие на кнопку без предупредительного сигнала превратит ваше действие в наказание, воздействие которого на будущее поведение и на готовность собаки подчиняться вашим приказам абсолютно непредсказуемо. Третья распространенная ошибка – продолжать нажимать на кнопку даже тогда, когда собака уже перестала делать то, что вам не нравилось. Таким образом вы наказываете ее за оба вида поведения – неправильное и правильное.

Неумение использовать условное отрицательное подкрепление повышает количество реальных отрицательных подкреплений, которые используются в коррекционной тренировке. Это значительно замедляет процесс обучения. Традиционные дрессировщики собак и лошадей иногда тратят на выработку желаемого поведения гораздо больше времени, чем те, кто использует положительное подкрепление. Порой время дрессировки увеличивается на несколько месяцев, а то и лет. Это происходит не только потому, что они полагаются исключительно на наказание (этот прием останавливает поведение, а не дает начало новому), но еще и потому, что они используют реальные отрицательные подкрепления, не сформировав условного отрицательного подкрепления. В результате требуются сотни повторений, прежде чем животное поймет, чего же от него хотят.

Среди дрессировщиков собак в последнее время приобрел популярность особый вид условного отрицательного подкрепления. Речь идет о маркере отсутствия вознаграждения. Обычно таким маркером служит слово «Неправильно», произнесенное нейтральным тоном. Идея заключается в том, что, когда собака пытается вести себя неправильно, чтобы понять, чего же вы хотите, вы помогаете ей, сообщая, что именно она делает не так. Вы формируете сигнал, который говорит животному: «Эти действия не будут вознаграждены».

Б. Ф. Скиннер определял отрицательное подкрепление, как лишение чего-то желанного. В этом смысле сигнал «неправильно» является условным отрицательным подкреплением, поскольку он означает недоступность вознаграждения.

Занимаясь дрессировкой собак, я сталкивалась с ситуациями, в которых сигнал «неправильно» был очень полезен. Если ваша собака демонстрирует широкий набор полностью сформированных видов поведения, то есть является сложным объектом для дрессировки, вы можете использовать сигнал «неправильно» в качестве намека на изменение поведения. В данной ситуации он означает: «Этот путь никуда не приведет. Попробуй что-нибудь другое».

Этот прием работает только в том случае, если вы уже использовали положительные подкрепления различных видов поведения, а ваша собака активно ищет новые пути, чтобы заставить вас кликнуть или дать ей реальное подкрепление. Люди испытывают трудности с условным отрицательным подкреплением, когда используют его с неопытной собакой, которая не понимает, чего от нее хотят.

Прикажите собаке сесть, а если она этого не сделает, скажите: «Неправильно». Если собака уже понимает, что этот сигнал означает отсутствие вознаграждения, она поймет, что вы наказываете ее за то, что она не села. Но это еще не означает, что она действительно сядет. На самом деле результат будет таким же, как и при любом другом наказании – то есть абсолютно непредсказуемым. Собака может вообще перестать реагировать на слова и убежать или бросить все и начать искать собственные подкрепления, то есть вести себя неподобающе – лаять, тянуть поводок, обнюхивать землю, скрести, обращать внимание на все, что угодно. Поэтому условное и реальное отрицательное подкрепление лучше использовать тогда, когда вам необходимо прекратить нежелательное поведение, а для выработки новых навыков пользуйтесь положительным подкреплением.