Описание поиска оптимальной стратегии в условиях решения итерированного Парадокса заключенных

Александр и Ксения Роджерс

Часть 1: Нужны ли Украине альтруисты

Часть 2: Биолигия альтруизма и эгоизма

Часть 3: Протокол нейтрализации эгоистов и институт реализации этого протокола

Ричард Докинз описывает итерированный вариант Парадокса заключенных, в котором одни и те же игроки могут быть поставлены перед выбором бесконечное число раз (при этом все равно о чем именно договариваются или о совместном походе на шашлыки или о получении заказа на производство кухонной мебели :)), то есть, у них появляется возможность «договориться» о выбираемой стратегии:

«В простом варианте возможны лишь две стратегии: «Кооперируюсь» и «Отказываюсь». Итерация, однако, допускает множество стратегий, и какая из них лучше всех — отнюдь не очевидно.

{advert=1}

Число стратегий, возможных в итеративной игре, ограничено, очевидно, лишь нашей изобретательностью. Можно ли установить, какая из них лучше всех? Эту задачу поставил перед собой Аксельрод. У него возникла увлекательная идея провести конкурс, и он пригласил специалистов по теории игр представить свои стратегии. В данном случае стратегии — это заранее составленные программы действия, и соответственно соперники представили свои заявки на языке программирования.

Было предложено несколько очень хитроумных стратегий, хотя они были, конечно, далеко не столь хитроумными, как их авторы. Интересно, что победившая стратегия была проще всех других и на первый взгляд наименее хитроумной. Она называлась «Око за око» и была представлена проф. Анатолем Рапопортом (Anatol Rapoport), известным психологом и специалистом по теории игр из Торонто.

По этой стратегии первым ходом должно быть Кооперируюсь, а в дальнейшем следует просто повторять предыдущий ход другого игрока.

Как проходит игра Око за око? Как всегда, развитие событий зависит от поведения второго игрока. Допустим для начала, что второй игрок — это тоже стратегия Око за око (напомним, что каждая стратегия играла не только против каждой из 14 других стратегий, но также против копии самой себя). Обе стратегии Око за око начинают с кооперирования. При следующем ходе каждый игрок повторяет предыдущий ход противника, т.е. кооперируется. Оба продолжают играть Кооперируюсь до конца игры, которую оба заканчивают, достигнув на 100% суммы очков, принятой за точку отсчета, т.е. заработав по 600 очков.

В сущности наименее успешной из всех стратегий (если исключить Случайную) оказалась самая сложная, тщательно разработанная стратегия.

Подробно разбирать отдельные стратегии не так уж интересно. В задачи этой книги не входит обсуждение изобретательности программистов. Гораздо интереснее распределить имеющиеся стратегии по определенным категориям и изучать эффективность этих более крупных подразделений.

Самая важная из различаемых Аксельродом категорий названа «добропорядочной». Добропорядочная стратегия определяется как такая стратегия, которая никогда не отказывается первой. Примером служит Око за око. Она способна отказаться, но делает это только в порядке возмездия. Как Наивный, так и Раскаивающийся испытатели — недобропорядочные стратегии, потому что они иногда, хотя и редко, отказываются без всякого к тому повода. Из 15 стратегий, участвовавших в турнире, 8 были добропорядочными. Показательно, что эти же 8 стратегий набрали наибольшее число очков, а 7 недобропорядочных остались далеко позади.

Стратегия Око за око набрала в среднем 504,5 очка, что составляет 84% от нашей точки отсчета (600 очков) и может считаться хорошим результатом. Другие добропорядочные стратегии набрали лишь немного меньше очков — от 83,4 до 78,6%, оставив далеко позади самую успешную из всех непорядочных стратегий — Грааскамп, набравшую 66,8% очков.

Еще один из технических терминов Аксельрода — это «прощение». У прощающей стратегии короткая память, хотя она может давать сдачи. Она очень быстро забывает о прошлых обидах. Око за око — прощающая стратегия. Она немедленно дает отказчику по рукам, но тут же забывает о нанесенной ей обиде. Описанный ранее «Злопамятный» никогда не прощает. Он сохраняет в памяти все события до самого конца игры. Он никогда не забывает, если кто-то из игроков хотя бы один раз сыграл против него Отказываюсь. Стратегия, названная Злопамятный, участвовала в турнире Аксельрода и не достигла особенно хороших результатов. Среди всех добропорядочных стратегий (заметим, что она добропорядочна лишь в техническом смысле, но при этом совершенно ничего не прощает) «Злопамятный» оказалась на втором месте с конца.

Причина, по которой неспособные прощать стратегии не достигают хороших результатов, состоит в том, что они не могут разорвать серию взаимных возмездий даже в тех случаях, когда их противник «раскаивается». Можно быть более снисходительным, чем стратегия Око за око. Стратегия Око за два ока разрешает своим противникам два отказа подряд и только потом мстит. Это может показаться слишком милостивым и великодушным. Тем не менее Аксельрод установил, что если бы кто-то представил на рассмотрение стратегию Око за два ока, то она победила бы в турнире. Это обусловлено способностью данной стратегии избегать серии взаимных возмездий.

Аксельрод объявил о втором турнире. Всем программистам, участвовавшим во втором турнире, были представлены результаты первого турнира, а также проведенный Аксельродом анализ того, почему Око за око и другие добропорядочные и способные к прощению стратегии получили такие хорошие результаты. Разумеется, участники турнира тем или иным образом должны были учесть эту информацию.

На самом деле они разбились на две группы. Одни считали, что добропорядочность и способность к прощению, очевидно, давали шансы на выигрыш, и соответственно предложили добропорядочные способные к прощению стратегии. Джон Мейнард Смит зашел так далеко, что представил всепрощающую стратегию Око за два ока.

Другая группа исходила из того, что многие участники, прочитав анализ Аксельрода, предложат теперь добропорядочные способные к прощению стратегии. Они поэтому представили недобропорядочные стратегии, пытаясь использовать в своих интересах этих предполагаемых придурков!

Однако недобропорядочность опять оказалась невыгодной. Снова стратегия Око за око, представленная Анатолем Рапопортом, вышла победителем, и результат составил целых 96% от 600. И еще раз добропорядочные стратегии в общем оказались более эффективными, чем непорядочные. Все 15 более эффективных стратегий, за исключением одной, были добропорядочными, а из 15, набравших меньше очков, все, за исключением одной, были непорядочными. Но хотя праведная стратегия Око за два ока выиграла бы в первом турнире, если бы в нем участвовала, она не вышла победителем из второго. Это объясняется тем, что во втором турнире участвовали более коварные стратегии, способные безжалостно наброситься на столь откровенного придурка.

На самом деле Аксельрод провел третий раунд своего турнира так, как его мог бы вести естественный отбор, стремящийся найти некую ЭСС. Аксельрод взял эти 63 стратегии и вновь ввел их в компьютер в качестве «генерации 1» некой эволюционной последовательности. Поэтому в «генерации 1» были равномерно представлены все 63 стратегии. В конце генерации 1 каждой стратегии был выплачен выигрыш не в виде «денег» или «очков», но в виде потомков, идентичных своим (бесполым) родителям.

{advert=2}

С течением времени, по мере того, как одно поколение сменялось другим, некоторые стратегии становились редкими и в конце концов вовсе исчезали. Другие стратегии стали встречаться чаще. Вслед за изменением этих соотношений изменялась и «обстановка», в которой происходило дальнейшее развитие игры.

В конце концов по прошествии примерно 1000 поколений дальнейшие изменения обстановки прекратились. Была достигнута стабильность. До этого благосостояние различных стратегий возрастало и падало, точно так же, как при компьютерном моделировании стратегий Плутов, Простаков и Злопамятных.

Некоторые стратегии пошли на убыль с самого начала, а к 200-му поколению большая их часть вымерла. Одна или две из непорядочных стратегий стали встречаться все чаще, однако их процветание, как и у Простака в моей модели, было недолгим. Единственная непорядочная стратегия, сохранившаяся по прошествии 200 поколений, была стратегия под названием Харрингтон. Выигрыши этой стратегии резко возрастали на протяжении первых 150 поколений, а затем довольно медленно снижались, и стратегия практически вымерла к 1000-му поколению. Стратегия Харрингтон была успешной в течение некоторого времени по той же причине, что и моя оригинальная стратегия Плут. Она эксплуатировала придурков вроде стратегии Око за два ока, пока они еще существовали.

Затем, после того как эти придурки были доведены до вымирания, стратегия Харрингтон, лишившись легкой добычи, последовала за ними. Арена оказалась свободной для таких добропорядочных, но дерзких стратегий, как Око за око.

Сама стратегия Око за око действительно взяла верх в пяти из шести партий третьего раунда, точно так же, как это было в раундах 1 и 2. Пять других добропорядочных, но дерзких стратегий добились почти такого же успеха (высокая частота в популяции), как Око за око, одна из них даже победила в шестой партии. После того как все недобропорядочные стратегии было доведены до вымирания, ни одну из добропорядочных стратегий нельзя было отличить от Ока за око или друг от друга, потому что все они, будучи добропорядочными, просто играли друг против друга Кооперируюсь».

«Большую часть всего, что есть необычного в человеке, можно вместить в одно слово: «культура». Я использую это слово в его научном, а не снобистском смысле. Передача культурного наследия аналогична генетической передаче: будучи в своей основе консервативной, она между тем порождает некую форму эволюции.

В чем, в конечном счете, главная особенность генов? В том, что они являются репликаторами. Возможно существование и других таких единиц.

Но надо ли нам отправляться в далекие миры в поисках репликаторов иного типа и, следовательно, иных типов эволюции? Мне думается, что репликатор нового типа недавно возник именно на нашей планете. Он пока еще находится в детском возрасте, все еще неуклюже барахтается в своем первичном бульоне, но эволюционирует с такой скоростью, что оставляет старый добрый ген далеко позади.

Новый бульон — это бульон человеческой культуры. Нам необходимо имя для нового репликатора, существительное, которое отражало бы идею о единице передачи культурного наследия или о единице имитации. От подходящего греческого корня получается слово «мемом», но мне хочется, чтобы слово было односложным, как и «ген». Я надеюсь, что мои получившие классическое образование друзья простят мне, если я сокращу «мемом» до слова «мем».

У человека есть черта, присущая ему одному, развитие которой могло происходить через мемы или без связи с ними: это его способность к осознанному предвидению. Эгоистичные гены (а также и мемы) неспособны к предвидению. Это бессознательные слепые репликаторы. Тот факт, что они реплицируются, при некоторых других условиях означает, что они волей-неволей будут способствовать эволюции качеств, которые в особом смысле, принятом в этой книге, можно назвать эгоистичными. Нельзя ожидать, что простой репликатор, будь то ген или мем, воздержится от использования кратковременного эгоистичного преимущества, даже если в далекой перспективе ему придется расплачиваться за это. Мы убедились в этом в главе об агрессии.

Несмотря на то что «заговор Голубей» для каждого отдельного Голубя был бы предпочтительней, чем эволюционно стабильная стратегия, слепой естественный отбор неминуемо предпочтет ЭСС.

Есть еще одна черта, свойственная только человеку: это способность к неподдельному бескорыстному настоящему альтруизму. Даже если относиться к этому пессимистически и допустить, что отдельный человек в своей основе эгоистичен, наше осознанное предвидение -способность моделировать в своем воображении будущее — может спасти нас от наихудших эгоистичных эксцессов слепых инстинктов.

В нашем мозгу есть по меньшей мере один механизм, заботящийся о наших долговременных, а не просто сиюминутных эгоистичных интересах. Мы можем увидеть долговременную пользу участия в «заговоре Голубей» и мы можем усесться за один стол для обсуждения способов реализации этого заговора. Человек обладает силой, позволяющей ему воспротивиться влиянию эгоистичных генов, возможно, имеющихся у него от рождения, и эгоистичных мемов, полученных в результате воспитания.

Мы способны даже намеренно культивировать и подпитывать чистый бескорыстный альтруизм — нечто, чему нет места в природе, чего никогда не существовало на свете за всю его историю. Мы построены как машины для генов и взращены как компьютеры для мемов, но мы в силах обратиться против наших создателей. Мы — единственные существа на земле, способные осознанно выбирать алгоритмы своего поведения».

В книге Докинза гораздо больше различных моделирований и доказательств, примеров из жизни животных, нет смысла приводить их все (кому интересно, могут обратиться к первоисточнику). Мы уже можем сформулировать базовый алгоритм индивидуального и группового поведения.

Чтобы выжить, мы должны быть Добропорядочными, хорошо относиться к людям (пока они не сделают чего-то плохого), зеркалить их поведение, помнить историю отношений, не быть Простаками, Мстить за преступления и предательство, и иногда Прощать (только в благоприятных условиях, когда большинство составляют Добропорядочные).

Более того, будучи существами социальными и мыслящими, люди должны объединяться по общим признакам (Голуби из первого примера, Злопамятные из второго, Мстительные из третьего).

В природе не бывает игр с нулевой суммой (они создаются человеком искусственно), а во всех играх с ненулевой суммой можно реализовывать стратегии «вин-вин».

Конкуренция — это не решение, не алгоритм действия. Это внешнее условие (агрессивное), которое нужно не стимулировать (никто в здравом уме не будет усиливать агрессивную среду), а преодолевать с помощью кооперации.

Ошибкой большевиков было то, что они пытались загнать в коммуны всех, даже «Плутов», ещё и насильно. Настоящий социализм должен строиться на добровольных, и даже селективных принципах. Именно на этом строится мой принцип «народных корпораций», в которые войдут не все, а только «Добропорядочные», готовые совместно усиливать и развивать их. Кто не понимает преимуществ кооперации — пускай вымирает индивидуально. Кто пытается паразитировать на обществе — должен быть интернирован.

Это и есть естественный отбор, просто перешедший в свою следующую закономерную фазу.

{advert=3}




Комментирование закрыто.