Regístrate | Conectar
El Tamiz Libros Recursos Series Únete 11 Users Online
Skip to content

Teoría de juegos XXVIII – Halcones y palomas (Gallina II)




En el capítulo anterior de la serie presentamos el juego del gallina y buscamos un par de estrategias que no acababan de resolver el juego.

Primero intentamos quemar las naves (o su variante: golpear primero), pero vimos que no acababa de servir si el otro jugador usaba la estrategia del loco. Pero esta estrategia del loco tampoco nos terminaba de gustar, porque la última vez que la utilizamos a escala mundial, durante la guerra fría, estuvimos pendientes de un botón durante dos décadas (y hasta recomendamos un libro que nos hizo llorar).

Jugador 1
Se Aparta Sigue
Jugador 2 Se Aparta 0,0 +1,-1
Sigue -1,+1 -100,-100

¿Y si nos ponemos en plan conservador?

Maximin e iteración

Recordemos que maximin era una estrategia conservadora en la que elegíamos el máximo de los mínimos debidos a las posibles decisiones de los oponentes. Veíamos que era una estrategia muy útil cuando el oponente era irracional, o no sabíamos en base a qué elegía… lo cual no parece muy descabellado en este caso.

Nuestra estrategia maximin en este caso es Apartarse. Si nos Apartamos, lo peor que puede ocurrirnos es un -1, mientras que si Seguimos, lo peor que nos puede ocurrir es un -100. Elegimos el máximo de esos mínimos: el -1. Apartarse.

Pero como se ha dicho muchas veces durante la historia: “La pacificación solo hace más agresivo al agresor”.  Recordad lo que consiguieron Neville Chamberlain y Édouard Daladier apaciguando a Hitler en la segunda mitad de los años treinta del siglo pasado.

Si el juego es de una única ronda, esta estrategia maximin no parece descabellada. Pero si se juega iterativamente… si el otro sabe que cedemos, siempre se mostrará agresivo. Y además, responderle será aún peor para nosotros. O dicho en términos de la teoría de juegos: Apartarse/Seguir es un equilibrio de Nash. Una vez que hemos caído en ese punto, si nosotros cambiamos a Seguir, pasaremos de ganar -1 a ganar -100, de modo que no querremos hacerlo. Y el otro jugador, si cambia a Apartarse, pasará de ganar 1 a ganar 0, así que tampoco querrá hacerlo. Estaremos condenados a seguir en ese equilibrio. Es decir, lo que decíamos de ”quien da primero da dos veces”.

Quien haya leído algo de historia sabrá que la política de apaciguamiento de Inglaterra y Francia ante las cada vez mayores ínfulas de la Alemania de Hitler les llevó a hacer concesiones cada vez más grandes (militarización de Renania, anexión de  Austria, de los Sudetes, de toda Checoslovaquia, etc). Por fin, tras los acuerdos Molotov-Ribentropp de agosto de 1939, Alemania invadió Polonia el primero de  septiembre de ese mismo año, repartiéndosela con la URSS, lo que, ahora sí, llevó a las potencias aliadas (entre las que no estaba todavía Estados Unidos) a declarar la guerra al III Reich. En pocas palabras, como decíamos antes: “La pacificación solo hace más agresivo al agresor”.

Joshua (Flickr de tnarik, cc-by-sa)

Si recordáis la película Juegos de Guerra, al final Joshua aprende que [...]. Hasta aquí puedo leer sin hacer un spoiler. Si la has visto, sabes a qué me refiero, y si no, ya estás tardando. Bien, pues en la vida real no está tan claro que esa hubiera sido la conclusión de los estrategas políticos responsables, y por eso hemos estado tantos años al borde de una guerra termonuclear global.

Veámoslo en términos más comerciales, para no entrar en los horrores de una guerra. Un proveedor y un cliente están negociando. Si uno de ellos cede y cae al equilibrio de Nash, probablemente ya no podrá salir de ahí. Por ejemplo, si el proveedor acepta rebajar el precio para conseguir el contrato, la próxima vez que estemos negociando, el cliente ya asumirá que ese es el precio, que si antes ganamos con ello, ahora también.[1] No tiene fácil solución, pero hace poco he leído una propuesta de solución muy valerosa: en vez de rebajar tu precio, regálaselo. Si un cliente, al que quieres mantener como cliente (por lealtad, por estrategia o por lo que sea) realmente no puede pagar el precio que necesitas, regálale tu servicio. De ese modo no le acostumbras a que ese precio rebajado es tu precio habitual, y al menos te debe una. En otros lugares lo que proponen es cambiar a Seguir/Seguir, es decir prescindir del cliente/proveedor que abusa de ti, sea cual sea el coste a corto plazo, porque a largo plazo será aún peor.

¿Quiere esto decir que la mejor forma de responder a un Seguir es Seguir? ¿Que la mejor respuesta a una agresión es otra agresión? No, ni mucho menos. Dependerá del caso. Pero hay que ser consciente de que Apartándose cuando el otro Sigue, caemos en el equilibrio de Nash que menos nos beneficia. Si elegimos eso conscientemente porque lo hemos evaluado y resulta que la alternativa es aún peor, nada que objetar. Pero si lo hacemos creyendo que así el otro dejará de mostrarse agresivo… al otro le conviene mantener ese equilibrio de Nash (o si no, no sería un equilibrio de Nash).

En el fondo, la solución al juego del gallina iterado probablemente es la misma que para el dilema del prisionero iterado: tit-for-tat. Es decir, el castigo que el otro me infligiría por atacarle (Seguir) es tan grande que ni me planteo hacerlo (siempre me Aparto). Pero, ¿no es eso básicamente la estrategia del loco? Vaya… volvemos a dar vueltas sobre lo mismo.

Halcones y palomas

Solo nos queda intentar atacarlo por la vía de las estrategias mixtas. Para ello vamos a modificar un poco el juego. Espero que cuando acabes de leer la descripción estés de acuerdo conmigo en que el juego del gallina que ya hemos visto y el los halcones y palomas que vamos a contar son fundamentalmente el mismo, y que solo cambian los números concretos de la matriz de pagos. Si buscas un poco por Internet verás que muchos autores usan indistintamente el nombre “gallina” (chicken) o el nombre halcón-paloma (hawk-dove) para referirse al mismo juego. Yo lo he hecho distinto, en dos partes, porque el primero me permitía referirme al ejemplo clásico de los coches de la película de James Dean, y me ayudaba al análisis iterado, pero este me permite mostrar la estrategia mixta aplicando un vocabulario que ayuda a explicarlo con analogías.

En este juego existen Halcones y Palomas. Todos ellos compiten por una serie de recursos de valor v (por ejemplo, espacio para los nidos). Los Halcones siempre Pelean, y las Palomas siempre se Retiran. Por lo tanto:

  • Si una Paloma y un Halcón se encuentran, la Paloma se Retirará, y el Halcón se quedará con el recurso.
  • Si dos Palomas se encuentran, no Pelean. Simplemente la primera que llegó se queda con el recurso y listo.
  • Si dos Halcones se encuentran, siempre Pelean entre sí. El que gane se quedará el recurso y el que pierda se irá sin nada y además pagará un coste c (por ejemplo, en forma de heridas). Nótese que c es mayor que v.

Halcón o Paloma (Flickr de wolfraven y lipkee; cc-by-nd y cc-by-sa)

Así que tenemos la siguiente matriz de pagos:

Jugador 1
Paloma (Retira) Halcón (Pelea)
Jugador 2 Paloma (Retira) v/2, v/2 v,0
Halcón (Pelea) 0,v (v-c)/2, (v-c)/2

Por si acaso no ves clara esa matriz, vamos a explicarla.

Los casos Halcón-Paloma y Paloma-Halcón son fáciles: el Halcón gana v y la Paloma se va sin nada.

El caso Paloma-Paloma es un pelín (solo un pelín) más complicado. Unas veces será una Paloma la que llegue antes y otras veces será otra. En media, la mitad de las veces. Así que por eso el pago de Paloma-Paloma es v/2 para cada uno.

Por lo mismo, el caso Halcón-Halcón es (v-c)/2: unas veces ganará uno y otras, otro. En media, ganará la mitad de las veces. Cuando gane la Pelea, obtendrá v; mientras que cuando la pierda, obtendrá -c. En media (v-c)/2. Nótese que como c es mayor que v, este valor es negativo.

Pero insistimos: este juego y el del gallina son el mismo juego. Revisa ambas matrices de pago y verás que mantienen la misma estructura, solo difieren en los valores numéricos concretos.

Quienes dominen la lengua de Shakespeare sabrán que, aunque hawk se traduce por halcón, a menudo tiene cierta connotación de elogio, como en la frase “este tipo es un halcón” (para el animal se suele usar más el sustantivo falcon); y por lo tanto este juego a menudo se usa como referencia de una actividad, por ejemplo comercial, donde los jugadores son agresivos (como halcones) o conciliadores (como palomas).

Por lo tanto, podemos entender este juego de dos formas:

  • Existen dos especies distintas, los Halcones y las Palomas, que aplican la estrategia pura que hemos visto arriba: los Halcones siempre Pelean y las Palomas siempre se Retiran.
  • Existe una única especie (por ejemplo, Humanos), que a veces Pelea como Halcón y a veces se Retira como Paloma. Es decir, una estrategia mixta.

¿Está claro que ambas analogías son matemáticamente el mismo juego? Bien, porque para hacer el razonamiento vamos a tener que ir cambiando de una analogía a la otra con soltura. Aviso de que vamos a ver unas poquitas fórmulas sencillas, pero si no te gustan, sáltatelas y ve al texto con las conclusiones. Simplemente, en ese caso tendrás que fiarte de mí.

Vemos que el juego es simétrico, así que podemos intentar algo como lo que hicimos en la guerra de sexos. Revísalo si no lo tienes fresco, porque allí hicimos la deducción despacito, mientras que aquí la haremos a toda pastilla. Como el juego es simétrico, podemos llamar p a la proporción de Palomas tanto en filas como en columnas (o dicho de otro modo, la probabilidad de elegir Paloma si ambos jugadores de la misma especie usan una estrategia mixta; como hemos dicho, es lo mismo) y con cuatro cuentas deducimos que la esperanza del pago sigue la fórmula:

 E = -\frac{c}{2} p^2 + c p + \frac{v-c}{2}

Si buscamos el máximo (derivando, igualando a 0 y resolviendo) nos sale p=1. El máximo se produce cuando p=1. Es decir, cuando todos son Palomas. Bien, ese es el resultado social que hemos ido buscando durante gran parte de la serie.

¿Asunto resuelto?

Pues no, no mucho.

Ese resultado es el máximo social. Todos los jugadores se retiran amablemente como Palomas cuando tienen un conflicto, de modo que al final, en media, todos ganan. Pero, ¿qué ocurre si de pronto aparece un invasor o un mutante agresivo de tipo Halcón?

Estrategia evolutivamente estable

Estrategia evolutivamente estable: una estrategia es evolutivamente estable cuando todos los invasores o mutantes que aparecen con otra estrategia son eventualmente exterminados según transcurren las generaciones.

Los términos mutante e invasor se suelen usar indistintamente, pues para la bondad de la estrategia es indiferente si los individuos con esa nueva estrategia vienen de fuera (invasores) o surgen por la reproducción de la población inicial (mutantes).

¿Qué ocurre si hay muchas Palomas y aparecen unos pocos Halcones? Los pocos Halcones que haya raramente se encontrarán entre sí, y sí con las Palomas… situación en que ellos ganan mucho. Por lo tanto los Halcones sobrevivirán más, se reproducirán más y crecerán en número, reduciéndose a la vez el número de Palomas.

Es decir, nuestra estrategia de todo Palomas no es evolutivamente estable.

¿Hasta cuándo? ¿Puede seguir creciendo la proporción de Halcones hasta constituirse en la única especie de la población? O dicho de otro modo: ¿existe un punto de equilibrio?

Veamos lo que ocurre si hay muchos Halcones y pocas Palomas. Los Halcones se encontrarán muy a menudo y Pelearán, obteniendo un pago negativo, por lo que sobrevivirán poco, se reproducirán menos y decrecerán en número, aumentando a la vez la proporción de Palomas.

Es decir, existe una realimentación negativa: si hay demasiadas Palomas, tienden a decrecer; y si hay demasiados Halcones, tienden a decrecer.

¿Dónde está el punto de equilibrio? Para ello debemos calcular las esperanzas, en función de la proporción de Palomas p, tanto para los Halcones como para las Palomas. Cuando la esperanza de los Halcones sea mayor que la de las Palomas, aumentará su proporción; mientras que cuando la esperanza de los Halcones sea menor, disminuirá su proporción.

La esperanza de los Halcones, para una proporción de Palomas p dada es:

 Eh(p) = v p + \frac{v-c}{2} (1-p) = \frac{v+c}{2} p + \frac{v-c}{2}

La esperanza de las Palomas, para la misma proporción de Palomas p dada es:

 Ep(p) = \frac{v}{2} p + 0(1-p) = \frac{v}{2} p

Podemos encontrar el p de equilibrio resolviendo la ecuación:

 Eh(p) = Ep(p)

Es decir, si la esperanza de los halcones es mayor, crecerán; si la de las palomas es mayor, serán ellas las que crezcan. El equilibrio es justo cuando se igualan.

 \frac{v+c}{2} p + \frac{v-c}{2} = \frac{v}{2} p

 p = \frac{c-v}{c}

Es decir, si la proporción de Palomas es de  \frac{c-v}{c} sobre el total de la población, estamos en equilibrio. Lo habitual es nombrar la proporción de equilibrio en base a los Halcones, porque nos sale una fórmula más sencilla: la proporción de equilibrio de Halcones es  \frac{v}{c} .

No parece descabellado. Si el coste c de Pelear es muy alto (por ejemplo 1.000.000, frente a un valor v de 2), el castigo por Pelear es tan alto que apenas habrá Halcones. Mientras que si el castigo es muy pequeño (por ejemplo c=3 cuando v=2), el ser agresivo compensa y puede haber muchos Halcones.

Ya tenemos la explicación de por qué poca gente juega al gallina con sus coches: el coste c es tan grande (perder la vida) que apenas nadie sigue la estrategia de Seguir hasta el final. Preferimos Apartarnos siempre. O mejor aún: ni siquiera hacemos el tonto jugando a eso.

Y a la vez, esta es la explicación de que tengamos Halcones delincuentes en las calles, países agresivos, gamberros en el colegio… en una sociedad que es fundamentalmente Paloma. Es inevitable: surgirán, y su proporción crecerá hasta alcanzar el punto de equilibrio. La forma de reducir la cantidad de Halcones es aumentando el coste c (por ejemplo, con policía y penas de cárcel… y esta es la justificación de muchos para la pena de muerte), para que se reduzca su proporción.

Para terminar, recordemos que cuando vimos el dilema del prisionero iterado, dijimos que tit-for-tat era evolutivamente estable, incluso a pesar de la estrategia de las sociedades secretas. Quizá quieras, como ejercicio, releer aquello y comentarlo a continuación…

 

  1. Afortunadamente, este es un efecto conocido en las relaciones comerciales, que además a largo plazo tiene consecuencias negativas para ambos, y que las personas inteligentes tratan de evitar: si uno abusa repetidamente del otro, lo acaba exprimiendo, llevándolo a la quiebra y quedándose sin cliente/proveedor. En el argot comercial que yo conozco se llama a eso “quemar a un proveedor” o “exprimir a un cliente” dependiendo de quién sea el que abuse. Pero bueno, no incidamos en esto, porque en realidad lo que estamos diciendo es que a largo plazo la matriz de pagos iterativa no es la que creíamos, y por lo tanto obviamente el análisis inicial no es correcto. []

Sobre el autor:

J ( )

 

{ 10 } Comentarios

  1. Gravatar Brigo | 21/07/2011 at 12:08 | Permalink

    Muy interesante. Ya había leído sobre ello en “El Gen Egoísta”, pero este enfoque es diferente.

  2. Gravatar chemist | 21/07/2011 at 02:25 | Permalink

    Muy bueno. Muchas gracias

  3. Gravatar Macluskey | 21/07/2011 at 03:02 | Permalink

    J: Digo yo que…

    Cuando las palomas se hartan de ser palomas y de que los halcones les expulsen de su espacio/roben el sustento… ¿entonces qué? ¿La Revolución Rusa…?

    ¿Qué pasará cuando tanta paloma disfrazada de vulgar ciudadano acabe por hartarse de tanto halcón disfrazado de “mercado”, “especulador”, “hedge fund”, “banco de inversión”, “agencia de rating”, etc, etc…? ¿Qué podemos esperar? Porque al paso que vamos, tarde o temprano algo de esto va a pasar.

    Desde luego, un par de artículos de los que hacen pensar. ¡Qué jugo se le puede sacar al estúpido, aunque premonitorio, jueguecito de James Dean!. Ya me hicieron pensar cuando los revisé, hace algún tiempo, pero los vuelvo a leer y me siguen perturbando.

    Gran trabajo.

    Felicidades!

  4. Gravatar J | 21/07/2011 at 07:57 | Permalink

    Bueno… para no entrar en terrenos macroeconómicos que no son fáciles de explicar: seguro que te ha ocurrido más de una vez. Eres conciliador, cedes, te retiras sin pelear… y de vez en cuando debes dar un puñetazo en la mesa aunque solo sea para decir “eh, que yo también sé gritar”. En la vida laboral, en la vida conyugal, en tu comunidad de vecinos… de vez en cuando tienes que dejar de ceder y empezar amenazar. Si lo haces demasiado a menudo, acabas en despido, divorcio… y si lo haces demasiado poco, acabas en el equilibrio de Nash que más te perjudica. Pues ahora ya sabes con qué estrategia mixta hacerlo: v/c.

    Lo difícil ahora es conocer v y c, claro…

    Vaya, tenía que haber incluido algo así al final del artículo…

  5. Gravatar Sergio B | 22/07/2011 at 11:48 | Permalink

    La verdad es que para ilustrar bien la sociedad habría que añadir una variable relativa a la tendencia que tienen las palomas a sentir pena por los halcones, quizá por el anhelo de ser halcón, en general dependiente a las veces que se ha cruzado con un halcón, reduciendo la c, ademas habría que incluir un tercer jugador, los buitres supongo, que siempre pelan a todos salvo cuando se encuentran con otro buitre, en cuyo caso reparten beneficio sin ser perjudicados nunca ;)

  6. Gravatar Anónimo | 31/07/2011 at 09:52 | Permalink

    Para ilustrar bien la realidad los halcones deberían aportar algún beneficio.

    Análisis marxista: palomas –> proletarios; halcones –> capitalistas… conclusión: todos palomitas.

    Macluskey, un poco precipitado, ¿no? ;)

  7. Gravatar patriot | 04/08/2011 at 11:31 | Permalink

    tengo una duda, alguien me puede ayudar? es algo de probabilidades.

    es más probable que se de un evento X haciendo 10 intentos que tengan el 1% de probabilidades de éxito cada uno, o un sólo intento con el 10% de probabilidades? no consigo deducirlo. a simple vista, me parece que es irrelevante, pero por otro lado, me da la sensación de que un intento del 10% es mucho mejor… y cuando ya casi me convenzo, me salta la duda de que a mayores intentos, mejores posibilidades, por que se acumulan las posibilidades entre intentos. en el primer momento voy a tener 1%, en el segundo un 2% en el tercero 3%, luego 4%, luego 5%…. hasta llegar al 10%. Pero pensar así creo que no es correcto, o no se, la verdad, ya no se ni que pensar.

    alguien me ayuda?, plis. de antemano, muchas gracias

  8. Gravatar Sergio B | 05/08/2011 at 01:05 | Permalink

    @Patriot te contesto como pueda, que no estoy muy seguro tampoco. Si te planteas voy ha hacer los mismo un millón de veces (10 millones y 1 millon), la cantidad de eventos positivos que tendrás sera semejante en ambos casos (10M1%=1M10%=0.1M) por lo que si le asignas una probabilidad debería de ser del 10% a ambos. Ahora la manera de calcularlo a mi me chirria un poco, decir que tenga un 1% en cada oportunidad y se suman, a mi no me suena bien. Lo suyo seria considerar todos los casos un positivo, dos positivos, …todos positivos y sumar las posibilidades de que se den esos casos. Por ejemplo la posibilidad de un positivo 9 negativos no es 1% exactamente, es 1%x99%^9=0.9135% y esto se da en 10 ocasiones, un 9,135%, y así en cada posible combinación. El resultado global tiene que ser 10%, así que probablemente si que valga hacerlo a piñon.

    De todas formas no hay que olvidar que los porcentajes son sobre grandes cantidades y por lo tanto cuanto mayor sea el porcentaje es mas robusto, es decir es mas posible obtener el resultado que esperas. Planteatelo de otra forma, no 10, sino 100 veces. Si lo haces un millon de veces, abras obtenido el mismo numero de casos positivos pero si lo vas ha hacer una vez, una prueba al 100% de posibilidades, seguro que sale, 100 tiradas al 1% ese 100% de posibilidades no implica que no suceda en esas 100 justas. Mas simple, ¿nunca has tirado una moneda y te han salido dos veces seguidas cruz? Si la tiras un millón de veces te saldrán aproximadamente medio millón de caras, las mismas que si tiras medio millón de veces una moneda de 2 caras. Lo que viendolo asi hace posible que me haya equivocado en algun punto antes, pero vamos, estoy bastante seguro de que un 10% si es mejor, a ver si alguien nos lo explica mejor.

  9. Gravatar Sergio B | 05/08/2011 at 01:41 | Permalink

    Bueno, ahora que lo pienso, quizá esa suma no tenga por que dar un 10%, en el caso de la moneda, puede salir XO, OX, OO o XX hay un 25% de probabilidades para cada caso, pero que al menos sea una cara una vez son tres casos, por lo que no seria 50% mas 50%, seria 75%, vamos, en el ejemplo anterior seria el caso de 10 eventos negativos el que nos fastidiaría el porcentaje…. a claro! ya lo he visto, el problema de mi razonamiento por lo que probablemente no sea la suma de las posibilidades de los casos que te sirven un 10% (aparte de que creo que no lo he hecho bien) es que no estas buscando eventos en una serie completa, sino en grupos de diez, por lo que no son valores equivalentes, en lo de la moneda se ve mejor, si lo haces muchas veces no estarias buscando el numero de veces que sale cara, sino el numero de parejas de resultados en el que uno a sido cara, lo que obviamente no sera un 100%. Vamos creo que yo ya me lo creo, a ver si te sirve la explicacion, pero creo que si es mejor una tirada del 10%.

  10. Gravatar patriot | 05/08/2011 at 06:23 | Permalink

    bueno, muchas gracias por tu ayuda. no lo mencioné antes, pero por más grande que sea el intento, no es posible que supere las posibilidades del 10%. osea, el mejor intento es al 10% y el menor al 1%. por ese motivo no puedo hacer un intento del 11% ni menos del 51%. osea, no es como la lotería, donde si invierto más en más números, mayores posibilidades de ganar tengo, pues hay un tope.

    de ahi mi consulta, por que no se si es mejor gastar mis posibilidades de a poquito o de una sola tirada.

    de todas formas, gracias de nuevo. aunque debo admitir que me perdí un poco en las explicaciones, voy a releer a ver que conclusiones saco.

    saludos!

Escribe un comentario

Tu dirección de correo no es mostrada. Los campos requeridos están marcados *

Al escribir un comentario aquí nos otorgas el permiso irrevocable de reproducir tus palabras y tu nombre/sitio web como atribución.