E-Book, Spanisch, 280 Seiten
Reihe: ESPECIALES
O'Neil Armas de destrucción matemática
1. Auflage 2018
ISBN: 978-84-121913-0-1
Verlag: Capitán Swing Libros
Format: EPUB
Kopierschutz: 6 - ePub Watermark
Cómo el Big Data aumenta la desigualdad y amenaza la democracia
E-Book, Spanisch, 280 Seiten
Reihe: ESPECIALES
ISBN: 978-84-121913-0-1
Verlag: Capitán Swing Libros
Format: EPUB
Kopierschutz: 6 - ePub Watermark
Cathy O'Neil. Obtuvo un Ph.D. en Matemáticas de Harvard, fue postdoctorada en el departamento de Matemáticas del MIT y profesora en el Barnard College, donde publicó una serie de trabajos de investigación en geometría algebraica aritmética. Luego se cambió al sector privado, trabajando como experta en análisis y gestión de información cuantitativa para el fondo de cobertura D. E. Shaw en medio de la crisis crediticia, y luego para RiskMetrics, una compañía de software de riesgo que evalúa el riesgo para las tenencias de fondos de cobertura y bancos. Tras desencantarse del mundo de las finanzas, O'Neil se involucró con el movimiento Occupy Wall Street, participando en su Grupo de Banca Alternativa. Dejó las finanzas definitivamente en 2011 y comenzó a trabajar como científica de datos en el sector de start-ups de Nueva York, creando modelos que predecían las compras y los clics de las personas. Es una invitada semanal en el podcast Slate Money. Es coautora (con Rachel Schutt) de Doing Data Science: Straight Talk from the Frontline. También escribió el libro electrónico Being a Data Skeptic. Su libro Armas de destrucción matemática fue publicado en Estados Unidos en 2016 y fue nominado para el National Book Award 2016 en la categoría de no ficción. Cathy mantiene el blog mathbabe.org, donde opina sobre todo lo cuantitativo. En él espera encontrar una respuesta mejor a la pregunta: '¿Qué puede hacer un matemático no académico para que el mundo sea un lugar mejor?'.
Weitere Infos & Material
01
Partes de una bomba
¿Qué es un modelo?
Era una calurosa tarde de agosto de 1946. Lou Boudreau, el jugador y director técnico del equipo de los Cleveland Indians, llevaba un día terrible. En el primer partido de un doble juego, Ted Williams, que jugaba con el adversario, casi había logrado aniquilar a todo su equipo él solito. Ted, quien tal vez fuera el mejor bateador de la historia hasta el momento, había anotado tres jonrones y llevado a ocho jugadores al home. Los Indians acabaron perdiendo 11 a 10.
Lou Boudreau tenía que hacer algo. De modo que, cuando Ted Williams apareció por primera vez durante el segundo partido, los jugadores de los Indians cambiaron de posición. Lou, el campocorto, corrió hasta donde solía colocarse el jugador de segunda base y este se retiró al campo exterior derecho. El jugador de tercera base se fue hacia la izquierda, al agujero del campocorto. Resultaba obvio que Lou Boudreau, quizá por pura desesperación,[18] estaba cambiando toda la orientación de su defensa para intentar poner a Ted William out cada vez que bateara.
En otras palabras, Lou Boudreau estaba pensando como un científico de datos. Había analizado los datos primarios, en general mediante observación: Ted Williams normalmente bateaba la pelota al campo derecho. Así que Lou se adaptó a eso. Y funcionó. Los jardineros consiguieron interceptar más veloces líneas de Williams que antes (aunque no pudieron hacer nada contra los jonrones que volaban sobre sus cabezas).
En cualquier partido de béisbol de una liga importante en la actualidad, los defensores tratan a casi todos los jugadores como Lou Boudreau trató a Ted Williams. Mientras que Lou simplemente observó dónde solía batear la pelota Ted Williams, los directores técnicos de hoy en día saben exactamente dónde ha bateado la pelota cada jugador durante la última semana, en el último mes, a lo largo de su carrera, contra lanzadores zurdos, cuando lleva dos strikes, etc. Utilizan estos datos históricos para analizar cada situación y calcular el posicionamiento de los jugadores que está asociado a la mayor probabilidad de éxito, lo que en ocasiones implica colocar a los jugadores en posiciones alejadas.
Cambiar a los defensores de posición es solo una parte de una pregunta mucho más amplia: ¿qué medidas pueden tomar los equipos de béisbol para maximizar la probabilidad de ganar? En su búsqueda de respuestas, los estadísticos del béisbol han desmenuzado cada una de las variables que han podido cuantificar y le han adjudicado un valor. ¿Qué diferencia de valor hay entre un doble y un sencillo? ¿Cuándo merece la pena dar un toque de bola para que un jugador pase de primera a segunda base? ¿Tiene algún sentido hacerlo?
Las respuestas a todas estas preguntas se mezclan y combinan en los modelos matemáticos de este deporte. Estos modelos constituyen universos paralelos del mundo del béisbol, y cada uno de ellos es un complejo tapiz de probabilidades. Incluyen todas las relaciones medibles entre los distintos componentes del béisbol, desde las bases por bolas hasta los jonrones, pasando por los propios jugadores. La finalidad del modelo es ejecutar diferentes escenarios en cada coyuntura para dar con las combinaciones óptimas. Si los Yankees ponen a un lanzador diestro para enfrentarse a Mike Trout, el bateador de los Angels que batea con más fuerza, en lugar de dejar al lanzador que tenían, ¿tendrán más probabilidades de eliminarlo? ¿Y cómo afectará eso a sus probabilidades de ganar el partido?
El béisbol es el entorno ideal para probar los modelos matemáticos predictivos. Tal y como explicó Michael Lewis en su best seller de 2003, Moneyball,[19] este deporte ha atraído a empollones obsesionados con los datos a lo largo de toda su historia. Hace décadas, los aficionados leían con atención las estadísticas que aparecían en el reverso de las cartas de béisbol para analizar los patrones de jonrón de Carl Yastrzemski o comparar los strikes totales de Roger Clemens y Dwight Gooden. Sin embargo, desde la década de 1980, algunos estadísticos profesionales empezaron a investigar lo que significaban realmente todas estas cifras, junto con una avalancha de nuevos datos: cómo estas cifras se traducían en victorias y cómo los directivos podían maximizar el éxito con una pequeña inversión.
«Moneyball» es ahora sinónimo de cualquier enfoque estadístico aplicado a terrenos que han estado tradicionalmente dominados por el instinto. El béisbol es un caso práctico sin efectos perniciosos, y nos servirá de ejemplo positivo con el que comparar los modelos tóxicos o ADM que están aflorando en tantísimas áreas de nuestra vida. Los modelos del béisbol son justos, en parte, porque son transparentes. Todo el mundo tiene acceso a las estadísticas y todos entienden más o menos bien cómo interpretarlas. Es cierto que el modelo de un equipo puede conceder más valor a los bateadores que batean jonrones, mientras que tal vez otro reduzca un poco su valor, porque los bateadores suelen hacer muchos strikeouts. En cualquier caso, el número de jonrones y strikeouts está ahí y todo el mundo tiene acceso a esas cifras.
El béisbol tiene también rigor estadístico. Sus gurús cuentan con un inmenso conjunto de datos, la inmensa mayoría de los cuales están directamente relacionados con la actuación de los jugadores en los partidos. Además, sus datos son muy relevantes para los resultados que intentan predecir. Esto puede parecer obvio, pero, como veremos en este libro, es muy habitual que los que construyen ADM a menudo no dispongan de datos relativos a los comportamientos que más les interesan, por lo que los reemplazan por datos sustitutivos o proxies. Establecen correlaciones estadísticas entre el código postal de una persona o sus patrones de uso del lenguaje y su potencial para devolver un préstamo o realizar un trabajo. Estas correlaciones son discriminatorias y algunas de ellas incluso ilegales. Los modelos del béisbol, en su mayoría, no emplean datos sustitutivos porque utilizan datos relevantes como bolas, strikes y hits.
Y, lo más importante, estos datos se acumulan de manera constante, gracias a las nuevas estadísticas que generan una media de doce o trece partidos diarios durante la temporada, que va de abril a octubre. Los estadísticos pueden comparar los resultados de estos partidos con las predicciones de sus modelos e identificar en qué se han equivocado. Quizá predijeron que un relevista zurdo perdería muchos hits frente a bateadores diestros, y, sin embargo, arrasa. En ese caso, el equipo de estadística tiene que retocar el modelo e investigar por qué se equivocaron. ¿Afectó la nueva bola de tornillo del lanzador a sus estadísticas? ¿Lanza mejor por la noche? Cuando descubren algo nuevo, lo introducen en el modelo para perfeccionarlo. Así es como funcionan los modelos fiables. Mantienen un constante ir y venir con los elementos del mundo real que intentan comprender o predecir. Y cuando las condiciones cambian, el modelo debe cambiar también.
En este punto podríamos preguntarnos cómo se nos habrá podido ocurrir comparar el modelo del béisbol, que incluye miles de variables cambiantes, con el modelo utilizado para evaluar a los docentes de los centros educativos de Washington D. C. En el primer caso se modelan todos y cada uno de los elementos del deporte hasta el más mínimo detalle y se incorpora información actualizada de forma continua. Mientras que el otro modelo, rodeado de misterio, parece basarse en gran medida en la comparación de los resultados de un puñado de pruebas de un curso al siguiente. ¿Podemos considerarlo realmente un modelo?
Y la respuesta es sí. Un modelo, al fin y al cabo, no es más que una representación abstracta de ciertos procesos, ya se trate de un partido de béisbol, de la cadena de suministro de una petrolera, de las acciones de un Gobierno extranjero o de la asistencia del público a un cine. Independientemente de que se ejecute en un programa de ordenador o en nuestra cabeza, el modelo coge lo que sabemos y lo utiliza para predecir respuestas en distintas situaciones. Todos nosotros tenemos miles de modelos en la cabeza. Nos dicen qué esperar y nos guían al tomar decisiones.
Veamos un ejemplo de un modelo informal que yo empleo a diario. Tengo tres hijos, y soy yo la que cocina en casa —mi marido, bendito sea, ni siquiera se acuerda de echar sal al agua cuando cuece pasta—. Cada noche, cuando me pongo a cocinar para toda la familia, de manera interna e intuitiva, modelo el apetito que tendrá cada uno de los miembros de mi familia. Sé que uno de mis hijos se comerá solo la pasta (con queso parmesano rallado) y que a otro le encanta el pollo (pero odia las hamburguesas). Pero también tengo que tener en cuenta que el apetito de una persona varía de un día a otro, por lo que si se produce un cambio, la nueva situación podría pillar a mi modelo por sorpresa. Siempre hay una inevitable cantidad de incertidumbre.
Los datos de entrada de mi...




