4/07/2013

Culturonomía para todos. Aprendiendo a usar operadores en N-grams Viewer


Una imagen que vale 500.00 millones de palabras


Alguna vez Séneca supo decir que el andar entre muchos libros disipaba el espíritu. Claro que sus discursos cobraban vida a partir de una positividad muy diferente a la de nuestra contemporaneidad, y aunque aún hoy hablando de infoxicación y otros hastíos convocamos resonancias antiguas, nuestras disipaciones emergen de un a priori histórico (Foucault, 1970) muy distinto que el que habitaba el autor de aquella máxima.

A tal punto que lo que hasta hace poco tiempo seguía siendo una verdad universal, hoy se resignifica. Con estrategias de lectura como la distante (distant reading) propuesta por Moretti y la asistencia de potentísimos algoritmos capaces de leer y devolvernos fenómenos invisibles para el ojo del lector humano (reading machines). Diríamos que más que disipar el espíritu también es capaz de cultivarlo.

Del mismo modo una imagen ya no sólo puede valer más que mil palabras, como versaba el viejo aforismo, sino que también puede ser el equivalente de 500.000 millones de palabras como es el caso de los gráficos devueltos por N-gram cada vez que le formulamos alguna pregunta. El corpus que usa la segunda versión disponible desde el 2012 alcanza los 20 millones de libros (casi un 10% de todos los libros publicados en todas épocas).
Nunca antes la humanidad fue capaz de procesar semejante elefantismo bibliográfico.

Culturonomía para todos


En diciembre de 2010, Google lanzó una herramienta en línea para el análisis de la historia de la lengua y la cultura que explora el gigantesco corpus de textos históricos escaneados y digitalizados como parte del proyecto de Google Books. Lo llamaron Ngram Viewer, y fue presentado al mismo tiempo con un paper en la revista Science (que luego sería revisitado en una breve, intensa y entretenida conferencia TED) donde los autores anunciaban un neologismo que refería al incipiente campo de investigación en el que el nuevo artefacto se inscribiría: "culturomics".

Allí lo definían como la aplicación de la recopilación de datos y el análisis de alto rendimiento para el estudio de la cultura humana, extendiendo los límites de la investigación cuantitativa rigurosa a una amplia gama de nuevos fenómenos que abarcan las ciencias sociales y las humanidades.
Siguiendo esta definición N-Gram fue pensado en sus inicios para ser puesta al servicio de lingüistas, lexicógrafos e historiadores para el análisis de la historia de la lengua y la cultura. Una herramienta de investigación para especialistas.

Lo que no se imaginaron era que su popularidad se extendiera entre los usuarios casuales como lo hizo. Según los datos ofrecidos por Google más de 45 millones de gráficos de comparación de palabras fueron creados tan solo en sus primeros 22 meses de vida.

Incorporando operadores a nuestras búsquedas


Hace un tiempo nos sorprendíamos de lo que podíamos hacer con N-gram al utilizarlo como generador de indicios históricos en el ámbito de la ciencia. En ese entonces quedamos entusiasmadísimos de lo que lográbamos con tan poco y la potencia que esta aplicación tendría abriéndola al juego de la imaginación de un colectivo de personas ocupadas en sacarle un provecho creativo.   

Lo que no sabíamos entonces era que como en toda buena interfaz para los tiempos de barbarie que corren (Baricco, 2008) la puerta de entrada es sencilla pero la invitación a desarrollar un uso más complejo está siempre abierta.

Para esto N-gram ofrece una serie de operadores, elementos que se incorporan a nuestras estrategias de búsqueda permitiendo complejizarlas y mejorarlas, que expanden notablemente sus posibilidades interrogatorias. Estos se organizan en tres categorías: tags sintácticos, corpus y matemáticos.

Tags sintácticos


Todas las palabras en el Corpus Ngram han sido etiquetadas de acuerdo al modo en que estas forman parte de una oración, tales etiquetas (tags) a su vez también pueden incluirse en la búsqueda (aún no está funcionando para el corpus en español, pero de seguro no se demorarán mucho en ponerlo a disposición).

Por ejemplo, se pueden indagar los usos de un término como Verbo (término_VERB) y al mismo tiempo como sustantivo (término_NOUN).
Veamos un ejemplo.


En este caso hemos pedido que rastree en el corpus en inglés las veces en que la palabra “orange” (la cual puede designar un atributo de color o referirse al nombre de una fruta) aparece utilizada como sustantivo  por un lado y como adjetivo por otro.

Incorporemos un operador sintáctico más a nuestro ejemplo y al caso de la búsqueda de “Orange” como sustantivo vamos a agregarle un término que nos devuelva los resultados respecto de la cantidad de veces que este nombre aparece precedido por un artículo.  De manera que tendremos tres resultados (líneas) a comparar: _ADJ_ orange (orange como adjetivo), _NOUN orange (orange como sustantivo), y _DET_ _NOUN_ orange (orange como sustantivo precedido de un artículo).


Lo interesante de este último ejemplo es la inserción de un campo variable ya que _DET_ no se refiere ningún artículo en particular sino a cualquiera de ellos que se inserten en una oración antecediendo a la palabra "orange" utilizada como sustantivo.

Otros de los operadores sintácticos, _START_ y _END_, nos permiten señalar que la búsqueda se ciña a los casos en que los términos rastreados se comporten como comienzo o cierre de oración.



Los operadores sintácticos no se agotan en estos ejemplos sino que son varios más como se muestra en la siguiente tabla.



Para obtener información y ejemplos sobre el uso de los operadores pueden visitar la sección info de N-gram.

 

Corpus


Los operadores de corpus nos permiten realizar un ejercicio muy interesante que ensancha notablemente las posibilidades de la aplicación como lo es el contrastar en un sólo gráfico la búsqueda de un mismo o de diferentes términos en corpus de distintos idiomas.



En el ejemplo de arriba vemos cómo se comportan las menciones del nombre de Michel Foucault en francés, español, alemán en ingles simultáneamente.

Operadores matemáticos


Por último encontramos los operadores matemáticos que probablemente sean los que realizan la maniobra más extraña que se nos hubiera ocurrido jamás como el aplicar operaciones aritméticas a las palabras.
En este primer caso vamos  ver cómo funciona el operador suma.


En el gráfico de arriba vemos como las citas de Sigmund Freud superan ampliamente a la de otros personajes ligados al análisis de la psiquis humana a punto tal que ni las suma de todos ellos logran siquiera igualar a las del padre del psicoanálisis.

En el caso del operador resta funciona siguiendo la misma lógica que el operador suma pero aplicando una substracción del volumen de resultados del término de la derecha al volumen de resultados del término de la izquierda.



El caso de la multiplicación (el último de los operadores que revisaremos en este post) resulta muy útil al momento de confrontar el comportamiento de curvas de resultados cuyos volúmenes son muy disímiles. En ese caso, al volumen más pequeño se le aplica un multiplicador como se muestra en el ejemplo de abajo en el que se comparan el volumen de resultados para la palabra violín y la palabra ukelele. Esta última con un multiplicador de 100.



Finalmente y con la idea de que experimentemos con esta simple pero potentísima herramienta diseñamos un tutorial interactivo que dejamos a  disposición en la imagen que sigue.

Click en la imagen para acceder al tutorial

Los invitamos a que compartan los resultados de sus experimentos en los comentarios de este post.

3/15/2013

Actividad con PageOneX: El periodismo en papel en un entorno digital. Estrategias retóricas y horizonte temporal






Este post tiene como disparador una nota en Facebook de Roberto Guareschi (no la podemos enlazar) sobre cómo los periódicos en papel argentinos utilizaron sus tapas el día después de la elección del nuevo papa.

Allí Roberto hace referencia a una serie de cuestiones que tienen que ver con los posibles aciertos y actuales errores del proceder de los medios impresos, particularmente en lo relativo a sus portadas, cuando se enfrentan a noticias de gran impacto y con mucha reverberación en la web como la del pasado miércoles. Qué estrategias discursivas (retórico - temporales) sería conveniente que los diarios, en papel claro,  pongan en juego en la actual ecología mediático informativa es el tema principal de sus comentarios.

Si la imagen del espejo retrovisor del automóvil reflejando un carruaje (al comienzo de esta publicación) asistía como metáfora a la idea de que los nuevos medios son pensados a partir del esquema instalado por sus predecesores, me pregunto cual será la imagen que haga lo propio con el "pifie" de los medios medios más antiguos que se quedan repitiendo usos a destiempo.


Cita del post de Guareschi:

Al día siguiente de la designación de Bergoglio La Nación y Clarín titularon con lo que ya se sabía: Bergoglio papa. Para mí titularon como si no existieran otros medios más eficientes para informar en tiempo real y como si sus lectores no los hubieran visto o leído. Es una actitud antigua y persistente y autodestructiva. Es una de las muchas razones que perjudican a los diarios de papel.


La tapa y sus títulos y lo que los rodea les dan el tono a todo el diario. Y esos títulos no les hacían justicia a la riqueza que tenían muchos de los artículos que venían adentro.

En todo caso las tapas de Clarín y La Nación solamente transmitían una enorme alegría. La misma que sentían muchos de sus periodistas, por simpatía, emoción religiosa, emoción política; en muchos casos todo junto. No está mal, claro. Pero periodísticamente, me parece que es un error

Creo que los diarios tendrían que titular sus tapas hacia el futuro y no hacia atrás.

Hacia el futuro es dar elementos para comprender: qué significa, que puede ocurrir, por qué. Hacia atrás es anunciar lo que ocurrió."

Se me antoja pensar lo dicho en la cita se inscriben bajo la cuestión mediamórfica (Fidler) del RELEVO. Es decir, qué cosas que antes hacían y ahora dejan de hacer (o sería conveniente que dejen de hacer) los viejos medios a partir de la transformación de la ecología mediática de la que participa.

Un caso paradigmático de relevo lo podemos encontrar en lo que le ocurrió a la pintura luego de la aparición de la fotografía la cual desligó aquella de su obligado matrimonio con la mímesis del mundo, abriendo otros horizontes.
  
La pregunta acerca de si deben seguir apuntando hacia el pasado, describiendo lo que ya ocurrió como lo hicieron tradicionalmente, o deben orientarse hacia el futuro concentrándose en la interpretación, posibles pronósticos y sus causas, se orienta en esa dirección.

También se desliza en el artículo una crítica sobre el uso de la portada del diario en base a un supuesto uso ideal. Lo que desconozco es si dicho uso canónico, ideal, forma parte de os manuales del "buen estilo" de los diarios en papel. O son conjeturas del propio Guareschi sobre como las tapas deben actualizarse. Eso quedará como pregunta…

Por último en conexión con esto y siguiendo con la intención de bajar a la práctica de nuestros alumnos de la cursada de #datos 2013 actividades relacionadas con las humanidades digitales compartimos un ejercicio posible, una propuesta de trabajo.


Propuesta de trabajo:

Utilizando la aplicación PageOneX analizar un corpus (a elección) de tapas de diarios en torno a una noticia (puede ser la misma) que ponga en juego los elementos traidos a cuento en el post citado.El objetivo será examinar el corpus en base a una categorización que contribuya a poner de manifiesto la relación entre estrategia retórica y temporalidad  (el tono utilizado también podría ser incluido en el análisis) en torno a la noticia elegida. El criterio de selección de esta última esta debería ser que haya tenido repercusión en la web en general y en las redes en particular.Post relacionado:Apps y humanidades digitales: PageOneX

2/27/2013

Apostillas sobre analítica cultural. Jugando con N-gram

Recientemente me puse a explorar N-gram Viewer de Google. Es la primer herramienta de su tipo, capaz de cuantificar con precisión y rapidez tendencias culturales basándose ​​en cantidades masivas de datos (Big Data). El buscador está diseñado para que podamos examinar la frecuencia de aparición en libros de palabras simples (como por ejemplo: música) o frases compuestas (por ejemplo: "Provincias unidas del sur") a través del  tiempo. La búsqueda explora un corpus de más de 5,2 millones de libros, sí leiste bien: el 4% de todos los libros que se han publicado!

Mientras hago algunas pruebas con la app, ensayo un ejemplo que encontré en el sitio Culturomics en el cual se propone una búsqueda a partir de cuatro figuras destacadas de la historia de la humanidad en general y de la ciencia en particular: Galileo, Darwin, Freud y Einstein.
Copio y pego dichos nombres en la potentísima y atrapante aplicación de los Labs de la gran G y doy con este gráfico.



Como notarán, el volumen de menciones de los cuatro autores en el período comprendido por la búsqueda no es tan desigual como para llamar demasiado la atención (de 1869 a 1930 es Darwin el que despunta, quien a su vez es relevado de esa posición por Freud a partir del año 1950 en adelante), salvo por una rara excepción. En los años 1632 Galileo muestra un súbito ascenso en el gráfico el cual se mantiene hasta 1638 para volver a decaer de la misma manera en la que subió.

Revisitando la historia de quien fuera uno de los agentes de mayor peso en lo que se conoce como la revolución científica, encuentro que el pico de menciones en los libros de la época (en definitiva es eso lo que contabiliza N-gram a partir del análisis de una cantidad de datos gigantesca) que marca la app coincide con el año de publicación de su obra más controversial que lo llevara finalmente a la condena de parte de las autoridades esclesiásticas de la época.

Según Wikipedia, “el 21 de febrero de 1632, Galileo, protegido por el papa Urbano VIII y el gran duque de Toscana Fernando II de Médicis, publica en Florencia su diálogo de los Massimi sistema (Diálogo sobre los principales sistemas del mundo), donde se burla implícitamente del geocentrismo de Ptolomeo. El Diálogo es a la vez una revolución y un verdadero escándalo.”  Y N-gram Viewer lo confirma.

Mientras seguimos dando reportes de nuestra exploración de aplicaciones ligadas a la analítica cultural… nos regodeamos en la sensación de que hay mucho por hacer/aprender en la intención de enlazar el big data con una hermenéutica de los datos que genere aportes significativos en el terreno de las humanidades.

PD: No pasará demasiado tiempo para que hagamos un informe detallado sobre N-gram en este blog.

Enlaces relacionados:

2/22/2013

La mano emergente. Un relato sobre fútbol, bandadas, potrero, redes y autoorganización




Rosario, 20hs. Una brisa tranquila refresca los cuerpos sudados de la agobiante tarde de verano que pasó. Los autos se atascan en una intersección de calles en la zona oeste de la ciudad cuyos semáforos han dejado de funcionar generando un pequeño caos. Sin embargo las conjeturas y maniobras locales de los conductores al volante, aún con el apuro de llegar a casa luego de una jornada de trabajo, logran destrabarlo.

A pocos metros de allí una turba de adolescentes disfrazados de futbolistas profesionales se dan cita en una cancha de dimensiones reducidas para despuntar el vicio del cuerpo a cuerpo debatiéndose la esférica. La superficie del campo atemorizaría hasta el jugador más curtido, una mínima caída costaría un raspón capaz de complicarle la vida a cualquiera. A ellos parece no importarles.

El azar me ubica caminando al costado de la cancha del otro lado del perímetro de alambre. De repente una jugada me llama la atención, el arquero acaba de ejecutar un saque de meta cuyo destino final es el hábil pie derecho del número diez del equipo, al menos la camiseta que lleva puesta con los colores del Santos dice eso, pero teniendo en cuenta lo variopinto de las demás vestimentas tal vez sea un dato del que se podría dudar. El chico toma el balón simulando con la pose de sus brazos y manos una flojera que denota despreocupación, casi como dando a entender que él lleva la pelota desde siempre, que él nació para llevar esa pelota. Avanza unos metros con displicencia hasta que dos jugadores rivales le cierran súbitamente el paso. Al tiempo que su existencia encarnada en el juego “calcula”, sin poner en marcha un solo silogismo, que no podrá evadirlos. Es entonces cuando hace lo que hacen los buenos jugadores, los distintos: da el pase.

Su compañero, el que recibe la pelota carece de la misma magia que porta el de la casaca 10, y ante el apriete rival comete el error queriendo hacer lo que no sabe, y entonces la pierde. No obstante, un segundo antes de que ocurra aquello sobre lo quiere reflexionar en este relato, como tratando de reivindicar el error pone lo mejor lo mejor de sí y vuelve a trabarse en disputa con el ahora poseedor del más preciado bien. Anticipa la maniobra del rival y estira el pie. La pelota se eleva, es todo muy confuso, el inclina su cuerpo y se la lleva.

En ese momento ocurre algo que debería estar en el centro de cualquier análisis político. Alguien grita “¡MANOOOO!”. Podría decir que el juego se detuvo instantáneamente, pero quiero ser fiel a lo que presencié. Hubo sin duda un paso de la situación de “juego” a la situación “suspensión del juego” pero este fue gradual, distribuido diría. Luego del grito el jugador siguió con la pelota pero un fenómeno cotidiano y sorprendente fue desacreditando aquella insistencia. Primero se detuvo el que dio el grito. A este hay que agregarle los que ya estaban quietos desde antes, por chupamates, haraganería, o cansancio, no vamos a entrar en esos detalles. Luego se detuvieron quien acababan de perder la pelota y su par próximo, hasta aquí todos rivales. La masa crítica de los convencidos de la falta fue en ascenso hasta que la voluntad de juego de los participantes del propio equipo fue quebrada… y también se detuvieron.

Mientras tanto el jugador que la había “recuperado” seguía sin acusar recibo y continuaba avanzando sobre el campo contrario entusiasmado por el hecho de que aún con su rusticidad la pelota pudiera viajar desde su pie hasta el fondo de la red. Llega al arco rival y no levanta la cabeza, gesto con el cual además de evidenciar sus limitaciones explica el hecho de porqué no vio que el arquero estaba con los brazos caídos y sin dar crédito a la veracidad de su avance. Y al igual que el fugitivo de La invención de Morel, quien “interactuaba” y armaba historias con entidades espectrales que nada sabían de su presencia, el emperrado futbolista sin detener la carrera, dispara.

Como se podía deducir de sus limitaciones la pelota no cruzo la línea, aunque de haberlo hecho nadie hubiese a esa altura cobrado el tanto, y termina su trayectoria impactando débilmente en el pecho del guardavalla... Un papelón!!  Los compañeros y rivales lo insultan y ridiculizan por igual aunque con argumentos diferentes, los unos por no haber logrado hacer el gol fantasma y los otros por seguir cuando el consenso implícito de la mayoría, todos menos él para ser exactos, había decretado la invalidez de la acción.
Como el vapuleado jugador yo tampoco detuve la marcha ante la escena que sin quererlo me arrancó una sonrisa. Pero a los pocos metros me asaltó una pregunta: ¿Quién cobró la falta? ¿Dónde estaba el juez? Efectivamente no había juez. La mano sancionada fue producto de una genuina emergencia, un bottom-up como se le suele decir ahora.

Mientras voy dejando atrás la escena  pienso en la “mano de Dios” que no fue cobrada y claro, me digo, como le van a cobrar una mano al más alto de los jueces. En este juego no sé si no hubo dios (me fui antes de que el 10 mostrara su proezas) pero sí sé que no hubo juez y sin embargo no se perdió el juicio. Hubo sentencia, el grito que disparó la cascada que motivó el cese del juego no vino sino del costado, de un próximo… de otro jugador. También asisten a mi memoria “picados” en los que por circunstancias similares algunos salimos con un ojo en compota. Pero todos sabemos que la realidad nunca es tan lírica como en los cuentos.  
Antes de llegar a casa se empieza a gestar este relato en mi cabeza y me atacan unas ganas irrefrenables de escribirlo (algo raro en mi que por lo general soy perezoso para estas cosas). Trato de acordarme de una cita de un libro de Resnick que un amigo sabe traer a cuento al hablar de redes, emergencias y autoorganización. “Cuando llegue a casa la busco y con eso cierro el post. La cita está buena… aunque también es un relato”, me dije. Y así será…

Una bandada de pájaros recorre el cielo. Como si fuera una compañía de ballet bien coreografiada, las aves viran al unísono hacia la izquierda. Luego, de pronto, todas se lanzan a la derecha y descienden súbitamente hacia el suelo. Cada movimiento parece estar perfectamente coordinado. La bandada como un todo es tan elegante como cualquiera de las aves que la componen, tal vez aún más elegante.
¿Cómo hacen los pájaros para que sus movimientos se mantengan tan bien organizados? La mayor parte de las personas suponen que os pájaros juegan al ‘siga al líder’: El ave que se encuentra al frente de las bandadas los conduce y los otros lo siguen. Pero no es así. De hecho la mayoría de las bandadas de aves no tienen lideres en absoluto. No existe ninguna ‘ave líder’ especial. Más bien las bandadas son un ejemplo de lo que algunas personas llaman ‘autoorganización’”. Cada pájaro en la bandada sigue un conjunto de reglas simples y reacciona a los movimientos de los pájaros de su entorno, Los patrones bien organizados de las bandadas surgen de estas interacciones locales simples, Ninguna de las aves tiene idea del patrón global de la bandada. El ave en la delantera no es líder en ningún sentido significativo; sólo se encuentra en ese lugar. La bandada se organiza sin un organizador, se coordina sin un coordinador” (Resnick, Mitchel, 2001, Tortugas, termitas y atascos de tráfico. Barcelona: Gedisa)

Blog Widget by LinkWithin
 
clasiar