10/29/2014

Aburridos, mutantes y las didácticas autológicas

Les comparto este texto que data del año 2011 el cual que creo aún tiene vigencia. Allí se documentan una serie de actividades didácticas realizadas en torno a al texto de Alessandro Baricco "Los bárbaros. Ensayos sobre la mutación" al tiempo que se las conceptualiza bajo la rúbrica de didácticas autológicas.

Espero les sea de utilidad...
 

4/07/2013

Culturonomía para todos. Aprendiendo a usar operadores en N-grams Viewer


Una imagen que vale 500.00 millones de palabras


Alguna vez Séneca supo decir que el andar entre muchos libros disipaba el espíritu. Claro que sus discursos cobraban vida a partir de una positividad muy diferente a la de nuestra contemporaneidad, y aunque aún hoy hablando de infoxicación y otros hastíos convocamos resonancias antiguas, nuestras disipaciones emergen de un a priori histórico (Foucault, 1970) muy distinto que el que habitaba el autor de aquella máxima.

A tal punto que lo que hasta hace poco tiempo seguía siendo una verdad universal, hoy se resignifica. Con estrategias de lectura como la distante (distant reading) propuesta por Moretti y la asistencia de potentísimos algoritmos capaces de leer y devolvernos fenómenos invisibles para el ojo del lector humano (reading machines). Diríamos que más que disipar el espíritu también es capaz de cultivarlo.

Del mismo modo una imagen ya no sólo puede valer más que mil palabras, como versaba el viejo aforismo, sino que también puede ser el equivalente de 500.000 millones de palabras como es el caso de los gráficos devueltos por N-gram cada vez que le formulamos alguna pregunta. El corpus que usa la segunda versión disponible desde el 2012 alcanza los 20 millones de libros (casi un 10% de todos los libros publicados en todas épocas).
Nunca antes la humanidad fue capaz de procesar semejante elefantismo bibliográfico.

Culturonomía para todos


En diciembre de 2010, Google lanzó una herramienta en línea para el análisis de la historia de la lengua y la cultura que explora el gigantesco corpus de textos históricos escaneados y digitalizados como parte del proyecto de Google Books. Lo llamaron Ngram Viewer, y fue presentado al mismo tiempo con un paper en la revista Science (que luego sería revisitado en una breve, intensa y entretenida conferencia TED) donde los autores anunciaban un neologismo que refería al incipiente campo de investigación en el que el nuevo artefacto se inscribiría: "culturomics".

Allí lo definían como la aplicación de la recopilación de datos y el análisis de alto rendimiento para el estudio de la cultura humana, extendiendo los límites de la investigación cuantitativa rigurosa a una amplia gama de nuevos fenómenos que abarcan las ciencias sociales y las humanidades.
Siguiendo esta definición N-Gram fue pensado en sus inicios para ser puesta al servicio de lingüistas, lexicógrafos e historiadores para el análisis de la historia de la lengua y la cultura. Una herramienta de investigación para especialistas.

Lo que no se imaginaron era que su popularidad se extendiera entre los usuarios casuales como lo hizo. Según los datos ofrecidos por Google más de 45 millones de gráficos de comparación de palabras fueron creados tan solo en sus primeros 22 meses de vida.

Incorporando operadores a nuestras búsquedas


Hace un tiempo nos sorprendíamos de lo que podíamos hacer con N-gram al utilizarlo como generador de indicios históricos en el ámbito de la ciencia. En ese entonces quedamos entusiasmadísimos de lo que lográbamos con tan poco y la potencia que esta aplicación tendría abriéndola al juego de la imaginación de un colectivo de personas ocupadas en sacarle un provecho creativo.   

Lo que no sabíamos entonces era que como en toda buena interfaz para los tiempos de barbarie que corren (Baricco, 2008) la puerta de entrada es sencilla pero la invitación a desarrollar un uso más complejo está siempre abierta.

Para esto N-gram ofrece una serie de operadores, elementos que se incorporan a nuestras estrategias de búsqueda permitiendo complejizarlas y mejorarlas, que expanden notablemente sus posibilidades interrogatorias. Estos se organizan en tres categorías: tags sintácticos, corpus y matemáticos.

Tags sintácticos


Todas las palabras en el Corpus Ngram han sido etiquetadas de acuerdo al modo en que estas forman parte de una oración, tales etiquetas (tags) a su vez también pueden incluirse en la búsqueda (aún no está funcionando para el corpus en español, pero de seguro no se demorarán mucho en ponerlo a disposición).

Por ejemplo, se pueden indagar los usos de un término como Verbo (término_VERB) y al mismo tiempo como sustantivo (término_NOUN).
Veamos un ejemplo.


En este caso hemos pedido que rastree en el corpus en inglés las veces en que la palabra “orange” (la cual puede designar un atributo de color o referirse al nombre de una fruta) aparece utilizada como sustantivo  por un lado y como adjetivo por otro.

Incorporemos un operador sintáctico más a nuestro ejemplo y al caso de la búsqueda de “Orange” como sustantivo vamos a agregarle un término que nos devuelva los resultados respecto de la cantidad de veces que este nombre aparece precedido por un artículo.  De manera que tendremos tres resultados (líneas) a comparar: _ADJ_ orange (orange como adjetivo), _NOUN orange (orange como sustantivo), y _DET_ _NOUN_ orange (orange como sustantivo precedido de un artículo).


Lo interesante de este último ejemplo es la inserción de un campo variable ya que _DET_ no se refiere ningún artículo en particular sino a cualquiera de ellos que se inserten en una oración antecediendo a la palabra "orange" utilizada como sustantivo.

Otros de los operadores sintácticos, _START_ y _END_, nos permiten señalar que la búsqueda se ciña a los casos en que los términos rastreados se comporten como comienzo o cierre de oración.



Los operadores sintácticos no se agotan en estos ejemplos sino que son varios más como se muestra en la siguiente tabla.



Para obtener información y ejemplos sobre el uso de los operadores pueden visitar la sección info de N-gram.

 

Corpus


Los operadores de corpus nos permiten realizar un ejercicio muy interesante que ensancha notablemente las posibilidades de la aplicación como lo es el contrastar en un sólo gráfico la búsqueda de un mismo o de diferentes términos en corpus de distintos idiomas.



En el ejemplo de arriba vemos cómo se comportan las menciones del nombre de Michel Foucault en francés, español, alemán en ingles simultáneamente.

Operadores matemáticos


Por último encontramos los operadores matemáticos que probablemente sean los que realizan la maniobra más extraña que se nos hubiera ocurrido jamás como el aplicar operaciones aritméticas a las palabras.
En este primer caso vamos  ver cómo funciona el operador suma.


En el gráfico de arriba vemos como las citas de Sigmund Freud superan ampliamente a la de otros personajes ligados al análisis de la psiquis humana a punto tal que ni las suma de todos ellos logran siquiera igualar a las del padre del psicoanálisis.

En el caso del operador resta funciona siguiendo la misma lógica que el operador suma pero aplicando una substracción del volumen de resultados del término de la derecha al volumen de resultados del término de la izquierda.



El caso de la multiplicación (el último de los operadores que revisaremos en este post) resulta muy útil al momento de confrontar el comportamiento de curvas de resultados cuyos volúmenes son muy disímiles. En ese caso, al volumen más pequeño se le aplica un multiplicador como se muestra en el ejemplo de abajo en el que se comparan el volumen de resultados para la palabra violín y la palabra ukelele. Esta última con un multiplicador de 100.



Finalmente y con la idea de que experimentemos con esta simple pero potentísima herramienta diseñamos un tutorial interactivo que dejamos a  disposición en la imagen que sigue.

Click en la imagen para acceder al tutorial

Los invitamos a que compartan los resultados de sus experimentos en los comentarios de este post.

3/15/2013

Actividad con PageOneX: El periodismo en papel en un entorno digital. Estrategias retóricas y horizonte temporal






Este post tiene como disparador una nota en Facebook de Roberto Guareschi (no la podemos enlazar) sobre cómo los periódicos en papel argentinos utilizaron sus tapas el día después de la elección del nuevo papa.

Allí Roberto hace referencia a una serie de cuestiones que tienen que ver con los posibles aciertos y actuales errores del proceder de los medios impresos, particularmente en lo relativo a sus portadas, cuando se enfrentan a noticias de gran impacto y con mucha reverberación en la web como la del pasado miércoles. Qué estrategias discursivas (retórico - temporales) sería conveniente que los diarios, en papel claro,  pongan en juego en la actual ecología mediático informativa es el tema principal de sus comentarios.

Si la imagen del espejo retrovisor del automóvil reflejando un carruaje (al comienzo de esta publicación) asistía como metáfora a la idea de que los nuevos medios son pensados a partir del esquema instalado por sus predecesores, me pregunto cual será la imagen que haga lo propio con el "pifie" de los medios medios más antiguos que se quedan repitiendo usos a destiempo.


Cita del post de Guareschi:

Al día siguiente de la designación de Bergoglio La Nación y Clarín titularon con lo que ya se sabía: Bergoglio papa. Para mí titularon como si no existieran otros medios más eficientes para informar en tiempo real y como si sus lectores no los hubieran visto o leído. Es una actitud antigua y persistente y autodestructiva. Es una de las muchas razones que perjudican a los diarios de papel.


La tapa y sus títulos y lo que los rodea les dan el tono a todo el diario. Y esos títulos no les hacían justicia a la riqueza que tenían muchos de los artículos que venían adentro.

En todo caso las tapas de Clarín y La Nación solamente transmitían una enorme alegría. La misma que sentían muchos de sus periodistas, por simpatía, emoción religiosa, emoción política; en muchos casos todo junto. No está mal, claro. Pero periodísticamente, me parece que es un error

Creo que los diarios tendrían que titular sus tapas hacia el futuro y no hacia atrás.

Hacia el futuro es dar elementos para comprender: qué significa, que puede ocurrir, por qué. Hacia atrás es anunciar lo que ocurrió."

Se me antoja pensar lo dicho en la cita se inscriben bajo la cuestión mediamórfica (Fidler) del RELEVO. Es decir, qué cosas que antes hacían y ahora dejan de hacer (o sería conveniente que dejen de hacer) los viejos medios a partir de la transformación de la ecología mediática de la que participa.

Un caso paradigmático de relevo lo podemos encontrar en lo que le ocurrió a la pintura luego de la aparición de la fotografía la cual desligó aquella de su obligado matrimonio con la mímesis del mundo, abriendo otros horizontes.
  
La pregunta acerca de si deben seguir apuntando hacia el pasado, describiendo lo que ya ocurrió como lo hicieron tradicionalmente, o deben orientarse hacia el futuro concentrándose en la interpretación, posibles pronósticos y sus causas, se orienta en esa dirección.

También se desliza en el artículo una crítica sobre el uso de la portada del diario en base a un supuesto uso ideal. Lo que desconozco es si dicho uso canónico, ideal, forma parte de os manuales del "buen estilo" de los diarios en papel. O son conjeturas del propio Guareschi sobre como las tapas deben actualizarse. Eso quedará como pregunta…

Por último en conexión con esto y siguiendo con la intención de bajar a la práctica de nuestros alumnos de la cursada de #datos 2013 actividades relacionadas con las humanidades digitales compartimos un ejercicio posible, una propuesta de trabajo.


Propuesta de trabajo:

Utilizando la aplicación PageOneX analizar un corpus (a elección) de tapas de diarios en torno a una noticia (puede ser la misma) que ponga en juego los elementos traidos a cuento en el post citado.El objetivo será examinar el corpus en base a una categorización que contribuya a poner de manifiesto la relación entre estrategia retórica y temporalidad  (el tono utilizado también podría ser incluido en el análisis) en torno a la noticia elegida. El criterio de selección de esta última esta debería ser que haya tenido repercusión en la web en general y en las redes en particular.Post relacionado:Apps y humanidades digitales: PageOneX

2/27/2013

Apostillas sobre analítica cultural. Jugando con N-gram

Recientemente me puse a explorar N-gram Viewer de Google. Es la primer herramienta de su tipo, capaz de cuantificar con precisión y rapidez tendencias culturales basándose ​​en cantidades masivas de datos (Big Data). El buscador está diseñado para que podamos examinar la frecuencia de aparición en libros de palabras simples (como por ejemplo: música) o frases compuestas (por ejemplo: "Provincias unidas del sur") a través del  tiempo. La búsqueda explora un corpus de más de 5,2 millones de libros, sí leiste bien: el 4% de todos los libros que se han publicado!

Mientras hago algunas pruebas con la app, ensayo un ejemplo que encontré en el sitio Culturomics en el cual se propone una búsqueda a partir de cuatro figuras destacadas de la historia de la humanidad en general y de la ciencia en particular: Galileo, Darwin, Freud y Einstein.
Copio y pego dichos nombres en la potentísima y atrapante aplicación de los Labs de la gran G y doy con este gráfico.



Como notarán, el volumen de menciones de los cuatro autores en el período comprendido por la búsqueda no es tan desigual como para llamar demasiado la atención (de 1869 a 1930 es Darwin el que despunta, quien a su vez es relevado de esa posición por Freud a partir del año 1950 en adelante), salvo por una rara excepción. En los años 1632 Galileo muestra un súbito ascenso en el gráfico el cual se mantiene hasta 1638 para volver a decaer de la misma manera en la que subió.

Revisitando la historia de quien fuera uno de los agentes de mayor peso en lo que se conoce como la revolución científica, encuentro que el pico de menciones en los libros de la época (en definitiva es eso lo que contabiliza N-gram a partir del análisis de una cantidad de datos gigantesca) que marca la app coincide con el año de publicación de su obra más controversial que lo llevara finalmente a la condena de parte de las autoridades esclesiásticas de la época.

Según Wikipedia, “el 21 de febrero de 1632, Galileo, protegido por el papa Urbano VIII y el gran duque de Toscana Fernando II de Médicis, publica en Florencia su diálogo de los Massimi sistema (Diálogo sobre los principales sistemas del mundo), donde se burla implícitamente del geocentrismo de Ptolomeo. El Diálogo es a la vez una revolución y un verdadero escándalo.”  Y N-gram Viewer lo confirma.

Mientras seguimos dando reportes de nuestra exploración de aplicaciones ligadas a la analítica cultural… nos regodeamos en la sensación de que hay mucho por hacer/aprender en la intención de enlazar el big data con una hermenéutica de los datos que genere aportes significativos en el terreno de las humanidades.

PD: No pasará demasiado tiempo para que hagamos un informe detallado sobre N-gram en este blog.

Enlaces relacionados:

Blog Widget by LinkWithin
 
clasiar