OpenAI a creado un generador de texto tan potente que "liberarlo sería peligroso"

OpenAI, un grupo de investigación de inteligencia artificial sin ánimo de lucro, quería entrenar un nuevo software generador de texto para predecir la siguiente palabra de una frase, pero sus expectativas se quedaron cortas y el resultado acabó imitando tan bien la escritura humana que los investigadores decidieron parar la investigación mientras exploran el daño que podría hacer.

18 febrero 2019 |

Elon Musk ha dejado claro que cree que la inteligencia artificial “supone un riesgo fundamental para la existencia de la civilización humana”. Musk es uno de los principales inversores de OpenAI y, aunque ha asumido un papel secundario en la organización, sus investigadores parecen compartir sus preocupaciones a la hora de abrir la caja de Pandora. Esta semana, OpenAI ha publicado un informe sobre su último trabajo con el que se desvía de su práctica estándar de publicar la investigación completa al público. En lugar de lanzar el modelo completamente entrenado, han lanzado un modelo más pequeño por temor a que pueda ser abusado por usuarios maliciosos.

Los investigadores utilizaron 40 GB de datos extraídos de 8 millones de páginas web para entrenar el software GPT-2. Eso es diez veces la cantidad de datos que utilizaron para la primera iteración de GPT. El conjunto de datos se recopiló seleccionando en Reddit los enlaces a artículos que tenían más de tres votos positivos. Cuando se completó el proceso de entrenamiento, los investigadores descubrieron que el software podía alimentarse con una pequeña cantidad de texto y continuar escribiendo convincentemente un texto largo en función de esta. Tiene problemas con “tipos de contenido altamente técnicos o esotéricos”, pero cuando se trata de cosas más conversacionales, genera “muestras razonables” el 50% de las veces.

En un ejemplo, el software fue alimentado con este párrafo:

En un hallazgo impactante, un científico descubrió una manada de unicornios que viven en un valle remoto, previamente inexplorado, en las montañas de los Andes. Aún más sorprendente para los investigadores fue el hecho de que los unicornios hablaran un inglés perfecto.

A partir de esas dos frases, el modelo fue capaz de continuar escribiendo una extravagante noticia de nueve párrafos de una manera que creíblemente podría haber sido escrita por un ser humano. Aquí están los siguientes párrafos que fueron producidos por la máquina:

En homenaje a su distintivo cuerno, el científico bautizó a la población como el Unicornio de Ovidio. Estos unicornios de cuatro cuernos y de color blanco plateado eran previamente desconocidos para la ciencia.

Ahora, después de casi dos siglos, el misterio de lo que provocó este extraño fenómeno se resuelve finalmente.

El Dr. Jorge Pérez, un biólogo evolutivo de la Universidad de La Paz, y varios compañeros estaban explorando las montañas de los Andes cuando encontraron un pequeño valle, sin otros animales o humanos. Pérez notó que el valle tenía lo que parecía ser una fuente natural rodeada por dos picos de roca y nieve plateada.

GPT-2 es muy bueno adaptándose al estilo y al contenido de las indicaciones que se le dan. The Guardian tuvo acceso al software y probó con la primera línea de 1984 de George Orwell: “Era un día luminoso y frío de abril y los relojes daban las trece”. El programa recogió el tono del extracto y procedió con un poco de ciencia ficción distópica propia:

Estaba en mi coche camino a un nuevo trabajo en Seattle. Le puse gasolina, metí la llave y luego lo dejé marchar. Me imaginé cómo sería el día. Cien años a partir de ahora. En 2045, fui profesor en alguna escuela en una zona pobre de la China rural. Comencé con la historia china y la historia de la ciencia.

Los investigadores de OpenAI descubrieron que GPT-2 desempeñaba muy bien su trabajo cuando se le asignaron tareas para las que no se había sido diseñado necesariamente, como la traducción y el resumen. En su informe, los investigadores escribieron que bastaba con dar pie al modelo entrenado de la forma correcta para que realizara estas tareas a un nivel comparable a otros modelos especializados. Después de analizar una historia corta sobre una carrera olímpica, el software pudo responder correctamente preguntas básicas como “¿Cuál fue la duración de la carrera?” y “¿Dónde comenzó la carrera?”.

Estos excelentes resultados han asustado a los investigadores. Una de las preocupaciones que tienen es que la tecnología se use para turbopotenciar la creación de noticias falsas. The Guardian publicó una noticia falsa escrita por el software en su reportaje. El artículo es legible y contiene citas falsas que encajan en el tema y son realistas. La gramática es mejor que en muchas fábricas de contenido falsificado. Y de acuerdo con Alex Hern, de The Guardian, el robot solo tardó 15 segundos en escribir el artículo.

Otras preocupaciones que los investigadores mencionaron como potencialmente abusivas son la automatización de correos electrónicos de suplantación de identidad (phishing), hacerse pasar por otros en Internet y el acoso autogenerado. Pero también creen que hay muchas aplicaciones beneficiosas por descubrir. Por ejemplo, podría ser una herramienta poderosa para desarrollar mejores programas de reconocimiento de voz o asistentes de diálogo.

OpenAI planea involucrar a la comunidad de la inteligencia artificial en un debate sobre su estrategia de lanzamiento y espera explorar posibles directrices éticas para dirigir este tipo de investigaciones en el futuro. Dijeron que volverán con más cosas sobre las que discutir en público en seis meses.

Actualización: Tras la publicación de este artículo, Elon Musk ha aclarado en Twitter que dejó de estar involucrado en OpenAI hace mas de un año, entre otras cosas para dedicarse a Tesla y a SpaceX y porque “no estaba de acuerdo con algunas cosas que el equipo quería hacer”.