Una demanda presentada la semana pasada en el tribunal federal de Manhattan por el New York Times afirma que los demandados (Microsoft y OpenAI) han utilizado millones de sus artículos para entrenar y crear sus grandes modelos de lenguaje (LLM) y otros productos. El Times busca daños y perjuicios por valor de miles de millones de dólares, aunque no da una cifra específica.
Pero sí, buscará un pago bastante grande si gana.
«La ley no permite el tipo de infracción sistemática y competitiva que han cometido los demandados», se lee en la denuncia oficial (advertencia en pdf). «Esta acción busca responsabilizarlos por los miles de millones de dólares en daños legales y reales que deben por la copia y el uso ilegal de las obras excepcionalmente valiosas del Times».
La demanda afirma que el New York Times había estado en negociaciones con los demandados «durante meses» y que buscaba llegar a un acuerdo «de acuerdo con su historial de trabajo productivo con grandes plataformas tecnológicas para permitir el uso de su contenido en nuevas productos digitales.» La idea expuesta en el documento judicial es que su objetivo era obtener un valor justo de su contribución a la capacitación, debido a la ponderación que se le dio al contenido del Times durante la capacitación, y «facilitar la continuación de un ecosistema de noticias saludable». y ayudar a desarrollar la tecnología GenAI de una manera responsable que beneficie a la sociedad y apoye a un público bien informado».
Por su parte, una declaración de un portavoz de OpenAI, Lindsey Held, es citada por el propio artículo del New York Times diciendo que la compañía pensaba que las negociaciones habían sido constructivas y estaba «sorprendida y decepcionada» por la demanda.
«Tenemos la esperanza de encontrar una manera mutuamente beneficiosa de trabajar juntos», dijeron, «como lo estamos haciendo con muchos otros editores».
Una de las partes más intrigantes de la demanda, y posiblemente la parte que ha irritado al Times, es que parece que OpenAI ha dado especial importancia al contenido del editor durante la formación de sus LLM.
Durante el entrenamiento de GPT-3 específicamente, la demanda afirma que uno de los conjuntos de datos clave, uno ponderado como conjunto de alta calidad, utilizó casi 210.000 URL únicas del New York Times, lo que representó el 1,23 % de todas las fuentes del conjunto de datos.
(Crédito de la imagen: Microsoft)
Sin embargo, el conjunto de datos más grande y ponderado utilizado para entrenar GPT-3 incluye «al menos 16 millones de registros únicos de contenido de The Times en News, Cooking, Wirecutter y The Athletic».
Luego también continúa afirmando que el propio OpenAI ha dicho que los conjuntos de datos que considera de mayor calidad se muestrean con más frecuencia durante el entrenamiento de un modelo. «Según lo admitió la propia OpenAI», se lee en el documento judicial, «el contenido de alta calidad, incluido el contenido de The Times, era más importante y valioso para entrenar los modelos GPT en comparación con el contenido tomado de otras fuentes de menor calidad».
Esta no es la primera demanda contra OpenAI por infracción de derechos de autor en la formación de sus LLM, ya que The Times señala que también ha habido una demanda presentada por 17 autores, incluidos George RR Martin y John Grisham, contra la empresa por «robo sistemático en un escala masiva» y uno de Getty contra Stability AI, los creadores del creador de imágenes de IA generativa, Stable Diffusion, sobre el uso de sus imágenes en el entrenamiento de su modelo.
Y tampoco es probable que sea la última demanda contra los fabricantes de IA. Pero dada la aparente reticencia de las empresas de inteligencia artificial a abordar los problemas de infracción de derechos de autor y una compensación justa por la capacitación de sus productos multimillonarios, parece que los procedimientos legales podrían ser una de las pocas formas de mantenerlos bajo control.