el mensaje es claro, si usas mis datos sin pagar, prepara tus abogados

El modelo de negocio de Internet basado en la gratuidad de los servicios lleva implícito que el verdadero producto es el usuario o sus datos. Este concepto ha sido comúnmente aceptado, pero la aparición y el rápido desarrollo de la inteligencia artificial (IA) han intensificado el debate sobre el valor y la propiedad de los datos generados por los usuarios. Reddit, una plataforma rica en interacciones humanas y contenido generado por usuarios, ha tomado una postura firme contra la utilización de sus datos sin compensación, evidenciando esta problemática al presentar una demanda contra Perplexity AI y tres empresas de raspado de datos por acceder ilegalmente a su contenido protegido por derechos de autor para entrenar modelos de IA.

Reddit acusa a estas empresas de evadir sus medidas de protección y de realizar un «raspado a escala industrial» con fines comerciales, usando información de la plataforma a pesar de las restricciones. Un experimento revelador fue cuando, tras ordenar a la demandada que dejara de recoger sus datos en mayo de 2024, Reddit notó un aumento en las menciones dentro del motor de Perplexity, lo cual confirmó sus sospechas al publicar una entrada visible solo por Google y luego encontrarla en los resultados de Perplexity.

A diferencia de otros casos, donde Reddit ha llegado a acuerdos, como con Google y OpenAI para usar su contenido de forma controlada y bajo licencia, Perplexity sostiene que no utiliza el contenido de Reddit para entrenar sus modelos de IA. Esta afirmación subraya un conflicto sobre el acceso y uso de datos en un entorno donde los términos de servicio de las plataformas dan amplias libertades para el uso de contenido generado por los usuarios, incluyendo su explotación para entrenar modelos de IA.

Este litigio, aún en fase inicial, resalta la creciente tensión entre la libertad de acceso a la información y los derechos de propiedad sobre el contenido generado por los usuarios. El resultado podría establecer un precedente significativo sobre cómo se regula el uso de datos en la era de la inteligencia artificial, equilibrando el acceso libre con la protección del contenido generado por la comunidad.