Los chatbots, como ChatGPT, Copilot, Claude Chat, y Perplexity, han emergido como tendencias destacadas en el ámbito de la inteligencia artificial (IA). A pesar de su popularidad y utilidad, han demostrado ser no completamente fiables, como en el caso de un abogado que utilizó ChatGPT en un juicio y enfrentó problemas debido a citas y referencias falsas generadas por el chatbot. La fiabilidad se convierte en una preocupación aún mayor en contextos profesionales, donde la desinformación puede tener consecuencias significativas.
Una empresa emergente fundada por ex empleados de Google publicó un estudio señalando que los chatbots pueden presentar «alucinaciones» o errores en al menos el 3% de las veces. Esto es preocupante en el ámbito empresarial, especialmente cuando se emplean en herramientas como Copilot en Office 365, donde errores de este tipo pueden causar problemas significativos.
Para abordar esta cuestión de fiabilidad, Cleanlab, iniciada por exinvestigadores del MIT, ha introducido un modelo conocido como Trustworthy Language Model (TLM). Este modelo actúa como una «capa de confianza», proporcionando a los usuarios una puntuación sobre la fiabilidad de las respuestas obtenidas de chatbots. Diseñado para funcionar junto a modelos como GPT-3.5 y GPT-4, TLM evalúa las respuestas de varios modelos y asigna un puntaje que refleja su fiabilidad.
En pruebas, TLM ha demostrado su utilidad al identificar respuestas incorrectas sobre preguntas simples, como la frecuencia de una letra en una palabra, donde ChatGPT podría fallar. La tecnología de Cleanlab ofrece una posible solución a la fiabilidad de los chatbots de atención al cliente, permitiendo intervenciones humanas cuando las respuestas caen por debajo de un umbral de fiabilidad deseado.
Esta iniciativa promete mejorar la fiabilidad de los chatbots en una amplia gama de aplicaciones, haciendo que la interacción con IA sea más segura y confiable. Cleanlab ofrece TLM a través de su sitio web y una API, con opciones gratuitas y de pago disponibles, abriendo nuevas posibilidades para el uso ético y eficaz de la inteligencia artificial en diversas industrias.
