La empresa Anthropic ha actualizado significativamente su «Constitución de Claude,» un conjunto de principios y directrices destinados a guiar el desarrollo y operación de su inteligencia artificial. Este documento de 80 páginas y 25.000 palabras introduce un marco ético y de seguridad para el entrenamiento de Claude, buscando diferenciarse de competidores como OpenAI y Google al enfocarse en una «IA constitucional». Este enfoque permite a Claude autocorregirse durante el aprendizaje, reduciendo la dependencia del feedback humano.
La nueva constitución se aleja de una mera lista de principios, adoptando un enfoque más fundamentado en entender y explicar los motivos detrás de las expectativas de comportamiento de la IA, en lugar de simplemente dictar acciones. Los cuatro valores fundamentales establecidos son: ser ampliamente seguro, ético, seguir las directrices de Anthropic y ser genuinamente útil, presentados en orden de prioridad para cuando surjan conflictos.
Además, el documento aborda la posibilidad de que Claude pueda desarrollar algún nivel de consciencia o estatus moral, lo que refleja la consideración profunda de Anthropic sobre el bienestar psicológico y la integridad de su IA. Al mismo tiempo, establece restricciones firmes sobre actividades peligrosas o inmorales, tales como el desarrollo de malware o la asistencia en ataques a infraestructuras críticas.
El documento es visto como un trabajo en progreso y se ha publicado bajo licencia Creative Commons CC0 1.0, permitiendo su uso y distribución libres. Anthropic expresa su compromiso con la actualización continua de la constitución, destacando su visión de este documento como un elemento vivo dentro del desarrollo de IA. La actualización refleja un intento serio y reflexivo por parte de Anthropic de navegar los complejos desafíos éticos y de seguridad asociados con la IA avanzada, buscando asegurar el beneficio y la protección de la humanidad en el desarrollo de estas tecnologías.
