ANTHROPIC DÉCOUVRE COMMENT IMMUNISER L'IA CONTRE DE TRÈS MAUVAISES DÉCISIONS
Anthropic affirme qu'il peut désormais vacciner l'IA contre le mal.
Utilisant des "vecteurs de persona" pour suivre des traits tels que la tromperie ou la sycophantie, les chercheurs ont formé des modèles linguistiques en injectant délibérément un mauvais comportement, puis
Voir l'original