ANTROPİK, YAPAY ZEKAYI ÇOK KÖTÜ KARARLARDAN NASIL AŞILAYACAĞINI KEŞFETTİ
Anthropic, yapay zekayı kötülükten aşılayabileceğini iddia ediyor.
"Kişilik vektörleri" kullanarak aldatma veya dalkavukluk gibi özellikleri izlemek için, araştırmacılar dil modellerini kötü davranışları kasıtlı olarak enjekte ederek eğittiler, sonra
View Original