Nieuw onderzoek van Anthropic: gevaarlijke informatie filteren tijdens de vooropleiding. We experimenteren met manieren om informatie over chemische, biologische, radiologische en nucleaire (CBRN) wapens uit de trainingsdata van onze modellen te verwijderen zonder de prestaties op onschadelijke taken te beïnvloeden.
227,59K