Nowe badania Anthropic: filtrowanie niebezpiecznych informacji podczas wstępnego szkolenia. Eksperymentujemy z metodami usuwania informacji o broni chemicznej, biologicznej, radiologicznej i jądrowej (CBRN) z danych treningowych naszych modeli, nie wpływając na wydajność w zadaniach nieszkodliwych.
224,37K