Nova pesquisa da Anthropic: filtrando informações perigosas durante o pré-treinamento. Estamos experimentando maneiras de remover informações sobre armas químicas, biológicas, radiológicas e nucleares (CBRN) dos dados de treinamento dos nossos modelos sem afetar o desempenho em tarefas inofensivas.
224,38K