Best-of-N — Репа

Исследователи показали, что ИИ можно джейлбрекнуть с помощью повторения промптов

Опубликовано в 25.12.2024 от Мария Нефёдова

Специалисты компании Anthropic, разрабатывающей семейство больших языковых моделей (LLM) Claude, опубликовали исследование, которое демонстрирует, что LLM можно принудить выполнять запрещенные действия, повторяя промпты на разный лад, а также автоматиз…