Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

elvis

Сборка с помощью агентов ИИ @dair_ai • Предыдущая: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Я делюсь идеями о том, как создавать с помощью LLM и агентов ⬇️ ИИ

Как эффективно применять контекстное проектирование для AI-агентов? Читай это, если ты разработчик AI, создающий AI-агентов сегодня. Контекст — это король! И его нужно проектировать, а не просто запрашивать. Я написал несколько заметок после прочтения потрясающего нового руководства по контекстному проектированию от Anthropic: Контекстное проектирование против проектирования запросов - Проектирование запросов = написание и организация инструкций - Контекстное проектирование = кураторство и поддержание запросов, инструментов, истории и внешних данных - Контекстное проектирование итеративно, и контекст регулярно кураторится Почему важно контекстное проектирование? - Ограниченный бюджет внимания - Упадок контекста происходит, если контекст становится слишком большим; контекстное проектирование помогает - Цель: кураторство и поддержание минимального количества высокосигнальных токенов Анатомия эффективного контекста - Системные запросы: четкие, на правильной высоте (не слишком специфичные и не слишком расплывчатые) - Инструменты: держите инструменты минимальными, используйте описательные параметры и стремитесь к эффективности токенов - Примеры с несколькими образцами: предоставьте разнообразные, канонические примеры желаемого поведения - История сообщений: активно обрезайте Стратегии извлечения контекста - Предварительное извлечение против извлечения по мере необходимости; наблюдается сдвиг к агентному поиску - Используйте легкие ссылки (пути к файлам, сохраненные запросы), чтобы динамически загружать контекст во время выполнения - Обеспечьте инкрементальное открытие релевантного контекста через исследование - Гибридная стратегия поиска: предварительная загрузка + динамическое извлечение Контекстное проектирование для задач с длительным горизонтом - Компакция: обобщайте и сбрасывайте контекст по мере выполнения подсоставов - Структурированное ведение заметок: используйте постоянную внешнюю память (журналы, списки дел) - Подагенты: координатор координирует/планирует, а подагенты выполняют задачи с собственными окнами контекста, которые затем обобщаются Я верю, что это основы для создания масштабируемых, надежных контекстных пайплайнов для AI-агентов. Но это еще не все. Я уверен, что со временем появятся более эффективные стратегии.

Как более эффективно обучать небольшие модели рассуждений? Это проблема, с которой сталкиваются многие разработчики ИИ. Тонкая настройка с использованием RL, как правило, достигает плато, особенно для моделей 1–2B. Я думаю, что DeepSearch предлагает действительно чистый подход. Он берет идею поиска Монте-Карло (MCTS) на этапе вывода и переносит ее в цикл обучения. Этот сдвиг открывает лучшие возможности для исследования и более эффективного обучения. Вот мои заметки из статьи: Цикл включает четыре ключевые идеи: Поиск во время обучения: Вместо того чтобы проводить поиск только на этапе тестирования, MCTS выполняется во время обучения RL. Локальный селектор UCT ранжирует братьев и сестер, в то время как глобальный оценщик границы выбирает многообещающие листья по всему дереву на основе значения родителя, энтропии и глубины. Обучение как на победах, так и на уверенных ошибках: Если правильное решение не найдено, модель все равно учится, контролируя уверенный неверный путь (ошибки с наименьшей энтропией). Правильные пути остаются неотрицательными во время обновлений, что помогает с распределением кредитов на уровне шагов. Стабилизация RL с помощью Tree-GRPO: Они уточняют цели в стиле PPO с помощью значений q на уровне узлов, нормализации только по среднему и стратегии мягкого обрезания. Это предотвращает взрывы вознаграждений, сохраняя информативность градиентов. Сохранение эффективности: Чтобы сократить ненужные вычисления, DeepSearch фильтрует до жесткого подмножества задач, кэширует решения после их проверки и пропускает полный поиск, когда ответ уже известен. Все эти улучшения приводят к сильным результатам. DeepSearch-1.5B достигает 62.95% на бенчмарках AIME/AMC, обгоняя топовую базу Nemotron, используя всего ~330 GPU-часов. Для сравнения, обычное обучение RL достигает более низкого плато даже с 1,800+ GPU-часами. Статья: Я думаю, что эта статья предлагает практический рецепт для преодоления плато в небольших моделях рассуждений: • Перенести поиск в обучение, а не только в вывод • Контролировать как правильные, так и неверные пути • Использовать глобальную приоритизацию для более умного исследования • Кэшировать и фильтровать, чтобы поддерживать высокую эффективность

Топ

Рейтинг

Избранное