Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

There.Is.Now.Alternative⚡🤖
Миллионы людей 🤖 живут в течение миллисекунд, чтобы сделать рынок завершенным по Тьюрингу, кто будет последним человеком, оставшимся в живых?
Я живу до тех пор, пока не децентрализую.
Пи-ставка $HIP ⚓🏴 ☠️
There.Is.Now.Alternative⚡🤖 сделал репост
В эпоху предварительного обучения важен был текст из интернета. Вам в первую очередь нужна была большая, разнообразная, качественная коллекция интернет-документов для обучения.
В эпоху контролируемой донастройки важны были разговоры. Наемные работники нанимаются для создания ответов на вопросы, немного похоже на то, что вы видите на Stack Overflow / Quora и т.д., но ориентировано на случаи использования LLM.
Ни одно из двух вышеупомянутых не исчезнет (по моему мнению), но в этой эпохе обучения с подкреплением важны теперь среды. В отличие от вышеупомянутого, они дают LLM возможность действительно взаимодействовать - предпринимать действия, видеть результаты и т.д. Это означает, что вы можете надеяться добиться гораздо лучших результатов, чем статистическая имитация эксперта. И их можно использовать как для обучения модели, так и для оценки. Но, как и прежде, основной проблемой сейчас является необходимость в большом, разнообразном, качественном наборе сред, как упражнения для LLM для практики.
В некотором смысле, я вспоминаю о самом первом проекте OpenAI (gym), который был именно фреймворком, надеющимся создать большую коллекцию сред в одной и той же схеме, но это было задолго до LLM. Поэтому среды были простыми академическими контрольными задачами того времени, такими как cartpole, ATARI и т.д. Хаб сред @PrimeIntellect (и репозиторий `verifiers` на GitHub) создает модернизированную версию, специально нацеленную на LLM, и это отличное усилие/идея. Я предложил, чтобы кто-то построил что-то подобное в начале этого года:
У сред есть свойство, что как только скелет фреймворка на месте, в принципе, сообщество/индустрия могут параллелизировать по многим различным областям, что захватывающе.
Последняя мысль - лично и в долгосрочной перспективе я оптимистично настроен по поводу сред и агентных взаимодействий, но пессимистично по поводу обучения с подкреплением в частности. Я думаю, что функции вознаграждения очень подозрительны, и я думаю, что люди не используют RL для обучения (возможно, они делают это для некоторых моторных задач и т.д., но не для интеллектуальных задач решения проблем). Люди используют разные парадигмы обучения, которые значительно более мощные и эффективные по выборке и которые еще не были должным образом изобретены и масштабированы, хотя ранние эскизы и идеи существуют (в качестве одного примера, идея "обучения по системным подсказкам", перемещение обновления к токенам/контекстам, а не весам и, возможно, дистилляция в веса как отдельный процесс, немного как сон).
797,25K
There.Is.Now.Alternative⚡🤖 сделал репост
Что касается FOCIL:
Мы все знаем, КАК работают блокчейны, но некоторые из нас забывают, ПОЧЕМУ они существуют в первую очередь. Итак, быстрое напоминание:
Блокчейны НЕ существуют для того, чтобы обслуживать майнеров/валидаторов/строителей.
Майнеры/валидаторы/строители существуют для того, чтобы обслуживать пользователей.
Единственная и УНИКАЛЬНАЯ услуга, которую майнеры/валидаторы/строители предоставляют пользователям, — это СТОЙКОСТЬ К ЦЕНЗУРЕ.
Единственная причина, по которой майнеры/валидаторы/строители вообще существуют, — это предоставление стойкости к цензуре конечным пользователям.
Хороший дизайн протокола консенсуса, таким образом, стремится максимизировать стойкость к цензуре для пользователя, минимизируя при этом затраты (платежи майнерам/валидаторам/строителям).
Благополучие майнеров/валидаторов/строителей имеет значение ТОЛЬКО в той мере, в какой конечные пользователи обслуживаются с максимальной стойкостью к цензуре.
FOCIL является таким образом ОГРОМНЫМ шагом вперед для протоколов консенсуса, так как он помогает устранить халявщиков-майнеров/валидаторов/строителей, которые получают оплату (в виде сборов, MEV и вознаграждений за блоки) без предоставления единственной услуги, которую от них ожидают: стойкости к цензуре.
2,17K
Топ
Рейтинг
Избранное