跳轉至主要內容
幣幣兌換
行情
掃鏈
追蹤
信號
牛人榜
資產
更多
產品
DeFi
Cryptoverse
獎勵中心
市場
洞察中心
Eco Hub
邀請計劃
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
探索 Web3 Giveaway 活動,每週豐厚獎勵等您來領取
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+6.61%
USELESS
+0.69%
IKUN
-4.97%
gib
+6.05%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+1.75%
ALON
+0.14%
LAUNCHCOIN
+10.26%
GOONC
+11.96%
KLED
+4.34%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.63%
Boopa
-15.4%
PORK
-1.88%
主頁
There.Is.Now.Alternative⚡🤖
數以百萬🤖計的人活著只用毫秒才能讓市場圖靈完整,誰會是最後站著的人? 我活到我去中心化。 Pi-Rate $HIP ⚓🏴 ☠️
更多
查看原文
There.Is.Now.Alternative⚡🤖 已轉發
Andrej Karpathy
8月28日 04:34
在預訓練時代,重要的是互聯網文本。你主要希望擁有一個大型、多樣化、高質量的互聯網文檔集合來學習。 在監督微調時代,重要的是對話。雇用合同工來為問題創建答案,有點像你在 Stack Overflow / Quora 等地方看到的,但更針對 LLM 的用例。 我認為上述兩者都不會消失,但在這個強化學習的時代,現在重要的是環境。與上述不同,它們給 LLM 提供了實際互動的機會——採取行動、查看結果等。這意味著你可以希望比統計專家模仿做得更好。它們可以用於模型訓練和評估。但就像以前一樣,現在的核心問題是需要一個大型、多樣化、高質量的環境集合,作為 LLM 練習的練習場。 在某種程度上,我想起了 OpenAI 的第一個項目(gym),這正是一個希望建立一個大型環境集合的框架,但那是在 LLM 之前。因此,這些環境是當時簡單的學術控制任務,比如 cartpole、ATARI 等。@PrimeIntellect 環境中心(以及 GitHub 上的 `verifiers` 倉庫)構建了現代化版本,專門針對 LLM,這是一個偉大的努力/想法。今年早些時候,我建議有人構建類似的東西: 環境具有這樣的特性,一旦框架的骨架到位,原則上社區/行業可以在許多不同領域並行化,這令人興奮。 最後的想法——就個人和長期而言,我對環境和代理互動持樂觀態度,但對強化學習持悲觀態度。我認為獎勵函數非常可疑,我認為人類並不使用 RL 來學習(也許他們在某些運動任務等方面使用,但在智力問題解決任務中並不使用)。人類使用不同的學習範式,這些範式顯著更強大且樣本效率更高,而這些範式尚未得到適當的發明和擴展,儘管早期的草圖和想法已經存在(例如,“系統提示學習”的想法,將更新移動到令牌/上下文而不是權重,並可選擇將其提煉為權重,作為一個類似於睡眠的單獨過程)。
更多
797.28K
7.01K
There.Is.Now.Alternative⚡🤖 已轉發
OpenRouter
8月26日 00:25
新功能:一鍵 ZDR 🕵️♂️ 確保您的提示僅發送給支持零數據保留的提供者。具體操作如下 👇
更多
82K
403
There.Is.Now.Alternative⚡🤖 已轉發
onewayfunction
8月24日 04:12
關於FOCIL: 我們都知道區塊鏈是如何運作的,但有些人忘記了它們存在的原因。因此,快速回顧一下: 區塊鏈並不是為了服務礦工/驗證者/建設者而存在的。 礦工/驗證者/建設者的存在是為了服務用戶。 礦工/驗證者/建設者提供給用戶的唯一服務是抗審查性。 礦工/驗證者/建設者存在的唯一原因是為最終用戶提供抗審查性。 良好的共識協議設計因此旨在最大化用戶的抗審查性,同時最小化成本(支付給礦工/驗證者/建設者的費用)。 礦工/驗證者/建設者的福祉僅在於最終用戶能夠獲得最大程度的抗審查性。 因此,FOCIL是共識協議的一大進步,因為它有助於消除那些在沒有提供唯一預期服務——抗審查性——的情況下,依然收取費用(以費用、MEV和區塊獎勵的形式)的搭便車礦工/驗證者/建設者。
更多
2.18K
13
熱門
排行
收藏
Uniswap
DEX
PumpSwap
DEX
Pancake Swap
DeFi
DEX
質押
Yield
4
AutoShark Finance
DeFi
5
0x Protocol
DeFi
DEX
6
MarginFi
DeFi
7
OKX DEX
DEX
8
Transit Swap
DEX
9
1inch Network
DeFi
DEX
流動性池
10
Galxe
其他