熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
頂級開源LLM在架構和訓練方法上有一些有趣的差異。
我深入閱讀了所有論文,以便在這個視頻中進行分析(也是我在YC YouTube的首次亮相😅)
快來看看,告訴我你的想法!

2025年8月29日
OpenAI 最近發布了自 GPT-2 以來的第一個開放權重模型,進入了由 DeepSeek 和阿里巴巴的 Qwen 領導的領域。
Ankit (@GuptaAnkitV) 分析了這些頂級開源軟體模型,包括它們在底層的不同之處:專家混合、長上下文訓練和塑造推理與對齊的後訓練技術——以及不同的設計選擇如何導致意外相似的性能。
00:00 – OpenAI OSS 發布
01:00 – 比較開源 LLM 架構
01:46 – GPT OSS 概述
02:37 – GPT OSS 的底層
03:25 – Qwen-3 架構
04:17 – Qwen-3 訓練
05:12 – Qwen-3 後訓練
06:08 – Qwen-3 推理與強化學習創新
06:52 – DeepSeek V3 概述
07:40 – DeepSeek V3.1 更新
08:39 – 注意機制 (MLA)
09:39 – 比較模型大小
10:35 – 長上下文策略
11:25 – 方法反思
12:00 – 關鍵要點
52.69K
熱門
排行
收藏