儘管實驗室已經使用強化學習(RL)一段時間,但大多數企業仍然只是使用現成的模型權重。企業人工智慧的重大突破將是公司內部的強化學習環境,這些環境能夠學習並編碼他們的獨特秘訣。 公司之所以有價值,是因為它們擁有獨特的使用數據、與客戶的關係,以及通常的制度知識和流程。如果大型公司不利用這一優勢,就會為競爭對手平衡競爭環境。 本週在HITL節目中,Mark、Sam和我討論了RLVR及其他人工智慧新聞,包括Meta對Scale的投資。
看看吧:
622