Setiap kali saya memposting tentang prompting, seseorang di komentar menyebutkan @DSPyOSS. Saya 100% tidak dapat memahami proposisi nilai Jika Anda memiliki eval yang menguji sistem Anda, mengapa menjalankan pengoptimalan RL kompleks yang mengaburkan perintah Anda? Tolong, ubah pikiranku
58,27K