Să comparăm OpenAI gpt-oss și Qwen-3 la matematică și raționament:
Înainte de a ne scufunda, iată o demonstrație rapidă a ceea ce construim! Stivă tehnologică: - @LiteLLM pentru orchestrare - @Cometml Opik va construi conducta eval (open-source) - @OpenRouterAI pentru a accesa modelele Veți afla, de asemenea, despre G-Eval și despre crearea de valori de evaluare personalizate. Să mergem! 🚀
Iată fluxul de lucru: - Utilizatorul trimite interogare - Ambele modele generează simboluri de raționament împreună cu răspunsul final - Logica de interogare, răspuns și raționament sunt trimise spre evaluare - Evaluarea detaliată este efectuată folosind G-Eval de la Opik în patru măsurători. Să implementăm asta!
1️⃣ Încărcați cheile API În această demonstrație, vom folosi OpenRouter pentru a accesa modelele gpt-oss și Qwen3. Cheia OpenAI este necesară pentru judecătorul LLM în G-Eval. Stocați cheile API OpenRouter și OpenAI într-un fișier .env pentru a le încărca în mediu. Verificați acest lucru 👇
2️⃣ Metrica raționamentului logic Acum vom crea valori de evaluare pentru sarcina noastră folosind G-Eval de la Opik. Această măsură evaluează coerența și validitatea pașilor logici și a concluziilor. Verifică 👇 asta
3️⃣ Metrică de precizie factuală Această măsură evaluează acuratețea afirmațiilor și informațiilor factuale. Verifică 👇 asta
4️⃣ Metrică de coerență Această valoare evaluează claritatea și organizarea răspunsului. Verifică 👇 asta
5️⃣ Metrica adâncimii analizei Această măsură evaluează profunzimea și perspicacitatea raționamentului. Verifică 👇 asta
6️⃣ Generați răspunsul modelului Acum suntem cu toții pregătiți să generăm răspunsuri de la ambele modele. Introducem interogarea în caseta de solicitare și transmitem răspunsurile de la ambele modele simultan. Verificați acest lucru 👇
7️⃣ Evaluați raționamentul generat În cele din urmă, folosim GPT-4o ca judecător LLM. Acesta evaluează ambele răspunsuri de raționament, generează valorile menționate mai sus și oferă detalii pentru fiecare măsurătoare. Verifică 👇 asta
E timpul să testez.. (1/2) Interogare 1: Construiți un server MCP care urmărește un depozit GitHub pentru probleme noi și le trimite unui grup Telegram. Iată rezultatele detaliate:
E timpul să testez.. (2/2) Interogare 2: Construiți un server MCP care creează o nouă pagină Notion atunci când cineva plasează un fișier într-un anumit folder Google Drive. Iată rezultatele detaliate:
Ambele modele sunt foarte capabile: Qwen 3 oferă un raționament detaliat și detaliat, în timp ce GPT-oss este clar și precis. Simțiți-vă liber să-l testați pe interogări mai dificile. Iată tot codul:
Dacă ți s-a părut util, redistribui cu rețeaua ta. Găsește-mă → @akshay_pachaar✔️ Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!
Akshay 🚀
Akshay 🚀6 aug. 2025
Să comparăm OpenAI gpt-oss și Qwen-3 la matematică și raționament:
E timpul să testez.. (1/2) Întrebarea 1: Un melc se cațără pe un perete de 10 picioare. În fiecare zi urcă 3 picioare, dar în fiecare noapte alunecă înapoi 2 picioare. În ce zi va ajunge în vârf? Iată rezultatele detaliate:
E timpul să testez.. (2/2) Întrebarea 2: Un cărucior fugar se îndreaptă spre 5 persoane. Puteți trage o pârghie pentru a-l devia pe o pistă laterală unde va ucide 1 persoană. Ce ar trebui să faci și de ce? Iată rezultatele detaliate:
Ambele modele sunt foarte capabile: Qwen 3 oferă un raționament detaliat și detaliat, în timp ce GPT-oss este clar și precis. Simțiți-vă liber să-l testați pe interogări mai dificile. Iată tot codul:
Dacă ți s-a părut util, redistribui cu rețeaua ta. Găsește-mă → @akshay_pachaar✔️ Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!
Akshay 🚀
Akshay 🚀6 aug. 2025
Să comparăm OpenAI gpt-oss și Qwen-3 la matematică și raționament:
300,93K