Suurin kysymys RL-tutkimuksessa on aina ollut - missä ympäristössä harjoittelet? Ennen se oli videopelejä (Atari) ja lautapelejä (Go / Shakki). Mutta nyt kun RL toimii LLM:ien kanssa, on vain yksi ympäristö, jolla on merkitystä. Ja se on sinun tuotteesi.
Kevin Lu
Kevin Lu10.7.2025
Miksi sinun pitäisi lopettaa RL-tutkimuksen tekeminen ja työskennellä sen sijaan tuotteen parissa // Teknologia, joka avasi tekoälyn suuren skaalautuvan muutoksen, on internet, ei muuntajat Mielestäni on hyvin tiedossa, että data on tärkein asia tekoälyssä, ja myös se, että tutkijat päättävät olla työskentelemättä sen parissa joka tapauksessa. ... Mitä tarkoittaa datan työstäminen (skaalautuvalla tavalla)? Internet tarjosi runsaan datalähteen, joka oli monipuolinen, tarjosi luonnollisen opetussuunnitelman, edusti osaamista, josta ihmiset todella välittävät, ja oli taloudellisesti kannattava teknologia laajassa mittakaavassa käyttöön – siitä tuli täydellinen täydennys seuraavan tokenin ennustamiseen ja se oli tekoälyn alkulähde. Ilman muuntajia mikä tahansa määrä lähestymisiä olisi voinut lähteä liikkeelle, meillä olisi luultavasti ollut CNN:t tai tila-avaruusmallit GPT-4.5:n tasolla. Mutta perusmalleissa ei ole tapahtunut dramaattista parannusta GPT-4:n jälkeen. Päättelymallit ovat loistavia kapeilla aloilla, mutta eivät niin suuri harppaus kuin GPT-4 oli maaliskuussa 2023 (yli 2 vuotta sitten...) Meillä on jotain hienoa vahvistusoppimisen kanssa, mutta pelkoni on, että toistamme menneisyyden virheitä (2015-2020 RL) ja teemme RL-tutkimusta, jolla ei ole väliä. Samalla tavalla kuin Internet oli valvotun esikoulutuksen kaksois, mikä on RL:n kaksois, joka johtaa GPT-1:n > GPT-4:n kaltaiseen massiiviseen edistykseen? Mielestäni se näyttää tutkimuksen ja tuotteen yhteissuunnittelulta.
11,2K