Drugi blogi
Pred nekaj meseci sem spremenil privzeti model za GrandpaCAD na Gemini 3. To odločitev so vodili podatki: Gemini 3 je imel najvišjo uteženo oceno, najboljše sledenje pozivom in najnižjo ceno v 84 generacijah. Bil je očitna izbira.
Ko je zato Google izdal Gemini 3.1, sem naredil to, kar storim vedno: čez njega sem pognal svojo evalvacijsko zbirko.
Rezultati so bili... neprepričljivi.
Tu je neposredna primerjava na generacijo:
| Metrika | Gemini 3 | Gemini 3.1 |
|---|---|---|
| Povpr. čas | 1m 24s | 3m 28s |
| Povpr. cena | $0.14 | $0.37 |
| Stopnja napak | 0.29 | 0.29 |
Gemini 3.1 je 2,5x počasnejši in 2,6x dražji. Stopnja napak je identična do druge decimalke natančno. Ne "približno ista". Popolnoma ista.
So modeli iz 3.1 kanček boljši? Ja, mogoče. To jim priznam. Ampak razlika v kvaliteti je zanemarljiva in ko upoštevaš, kaj plačaš za to majhno prednost (tako pri času kot pri denarju), se računica podre.
Pomisli na to tako: v času, ki ga Gemini 3.1 potrebuje, da zaključi eno generacijo, lahko pošlješ dva poziva modelu Gemini 3. Dva poskusa, da dobiš tisto, kar hočeš, z isto stopnjo napak na poskus. Če prvi ni povsem pravi, iteriraš. Dva poskusa z Gemini 3 ti bosta skoraj vedno prinesla boljši rezultat kot en sam poskus z Gemini 3.1, pa še stalo te bo manj ($0.28 proti $0.37).
Uporabnikom raje dam možnost hitre iteracije, kot da jih pustim čakati 3,5 minute na malenkost lepši rezultat.
To je druga polovica enačbe. GrandpaCAD že zdaj posluje z izgubo. Vsaka generacija me stane več, kot uporabniki plačajo. To je namerna stava: računam, da bodo stroški inference še naprej padali, kar zgodovinsko gledano počnejo. Ampak ta stava deluje samo, če mi vmes ne odteka denar.
Skok na Gemini 3.1 bi skoraj potrojil moj strošek na generacijo. Pri $0.37 na generacijo poslovni model nima več nobenega smisla. Tudi ob optimističnih napovedih o prihodnjih znižanjih cen je razkorak prevelik.
Lahko prebavim $0.14 na generacijo, medtem ko nas trg dohiteva. $0.37 je povsem druga zgodba.
Če Google približa ceno in latenco različice 3.1 tistemu, kar danes ponuja 3.0 (ali vsaj blizu tega), bom ponovno zagnal evalvacije in premislil. Izboljšanje v kvaliteti bi bilo, čeprav majhno, z enako ceno vredno prehoda. Ampak trenutno se kompromis ne splača.
Spremljam tudi Gemini 4 in karkoli bo naslednjega izdal OpenAI. Evalvacijskemu sistemu je vseeno za zvestobo znamki. Tisti model, ki generira najboljše 3D modele pri razumni ceni in hitrosti, zmaga. To je glavno bistvo uvedbe evalvacijskega sistema.
Gemini 3 je trenutno aktiven na GrandpaCAD. Če želiš videti, kaj zmore, pojdi in nekaj ustvari.