Zakaj ne nadgrajujemo na Gemini 3.1

Pred nekaj meseci sem spremenil privzeti model za GrandpaCAD na Gemini 3. To odločitev so vodili podatki: Gemini 3 je imel najvišjo uteženo oceno, najboljše sledenje pozivom in najnižjo ceno v 84 generacijah. Bil je očitna izbira.

Ko je zato Google izdal Gemini 3.1, sem naredil to, kar storim vedno: čez njega sem pognal svojo evalvacijsko zbirko.

Rezultati so bili... neprepričljivi.

Številke

Tu je neposredna primerjava na generacijo:

Metrika	Gemini 3	Gemini 3.1
Povpr. čas	1m 24s	3m 28s
Povpr. cena	$0.14	$0.37
Stopnja napak	0.29	0.29

Gemini 3.1 je 2,5x počasnejši in 2,6x dražji. Stopnja napak je identična do druge decimalke natančno. Ne "približno ista". Popolnoma ista.

Počasneje ne pomeni bolje

So modeli iz 3.1 kanček boljši? Ja, mogoče. To jim priznam. Ampak razlika v kvaliteti je zanemarljiva in ko upoštevaš, kaj plačaš za to majhno prednost (tako pri času kot pri denarju), se računica podre.

Pomisli na to tako: v času, ki ga Gemini 3.1 potrebuje, da zaključi eno generacijo, lahko pošlješ dva poziva modelu Gemini 3. Dva poskusa, da dobiš tisto, kar hočeš, z isto stopnjo napak na poskus. Če prvi ni povsem pravi, iteriraš. Dva poskusa z Gemini 3 ti bosta skoraj vedno prinesla boljši rezultat kot en sam poskus z Gemini 3.1, pa še stalo te bo manj ($0.28 proti $0.37).

Uporabnikom raje dam možnost hitre iteracije, kot da jih pustim čakati 3,5 minute na malenkost lepši rezultat.

Problem s stroški

To je druga polovica enačbe. GrandpaCAD že zdaj posluje z izgubo. Vsaka generacija me stane več, kot uporabniki plačajo. To je namerna stava: računam, da bodo stroški inference še naprej padali, kar zgodovinsko gledano počnejo. Ampak ta stava deluje samo, če mi vmes ne odteka denar.

Skok na Gemini 3.1 bi skoraj potrojil moj strošek na generacijo. Pri $0.37 na generacijo poslovni model nima več nobenega smisla. Tudi ob optimističnih napovedih o prihodnjih znižanjih cen je razkorak prevelik.

Lahko prebavim $0.14 na generacijo, medtem ko nas trg dohiteva. $0.37 je povsem druga zgodba.

Kdaj bi zamenjal?

Če Google približa ceno in latenco različice 3.1 tistemu, kar danes ponuja 3.0 (ali vsaj blizu tega), bom ponovno zagnal evalvacije in premislil. Izboljšanje v kvaliteti bi bilo, čeprav majhno, z enako ceno vredno prehoda. Ampak trenutno se kompromis ne splača.

Spremljam tudi Gemini 4 in karkoli bo naslednjega izdal OpenAI. Evalvacijskemu sistemu je vseeno za zvestobo znamki. Tisti model, ki generira najboljše 3D modele pri razumni ceni in hitrosti, zmaga. To je glavno bistvo uvedbe evalvacijskega sistema.

Preizkusi sam

Gemini 3 je trenutno aktiven na GrandpaCAD. Če želiš videti, kaj zmore, pojdi in nekaj ustvari.

Ustvari 3D model z Gemini 3

Zakaj ne nadgrajujemo na Gemini 3.1

Ko je zato Google izdal Gemini 3.1, sem naredil to, kar storim vedno: čez njega sem pognal svojo evalvacijsko zbirko.

Rezultati so bili... neprepričljivi.

Metrika

Gemini 3

Gemini 3.1

Povpr. čas

1m 24s

3m 28s

Povpr. cena

$0.14

$0.37

Stopnja napak

0.29

Počasneje ne pomeni bolje

Uporabnikom raje dam možnost hitre iteracije, kot da jih pustim čakati 3,5 minute na malenkost lepši rezultat.

Problem s stroški

Lahko prebavim $0.14 na generacijo, medtem ko nas trg dohiteva. $0.37 je povsem druga zgodba.

Kdaj bi zamenjal?

Zakaj ne nadgrajujemo na Gemini 3.1

Številke

Počasneje ne pomeni bolje

Problem s stroški

Kdaj bi zamenjal?

Preizkusi sam

Sketch mode: draw your part to scale and we compile it

OpenSCAD proti CadQuery proti Build123d: kateri CAD pogon lahko umetna inteligenca dejansko piše?

Organic Mode je pravkar postal ostrejši, hitrejši in zanesljivejši

Priročnik, ki sem ga naredil, da bi moj dedek lahko uporabljal AI CAD

Javna LLM merila so večinoma nesnaga

Kako zaslužiti z 3D-tiskalnikom (dolgočasna matematika)

Nehajte spreminjati velikost AI modelov. Nastavitve tiskalnika nastavite enkrat.

Nadgradili smo na Gemini 3.1 (in zakaj smo si premislili)

Predstavitev Organic Mode

Brezplačna orodja in kalkulatorji za 3D tiskanje

Blender proti OpenSCAD proti JSCad proti JSON: izbira najboljšega pogona za pretvorbo LLM v CAD

Poenostavljeno 3D tiskanje z BambuLab

Slika v 3D model: Nariši, skeniraj, natisni

Večbarvno 3D tiskanje z umetno inteligenco

Kako deluje

Primerjava najsodobnejših LLM-jev za generiranje 3D

Kako narediti svoje modele prilagodljive

Kako testiramo agenta za 3D modeliranje

Selitev na Blender

Dobrodošli v GrandpaCAD Beta! Tukaj je, kar morate vedeti

Dnevnik sprememb

Paddle proti Polaru za naročnine na umetno inteligenco in obračunavanje po uporabi

GrandpaCAD: Moj dedek, umetna inteligenca in stanje CAD

Kako je dedek dobil nazaj svojo ustvarjalnost: kako mu je umetna inteligenca pomagala znova ustvarjati

GrandpaCAD: za tisk in medije

Zakaj ne nadgrajujemo na Gemini 3.1

Številke

Počasneje ne pomeni bolje

Problem s stroški

Kdaj bi zamenjal?

Preizkusi sam