Drugi blogi
Pred dvema tednoma sem napisal cel članek o zakaj ne nadgrajujemo na Gemini 3.1. Številke so bile jasne: 2,5x počasneje, 2,6x dražje, enaka stopnja napak. Lahka odločitev, kajne?
No, premislil sem si. GrandpaCAD zdaj teče na Gemini 3.1.
Tukaj je tisto, kar sem prvič spregledam. Moja prvotna primerjava je Gemini 3.1 poganjala na visokem proračunu razmišljanja, ker sem to uporabljam pri Gemini 3. Jabolka z jabolki, sem menil.
Izkazalo se je, da je bila to napačna primerjava. Gemini 3.1 na srednjem proračunu razmišljanja dejansko prekaša Gemini 3 na visokem proračunu razmišljanja. Naj to malo potone: manj razmišljanja, boljši rezultati.
To spremeni celotno enačbo iz mojega prejšnjega članka:
| Metrika | Gemini 3 (high) | Gemini 3.1 (medium) |
|---|---|---|
| Povp. stroški | $0.18 | $0.21 (~17% več) |
| Stopnja napak | 0.29 | ~0.15 (prepolovljena) |
| Kakovost geometrije | Deli pogosto nepovezani | Veliko boljša povezanost |
Namesto 2,6x dražje gledamo približno 17% več na generacijo. Stopnja napak se je zmanjšala za polovico. In geometrija je opazno boljša.
Skrb glede stroškov iz mojega prejšnjega članka? V osnovi izgine.
Izboljšava kakovosti, h kateri se vedno vračam, je to, kako dobro 3.1 razume, kako naj se geometrija povezuje. To je težko zajeti v rezultatu benchmarka. Model lahko dobi pravilno splošno obliko (dober adherence score), vendar še vedno proizvede dele, ki lebdijo v prostoru ali se sekajo med seboj. Stene, ki se ne dotikajo osnove. Ročice, ki lebdijo poleg ramen. Kljuka, ki sedi znotraj hrbtne plošče namesto da štrli iz nje.
Tukaj je konkreten primer. Oba modela sem prosil, da generirata stenski nosilec za slušalke.

Levo je Gemini 3. Vidite, kako se kljuka ne poveže pravilno s stensko ploščo? Geometrija je tehnično tam, ampak kosi niso združeni. Ta vrsta stvari se je z Gemini 3 dogajala približno 4 od 5-krat pri modelih, ki so zahtevali, da se deli povežejo na določenih točkah.
Desno je Gemini 3.1. Kljuka se razteza iz hrbtne plošče kot en povezan kos. Čista povezava, tiskalna brez podpor na tem področju. Z 3.1 je ta vrsta geometrijskega problema padla na približno 1 od 5 poskusov.
To je del, ki se mi zdi resnično zanimiv. Pričakoval bi, da vedno višji proračun razmišljanja proizvede boljši rezultat. Pri Gemini 3 je bilo to večinoma res. Ampak pri 3.1 srednji proračun očitno zadane sweet spot, kjer model razmišlja dovolj, da dobi pravilno geometrijo, ne da bi preveč razmišljal in se zatekel v napake.
Visoki proračun razmišljanja pri Gemini 3 je dejansko proizvedel več napak kot srednji pri 3.1. Nimam dobrega razlage zakaj, ampak vzorec je bil dosleden skozi testiranje. Več računanja ne pomeni vedno boljših rezultatov, in 3.1 očitno uporablja svoj proračun razmišljanja bolj učinkovito.
Želim biti transparenten: še nisem pognal polnega eval paketa na tem. Zgornje izboljšave so iz praktičnega testiranja, ne strogega benchmarking procesa, ki sem ga opisal v kako testiramo 3D modelirnega agenta. Polne številke bodo sledile kmalu.
Kar lahko rečem iz testiranja do zdaj je, da kombinacija boljše geometrije, nižjih stopenj napak in zmerne povečanja stroškov naredi to nadgradnjo enostavno. Če polni benchmarki temu nasprotujejo, bom o tem pisal.
Gemini 3.1 je v živo na GrandpaCAD zdaj.