Nadgradili smo na Gemini 3.1 (in zakaj smo si premislili)

Pred dvema tednoma sem napisal cel članek o zakaj ne nadgrajujemo na Gemini 3.1. Številke so bile jasne: 2,5x počasneje, 2,6x dražje, enaka stopnja napak. Lahka odločitev, kajne?

No, premislil sem si. GrandpaCAD zdaj teče na Gemini 3.1.

Trik s proračunom razmišljanja

Tukaj je tisto, kar sem prvič spregledam. Moja prvotna primerjava je Gemini 3.1 poganjala na visokem proračunu razmišljanja, ker sem to uporabljam pri Gemini 3. Jabolka z jabolki, sem menil.

Izkazalo se je, da je bila to napačna primerjava. Gemini 3.1 na srednjem proračunu razmišljanja dejansko prekaša Gemini 3 na visokem proračunu razmišljanja. Naj to malo potone: manj razmišljanja, boljši rezultati.

To spremeni celotno enačbo iz mojega prejšnjega članka:

Metrika	Gemini 3 (high)	Gemini 3.1 (medium)
Povp. stroški	$0.18	$0.21 (~17% več)
Stopnja napak	0.29	~0.15 (prepolovljena)
Kakovost geometrije	Deli pogosto nepovezani	Veliko boljša povezanost

Namesto 2,6x dražje gledamo približno 17% več na generacijo. Stopnja napak se je zmanjšala za polovico. In geometrija je opazno boljša.

Skrb glede stroškov iz mojega prejšnjega članka? V osnovi izgine.

Boljša geometrija, manj pokvarjenih delov

Izboljšava kakovosti, h kateri se vedno vračam, je to, kako dobro 3.1 razume, kako naj se geometrija povezuje. To je težko zajeti v rezultatu benchmarka. Model lahko dobi pravilno splošno obliko (dober adherence score), vendar še vedno proizvede dele, ki lebdijo v prostoru ali se sekajo med seboj. Stene, ki se ne dotikajo osnove. Ročice, ki lebdijo poleg ramen. Kljuka, ki sedi znotraj hrbtne plošče namesto da štrli iz nje.

Tukaj je konkreten primer. Oba modela sem prosil, da generirata stenski nosilec za slušalke.

Primerjava stenskega nosilca za slušalke Gemini 3.0 vs Gemini 3.1

Levo je Gemini 3. Vidite, kako se kljuka ne poveže pravilno s stensko ploščo? Geometrija je tehnično tam, ampak kosi niso združeni. Ta vrsta stvari se je z Gemini 3 dogajala približno 4 od 5-krat pri modelih, ki so zahtevali, da se deli povežejo na določenih točkah.

Desno je Gemini 3.1. Kljuka se razteza iz hrbtne plošče kot en povezan kos. Čista povezava, tiskalna brez podpor na tem področju. Z 3.1 je ta vrsta geometrijskega problema padla na približno 1 od 5 poskusov.

Zakaj nižje razmišljanje deluje bolje

To je del, ki se mi zdi resnično zanimiv. Pričakoval bi, da vedno višji proračun razmišljanja proizvede boljši rezultat. Pri Gemini 3 je bilo to večinoma res. Ampak pri 3.1 srednji proračun očitno zadane sweet spot, kjer model razmišlja dovolj, da dobi pravilno geometrijo, ne da bi preveč razmišljal in se zatekel v napake.

Visoki proračun razmišljanja pri Gemini 3 je dejansko proizvedel več napak kot srednji pri 3.1. Nimam dobrega razlage zakaj, ampak vzorec je bil dosleden skozi testiranje. Več računanja ne pomeni vedno boljših rezultatov, in 3.1 očitno uporablja svoj proračun razmišljanja bolj učinkovito.

Polni benchmarki prihajajo

Želim biti transparenten: še nisem pognal polnega eval paketa na tem. Zgornje izboljšave so iz praktičnega testiranja, ne strogega benchmarking procesa, ki sem ga opisal v kako testiramo 3D modelirnega agenta. Polne številke bodo sledile kmalu.

Kar lahko rečem iz testiranja do zdaj je, da kombinacija boljše geometrije, nižjih stopenj napak in zmerne povečanja stroškov naredi to nadgradnjo enostavno. Če polni benchmarki temu nasprotujejo, bom o tem pisal.

Preizkusi sam

Gemini 3.1 je v živo na GrandpaCAD zdaj.

Ustvari 3D model z Gemini 3.1

Nadgradili smo na Gemini 3.1 (in zakaj smo si premislili)

Trik s proračunom razmišljanja

Boljša geometrija, manj pokvarjenih delov

Zakaj nižje razmišljanje deluje bolje

Polni benchmarki prihajajo

Preizkusi sam

Sketch mode: draw your part to scale and we compile it

OpenSCAD proti CadQuery proti Build123d: kateri CAD pogon lahko umetna inteligenca dejansko piše?

Organic Mode je pravkar postal ostrejši, hitrejši in zanesljivejši

Priročnik, ki sem ga naredil, da bi moj dedek lahko uporabljal AI CAD

Javna LLM merila so večinoma nesnaga

Kako zaslužiti z 3D-tiskalnikom (dolgočasna matematika)

Nehajte spreminjati velikost AI modelov. Nastavitve tiskalnika nastavite enkrat.

Predstavitev Organic Mode

Zakaj ne nadgrajujemo na Gemini 3.1

Brezplačna orodja in kalkulatorji za 3D tiskanje

Blender proti OpenSCAD proti JSCad proti JSON: izbira najboljšega pogona za pretvorbo LLM v CAD

Poenostavljeno 3D tiskanje z BambuLab

Slika v 3D model: Nariši, skeniraj, natisni

Večbarvno 3D tiskanje z umetno inteligenco

Kako deluje

Primerjava najsodobnejših LLM-jev za generiranje 3D

Kako narediti svoje modele prilagodljive

Kako testiramo agenta za 3D modeliranje

Selitev na Blender

Dobrodošli v GrandpaCAD Beta! Tukaj je, kar morate vedeti

Dnevnik sprememb

Paddle proti Polaru za naročnine na umetno inteligenco in obračunavanje po uporabi

GrandpaCAD: Moj dedek, umetna inteligenca in stanje CAD

Kako je dedek dobil nazaj svojo ustvarjalnost: kako mu je umetna inteligenca pomagala znova ustvarjati

GrandpaCAD: za tisk in medije

Nadgradili smo na Gemini 3.1 (in zakaj smo si premislili)

Trik s proračunom razmišljanja

Boljša geometrija, manj pokvarjenih delov

Zakaj nižje razmišljanje deluje bolje

Polni benchmarki prihajajo

Preizkusi sam