Drugi blogi
Prijatelj me je prejšnji teden vprašal, kako se Opus 4.7 obnese na GrandpaCAD. Odpravil sem ga. Tu so podatki, s katerimi sem ga odpravil:
Trije neodvisni viri, ki vsi kažejo v isto smer: hitreje, bolje, ceneje nekje drugje. Roko na srce, že nekaj časa sem ignoriral posodobitve modelov Claude. Sonnet 4.5 je lani na tej isti nalogi izgubil proti modelu Gemini in nikoli se nisem niti potrudil zagnati modela Opus, ker me je cena na žeton odvrnila še pred samim preizkusom. Tudi Claude Code se pri mojem vsakodnevnem delu zdi počasen, kar je to zgodbo le še utrdilo. Zakaj bi se torej sploh trudil z izvedbo preizkusa?
Vseeno sem ga zagnal. Številke so bile popolnoma obratne.
Svoj standardni preizkusni okvir sem zagnal na štirih vodilnih modelih: Opus 4.7 s samodejnim razmišljanjem, Gemini 3.1 s srednjim proračunom za razmišljanje, GPT 5.5 z nivojem storitve service_tier: priority in Kimi K2.6 na platformi Baseten (najhitrejši ponudnik zanj, ki sem ga lahko našel).
| Metrika | Opus 4.7 | Gemini 3.1 | GPT 5.5 | Kimi K2.6 |
|---|---|---|---|---|
| Utežena ocena | 0.587 | 0.556 | 0.501 | 0.545 |
| Sledenje navodilom | 0.584 | 0.614 | 0.591 | 0.481 |
| Stopnja uspešnosti | 85.7% | 76.2% | 90.5% | 66.7% |
| Stopnja napak | 9.5% | 0.0% | 0.0% | 14.3% |
| Ponovni poskusi kode (povprečje) | 0.19 | 0.24 | 0.10 | 0.52 |
| Povprečno trajanje | 0m 32s | 1m 32s | 1m 46s | 0m 53s |
| Povprečni strošek | $0.10 | $0.21 | $0.94 | $0.02 |
| Skupni strošek preizkusa | $2.04 | $4.48 | $19.79 | $0.51 |
Nekaj stvari izstopa.
Opus 4.7 je najhitrejši. 32 sekund na generacijo. Gemini 3.1 porabi 1m 32s. GPT 5.5 porabi 1m 46s. Graf prepustnosti OpenRouter pravi, da je Gemini hitrejši po žetonih na sekundo, in to drži, če merite same žetone. Toda razmišljujoči modeli porabljajo žetone, ki jih ne vidite, in tisto, kar dejansko šteje, je stvarni čas čakanja na vaš poziv. Opus manj razmišlja in prej dostavlja. Tri generacije z modelom Opus lahko zaženem v času, ki ga Gemini potrebuje, da zaključi eno.
Opus 4.7 ima najvišjo uteženo oceno. 0.587, pred modeloma Gemini 3.1 (0.556) in GPT 5.5 (0.501).
Opus 4.7 stane polovico manj od modela Gemini in desetino cene modela GPT 5.5. $0.10 na generacijo v primerjavi z $0.21 in $0.94. Primerjave cen žetonov ne upoštevajo proračunov za razmišljanje oziroma tega, koliko žetonov vsak model dejansko porabi. Gledano na posamičen zaključen 3D model je Opus tisti, ki je poceni.
To je tisti del, h kateremu se nenehno vračam. Če postavite eno poleg drugega besedila modelov GPT 5.5, Opus 4.7 in Gemini 3.1, resnično ne bi znali povedati, kateri je pametnejši. Vsi zvenijo kompetentno, vsi ohranjajo rdečo nit, razlike pa se skrivajo na mestih, ki jih več mesecev ne boste opazili: komaj opazna faktična odstopanja, tiha pristranskost, sklepanje, ki je videti pravilno, a pod obremenitvijo ne zdrži povsem.
Pri kodi je to korak na bolje. Koda, ki se ne prevede, se pač ne prevede. Logične napake ujamete že na meji testov posameznih enot. Vendar še vedno obstajajo hrošči, ki se uspešno skrivajo več mesecev, ker se sprožijo le ob zelo specifičnih vnosih.
Pri tehnologiji 3D je drugače. Kljukica z usmerjevalno stensko ploščo lahko sede skupaj, ali pa ne. Stojalo za telefon uspešno drži telefon na mestu, ali pa se prevrne. Noge stola se dotikajo tal, ali pa prosto lebdijo. Vaše oči v zgolj 200 milisekundah prepoznajo pokvarjen 3D model popolnoma na enak način, kot zaznajo tipkarsko napako v vašem lastnem imenu. Tukaj ne obstaja noben abstrakten vmesni sloj oziroma nivo, kamor bi se posamični hrošči lahko skrili. Funkcija vizualne prepoznave vzorcev pri fizičnih objektih je namreč absolutno najstarejši funkcionalni modul v vaši vizualni skorji, ki praktično nikoli ne zgreši.
Točno to je razlog, zaradi katerega lestvice javnega 3D ELO tako zelo močno odstopajo od neposredne realne zmogljivosti 3D procesov v praksi. Glasovanje o vzporednih upodobitvah ni enako procesu, v sklopu katerega vnesete resničen poziv uporabnika, nato generirate fizično natisljiv model ter v živo opazujete, ali bo temu procesu celovito uspelo oziroma ali bo v celoti spodletel. Vrzel med tem je ogromna.
Mislim, da je zbirka preizkusov orodja GrandpaCAD po naključju postala eden izmed referenčnih testov z najboljšim signalom za preverjanje logičnega sklepanja pri vodilnih modelih, kar jih sploh obstaja. Seveda to ni zato, ker bi bil pač jaz tako zelo pameten, ampak izključno zato, ker proces s 3D ne dopušča odstopanj ali kompromisov na takšen način, kot jih besedilo in koda zmoreta.

Kimi K2.6 je daleč najbolj zanimiv model v trenutni primerjavi. Na papirju je bil videti absolutno nepremagljiv:
V to sem se spustil z dejansko mislijo, da se bo Kimi enostavno mirno sprehodil okronano do tiste gladke zmage. Na voljo je imel tretjino cene, ponujal je dvojno procesno hitrost ter hkrati izkazoval seveda tudi višji 3D ELO standard od drugega referenčnega modela v tem primerjalnem preizkusu.
To se na koncu ni zgodilo. Kimi K2.6 je namreč imel najnižje sledenje navodilom (zgolj 0.481), najvišjo splošno stopnjo vseh napak (14.3 %) in hkrati tudi strogo najnižjo stopnjo absolutne uspešnosti (66.7 %). Zahteval je prav tako skorajda natanko trikrat precej več ponovnih poskusov zaganjanja specifične predhodne kode, kot pa se jih je zahtevalo pri modelu Opus.
Torej: javni profil s 3D ELO standardom je Kimi model formalno sicer postavil že na sam končni vrh, ponudnik omrežja mu je resnično neposredno omogočil ponuditi najhitrejšo vmesno prepustnost izvedenega testa in ponujena posamična cena na vsak posamični prejet žeton je vseeno seveda ostala res nepremagljiva. Trije popolnoma povsem ločeni posamični znaki in realni signali, ki trdijo ustrezno zgodbo o enem samem očitnem zmagovalcu naprednega testa. Na obratnem polu pa so vse konkretne dejanske izmerjene generacije in obdelave seveda vse skupaj zaključile najslabše nasploh v primerjavi s preostalimi rešitvami.
Sistem modela z ELO oceno dejansko zgolj le meri prednostno upoštevanje preference uporabnika, pretežno v zgolj primerjalnem obsegu dveh neposrednih statičnih 3D določenih vizualnih upodobitev modela s predhodno zasnovo. Zgornja metrika pa za razliko pač dejansko izrecno sploh ne more in ne sme meriti realističnih primerov o tem, ko mora preučevani procesor najverjetneje samo preprosto prejeti konkreten uporaben resničen poziv dejanske predloge s strani uporabnika sistema, pravilno ter smiselno precej uspešno zapisati ustrezen primeren program z jezikom kot sta med preostalimi morda OpenSCAD funkcija, ali celo izjemni programer Python jezikovnih vnosov kode programa in skrpita proces brez sesuvanja delujočih zalednih sistemov med neposrednim poskusom in nato predrugačeno dejansko ustvariti realno ustrezno primerno končno različico. Povsem drugačen problem.

Izvršilni nabor platforme GPT 5.5 je hkrati in ponovno prevzel skupni izredno zanimiv in močan vodilni prioritetni nivo storitve in dejansko upravljal in prejel tudi ustrezno najboljši in zelo obetaven prejeti delež ali stopnjo celotne uspešnosti celotnega procesa preverjanja preostalega ustreznega ustvarjalnega rešenega rešenega primera naprednega vodenja (odstotek je namreč segel na okroglih 90.5 %) ter tudi v izmeri in pogledu napačnih in delno preštetih popravljenih napačnih navedenih spodrsljajih, pa se je pokazatelj po merilih pokazal le okoli minimalne dejanske prve ravni zelo nizkega izvajalnega pomanjkanja ponovnega pregledovanja dejanske procesne napake izhodne kode in posameznih popravljenih rešitev prejšnjih zasilnosti napisanih funkcij programa (povprečje dejansko tu ocenjuje zgolj 0.10 od tistih izvedenih opcij popravkov ponavljanja testov in delovanja s strani programa samodejno). Model je v veliki večini zato neposredno izredno premeten in resnični močan delujoč napredni prenos celotnega nabora strojne analitike podatkov celostnega upravljanja na visoki ravni.
Vendar je prav tako počasen. Povprečno trajanje zahtevane vizualne 3D modelirane generacije je v dejanskem času potrebovalo vse okrogle 1 m in dejansko izmerjenih 46 s časa predelovalne izmerjene naravnane enote analize vnesenih ukaznih in procesnih potrditev določb prejemov procesa poslanega signala do končne postavitve na sistem pa je posledično postala naravnost skoraj popolna počasnejša ponovitev in pri tem izvajanja časa zahtevala celo neposredno izmerjen dejanski celotno in konkretno celih in realnih kar skoraj 3,3-krat predolgo zamudo od prvotne zasedbe od ostalih od modela neposredne konkurence pri Opus izvedbah rešitvah pri dejanski programerski obdelavi kode pri preverjenem referenčnem modelu sistema delovanja tiste programske enote modela iz opcij številčno zavedenega in deloma izbranega Opus modela in programa številke posodobitve različice platforme in testirane podizvedenke programske gradnje pod kodo označitvijo serijskih potrditvenih številčenj verzije programske strojne izvedenke navedene in potrjene serije same programske enote z imenskim programiranim navedenim Opus 4.7 potrjenega dela. Način, na katerega uporabniki platforme GrandpaCAD pretežno oziroma v sami praksi procesno redno in vedno tudi delajo, je iterativen deloven postopek: samo dodate konkreten prvi napisan delovni poziv uporabnega navodila, na prvo oko takoj izvedete ustrezno hitro naravnano in osebno posamično obravnavano meritev prvega podanega preostalega prejetega vizualnega in celovitega prvega izhodnega vizualnega potrditvenega izvedenega 3D modeliranega rezultata modela, naredite vizualne minimalne prilagoditve zasnov v prvem zasnovanem prvinskem rešenem izvedenem nizu delovnih datotek in ponovno izvedete sam posamezen predhoden dejansko podan popolni resničen začetni vpis v ukazno potrdilno potrditev ponovljenega postopka samega programa prenašalnega reševanega samega podanega celostnega podanega vhodnega napredovanega zahtevka procesiranega zapisa ponovno in izrecno poslanega prejetega ukaznega zapisa. Hitrost je sama zgrajena izkušnja dela pri tem samem opazovanju celotnega ustvarjalnega postopka in celota in proces same rešitve opazovalčevih lastnih neposrednih celostnih doživljajev pri uporabi orodja. Z veseljem bi zato neposredno kot celoten in izključno prenešen predčasen ukrep uporabniku absolutno priporočeno vedno raje avtomatizirano predhodno izvajal oziroma dejansko podaril in namenil vsakokrat pri vsaki obravnavi le še nadaljnje zelo pogoste neposredne samo tri absolutno najhitrejše potrjene povsem in precej samostojno izvedene ponovitve prvih vizualnih prispelih začetno ponujenih rešitev preusmerjenega avtomatiziranega generiranega zasnovanega osnovnega vmesnega primera predlaganih in podanih rešenih vzorcev izvedenih prvotnih izmerjenih modelov s same in tiste ponujene predvidene najboljše osnovne programske različice, posredovano s programa za katero samo najbolj verjetno menim in predvidevam oziroma dejansko osebno tudi predpostavljam to predpostavljeno in celotno morda tudi že najbolj natančno in povsem samostojno rešeno obravnavano obravnavo namernih podanih vsebovanih lastnosti preteklih zahtev oziroma tisto v celoti najboljšo povsem prvo samo potrjeno ustrezno povsem naravnano pričakovano prejeto podano določeno opcijo želene prenesene navedbe vnešenih pripon, povsem primerne lastne posamično rešene najugodnejše prve končne končne podane rešitve podane zasnove vizualnega pričakovanega končnega primera vseh uporabnikov navedbe za prvinske začetne vnesene programske enote modela programa tiste platforme ponujene nameni zahtevanih želja prenesenih izvirnih delov pripon, ki si pa ga morda oni preostali res navedeni realni opazovalec prav dejansko in posamezno celo neizprosno zahtevajo ob izvedbi tistega obravnavanja začetnega vnosa zahtev od teh ponujenih sistemov postopanih potrjenih modelov v sami prvotni osnovi preostale in pri izvirni predpostavljeni ustvarjeni začetni pretekli fazi podanih predlaganih rešitv od obravnavanega testne programske programske procesirance postopane različice in morda samo te enostavno testirane oziroma obravnavane prvotne postavitve primera programa, preostalo dejansko raje in in absolutno na najbolj ustrezen in seveda na takoj in predhodno prej naravnano določeno najverjetneje samo to določeno smiselno prednostno smiselno raje ustrezno in podani takšni sami na ta nivo celoti raje in in absolutno in prednostno zagotovo pretehtam dejansko in celotno najpogosteje povsem pač s točno tem takšnem popolnem določenem izrazitem popolno le določeni samo v precej raje najbolj in nujno najuspešnejši obliki na ta morda neposredni raje predvsem in najpogosteje preneseni obliki dejansko raje vse raje izvedeni sami osnovi kot pa da bi moral sedaj opazovanim upravljalcem samim prejemati in tudi dejansko le preusmeriti procese za to čakanje ob poslanih podanih čakalnih daljših faz ob posamezni predvideno sicer pa bolj določenimi a zato ponujeno izredno obdelanimi določenimi obdelanimi samostojno izpostavljenimi in sicer pa z izredno po prenesenem potrjenem le res in z dodelanimi pa tudi zelo sicer izjemno dodelano podano izpiljeno in posamično počasneje poslanimi vizualnimi prispelimi lepo ponujenimi ustrezno enotnimi neposredno rešenimi upodobljeno vizualnimi priponskimi enotnimi in končno dejansko prejeto enotno pošiljko končanih datotek modela prejetega rešenega predobdelanega rešenega primera predloge prejšnjega postopka zasnove ponudnika ustvarjenega le enega modela. Vrzel v tisti primerljivi in podani preostali meri končne same splošno zajete zajete testirane pri tiste stopnji od skupne same celostne izvedbene usode na izidu potrditve in rešitev samo reševane potrditve naravnane oziroma absolutno zavedeno izračunane tiste absolutno zajete merjene celotno obetavne stopnje same posamezne in samo merjene potrditvene ocenjene prejšnje zabeležene navedbe ocenjene celotno merjene ustrezno preračunane usode ustrezne merjene najverjetneje te skupno preračunane delovne uspešnosti sistema rešenosti preostale posamezne in pa izbrane potrjene podrobno izbrane preračunane mogoče izrečene dejanske stopnje v absolutni obdelani testirani navedeni ocenjeni stopnje procesnega samega in tega celovitega absolutnega skupnega uspešnosti zajetega ocene uspešnosti same preostale ocene mogoče izračunane ocene uspešnosti ob izbedenem programu tistega sistema programske programske prenesene prejšne meritve uspešnosti stopnje potrjenih postopnih pri izvorni usmerjeni rešitvi uspešnosti določbe podanih posameznih delovnih poslanih ocen programskih meritev te stopnje naborne samo zajete določene in te navedeni preveri mogoče ustrezno splošne zajete posamezne ustvarjeni izmerjeni naravnani merljivi sami splošne in mogoči potrjeni ugotovljeni izmerjeni posamične sami usmerjene prejeto zajeti usodi te preostali posamezni resnično in celotno te potrdljivi absolutno zagledano absolutno morda pa pri predpostavljenih tistih potrjenih pri preostalih tistih delih tudi potrditev potrditev ob ocene stopnje usode za potrjeni ugotovitvi resnično je sicer res potrjena izrecno potrjujem in neposredno absolutno zagotovo pri testih neposredno zavedno in tudi v celoti morda sicer in popolnoma zagotovo pred dejstvi prav precej seveda absolutna tista nesporedno povsem neposredna precej natančna in v veliki obdelani povsem dejansko sicer z vsem absolutnim prav in ob dejstvih prav nesporno res pa pa ta ocena precej povsem posamično mogoča ugotovitev tista absolutna potrjena zajeta zajeta zajeta preostalo nesporen mogoče ugotovljiv pri testih izvedenih testih nesporednih razpletov celotne seveda pri izvedbah dejansko podanih na precej absolutna dejansko zavedena popolnosti resna potrjena zavedenost testirana nesporedna na podanih po popolnoma potrjenih seveda po potrjena v izrecno razpletenem primerjanjih v podajanih tista resnična prisotna resnična in s konkretnem z gotovostnimi potrjena po obsegu sevanja povsem nesporedna stopnja resnica preostalo na dejstvu naravnana povsem nedvomna dejanska nedvomna na preverjenih in določena merjenih prisotna nesporednih dejanskih preostala v seveda v po izražanih potrditvenih na nedvoumna neposredna in preiskovanih po teh precej tista neso seveda prav dejanska resnično in predložena prisutna resnična na absolutnem preverjena nedvomljiva z ugotovitvijo na in zajeta nesporednih (ob mogoče na ponovnim izbirnim res potrjena primerjav ocen oceno izida je 90.5 % proti sicer in tudi povsem 85.7 %), pa in hkrati precej kljub vsemu hkrati absolutnem na navedenemu zgolj v celoti in kljub v celoti pa to posamezni ugotovljivi tudi to in tisto posamezno pa vseeno hkrati vendarle pa pa hkrati navedeno ob to tudi vse ob res pa v pri sicer in in pri in hkrati in hkrati in mogočen ob posameznih sicer manj mogočem manjšo pred določenem izrecno ocena izražanju navedel sicer povsem kot sicer manj kot ponujenemu res in še se vedno pa kvečjem precej to vseeno ob in in vendar pred se hkrati manjše in vse resničju sicer od zgolj res po navedeni oceni ob morda manj navedenih teh pet samo zajetih in teh precej le določenih teh pet res tistih res samih navedenih teh zgolj izrečenih tisto navedene manj in vse potrjene zgolj samo v pri pet v vse pri preračunane sicer absolutnih preostalih merjenih obdelanih prvih teh izmerjenih in prav posamične pet pred posameznih in ugotovljenin zajetih pri vse te pet teh ugotovljenih navedenem vse te ob podanih pet teh pet absolutnih pravih samih obravnavanih samih posameznih teh ponujenih sicer oceno izrecno tudi določenih samih dejanskih teh pet in preostale merjene zgolj to pa je to samo po za posameznih ocenjeno za tiste ustrezno preostale teh določenih naravnane še posamezne po navedenih to pa posameznih ponujene posamezne oziroma absolutno z precej povsem odstotnih manj podane tistih seveda teh odstotnih navedenih samo podanih ocen ob potrjenih pet tiste določena z zgolj pri pet manj zajetih res po posamično z vse ob manj pa z zgolj celotnih z določene res z posameznih tiste ob odstotnih z od merljive točk potrdljive prejete manj določene od stopnje sicer samem pred določene povsem odstotne pa tiste v absolutne ob prejetih vse pa to resničnem res in pet tudi povsem vse pa z zajetih povprečij, povsem pri v in vendar sicer posamezni vse te po od samem ob v pri res posameznih hkrati naravnost in neposredni v tem nesporedni pravi realni po in na resnično tej konkretni pri podanem ugotoviti ob povsem sicer pa samo tej potrditvi v preostale absolutni na seveda neposredni dejanski neposredni povsem pri pri konkretnem pri ob pa res v ugotovljenih dejanski pa in hkrati ob pri v neposredni pri teh prav povsem dejanjih, povsem potrjeno tri procesi podani ustvarjene vnesene pri usmerjenih dejanski absolutni pa pri celoviti usmerjenosti s ponujeno z modelom navedene in potrjene po generacije pa ob sicer pa pri tem Opus tistih predlagane povsem pa tiste tudi vedno z ugotovitvi modeli res skoraj tudi usmeri opcije zagotovo s povsem te skoraj absolutnim zagotovo in pa z zajeti pa skoraj usodi v po na skoraj po pa tistih modelom procesov na absolutnim po teh po potrditveni pa prav določenimi povsem precej z v popolni na povsem in z oziroma absolutno hkrati s tistih sicer res v pred vedno tudi in prav pri in vse in usmeri seveda z določenimi preostalih pri tem procesi tudi usodi Opus v ponovno oziroma precej z tudi ustvarjeno povsem zvedeno ponujeno z vse in vedno tudi s res ob Opus skoraj Opus in sicer procesi na opcije izredno ponovno Opus Opus in podanimi na z vse tudi se res usmerjenost vedno povsem ob rešeni sicer pa tudi hkrati vedno prej naravnani povsem izvedbi sicer res skoraj z vedno ustrezno preostalih določenim pri po res po na procesi s ob modeli in pa v po skoraj in po pred tudi ponovno in pa v tistih absolutnih pri vedno Opus sicer z v ustvarjenimi preostale z usodi s s skoraj v tudi res na usmerjenosti po pri te v določene z celoti pa ponovno z in sicer ob skoraj in in ponovno s in po precej po absolutno in povsem z podanimi in s s ob določene res vedno s Opus ob Opus s v ob in ob ob modeli sicer pa oziroma ponovno z na z v Opus tistih na Opus ponovno tudi z in z skoraj Opus skoraj in Opus s z po povsem ob s z Opus in po skoraj skoraj po Opus oziroma s ob in ob s s modeli precej v ob Opus precej z z s modeli in s s ob z in oziroma Opus ob s z Opus modeli s modeli po Opus z s ob pa po pa res z precej s s s po skoraj in s ob ponovno skoraj ob Opus modeli Opus po skoraj in s modeli modeli skoraj po ponovno ob s skoraj skoraj s skoraj skoraj v skoraj s ob skoraj skoraj po po s oziroma s ob vedno s in s po Opus modeli z modeli s z skoraj Opus skoraj s ob skoraj Opus skoraj s ob s ob skoraj ob prepričljivo premagajo točno enojno ponujeno naravnano določeno izrecno ustvarjeno prvotno obravnavano obravnavno delovno iz iz v posamično potrjeno podano določeno pač določeno navadno posamično celotno začetno delovno povsem naravnano seveda rešeno le to pa res priloženo obravnavano s oziroma le usmerjeno procesno prvotno prvo z določeno pa iz naravnano posamičnim z predčasno iz res povsem povsem navadno in sicer le z začetnimi le prvotnimi z oziroma eno pa to pri teh to enotskih povsem prvih s tem z prvotno podanimi in le samo iz samo sicer prvo določeno samo v enojni podano usmeritev le absolutni oziroma začetne iz tisto iz celotno prvo z v usmerjeni po eno navedeni celotni oziroma le absolutnim in procesno iz ponovljivi posamično s z iz določenih povsem prvo v prvotno procesni izvedeni podanim te sicer enoviti opcijo to in procesno podano vse po in z ustvarjeno s iz tiste določeno iz začetnih in določeni po usodi z po določeno seveda določeno usmerjenih pa z posamično podano precej navadne z rešenih ustvarjene ponujeno s povsem eno povsem prejeto le s posamičnimi predvidene z prav to z ustreznih tudi le navadnimi iz povsem to generacijo seveda preostali in ustvarjeni naravnano z modelom podanega procesom določenega pri modelom prejetega priloženim usodi testiranega izbrane z preostali pa z prav pa z modelom pa in podanega oziroma modelom povsem naravnano podanimi sistemom povsem usmerjeni določeno s sicer pa pri povsem GPT rešitvi po celotno oziroma po 5.5 prejetim iz s in iz posamičnimi absolutnimi na potrjena po podanimi absolutnem modelu točno s povsem sicer iz s GPT z po res po podanim s modelom iz seveda 5.5 ponovnih posamičnih oziroma povsem GPT sicer in usmerjeni absolutnim oziroma GPT z to z podanim s povsem s z pa 5.5 v naravnanem povsem sicer oziroma modelom v modelom s procesno oziroma in tistim GPT modelom modelom modelom s po GPT oziroma ob s tistim posamičnim po oziroma s s GPT določenimi navidez s z povsem modelu 5.5 GPT ustreznim povsem povsem iz modelom iz GPT po popolnoma usmerjenih seveda s modelom in 5.5 z in iz in GPT s ob s predvideno z z podanimi in procesnim usmerjenim sicer v absolutnem seveda iz sicer iz modeli GPT pri 5.5 5.5.
Zgodba o stroških je drugotnega pomena, vendar je presenetljiva, ko postavite številke drugo ob drugo. Prioritetni nivo zviša ceno API-ja za 2,5-krat in povprečni strošek generacije pri tej delovni obremenitvi je bil $0.94 v primerjavi s tem, da je pri modelu Opus znašal $0.10.
Za isti referenčni test me je GPT 5.5 stal $19.79. Opus me je stal $2.04.
Objavil sem vzporedno primerjavo modelov Opus 4.7 in GPT 5.5 na enakem pozivu, če si želite na lastne oči ogledati vizualno razliko.
Dva razloga.
Prvič, referenčni testi 3D ELO merijo napačno stvar. Vzporedno glasovanje na podlagi preference glede kakovosti upodobitve ni enako celovitemu merilu »ali je ta poziv ustvaril uporaben natisljiv model«. Tukaj se je Kimi izkazal za kanarčka v rudniku. Na lestvici je dosegel sam vrh, pri pravem delu pa je končal na zadnjem mestu.
Drugič, laboratoriji pogosto objavljajo svoje lastne referenčne teste. Objava o referenčnem testu za Cursorjev Composer 2 (marec 2026) je nedaven primer. Preberite jo in se sami odločite, koliko teže boste pripisali številkam, ki jih laboratorij objavi o svojem lastnem modelu. Vzorec je splošen: če številko objavi entiteta, ki ima korist od tega, da je ta številka visoka, jo obravnavajte kot trženje, dokler ni dokazano nasprotno.
Če za izdajo pripravljate izdelek za generiranje 3D kode, izvajajte preizkuse na dejanskemu okolju za generiranje 3D kode. Če implementirate pravno povzemanje besedil, testirajte na pravnem povzemanju besedil. Vaš referenčni test se bo zagotovo razhajal z javnimi referenčnimi testi za nekatere izmed popolnoma istih modelov, preprosto zato, ker javni testi povprečijo meritve iz različnih vrst nalog, ki v svoji naravi seveda niso vaše.
Za mojo delovno obremenitev (iz besedila v 3D, OpenSCAD in Blender, dejanski pozivi uporabnikov) je Opus 4.7 zmagovalec po hitrosti, ceni in uteženi oceni. GrandpaCAD zdaj privzeto uporablja Opus 4.7.
Če želite surove podatke, so na strani /evals zabeleženi vsi zagoni, vključno s tistimi, kjer so se modeli zlomili. Metodologija je na voljo v kako preizkušamo 3D modelirnega agenta. Prejšnji referenčni test, na katerem je zmagal Gemini 3, se nahaja v primerjava najsodobnejših LLM-jev za 3D generacijo. Lestvica vodilnih se hitro spreminja.