GrandpaCAD: AI-Powered 3D Modeling for Everyone | GrandpaCAD

Sort by:

Filter by tags:

21 × 1 = 21 runs

Opus 4.7 with one visual fix

Attempting with one visual fix

openscad0.2active

23 × 1 = 23 runs

openscad engine (1 attempt)

model gemini-3.5-flash, thinking low

gemini-3.5-flashThinking lowopenscad0.2

23 × 3 = 69 runs

VERIFY attempts=3 gemini-3.5-flash low + all hardening 2026-06-15

model gemini-3.5-flash, thinking low

gemini-3.5-flashThinking lowbuild123d0.2

23 × 1 = 23 runs

build123d · gemini-3.1-pro (medium thinking)

model gemini-3.1-pro, thinking medium

gemini-3.1-proThinking mediumbuild123d0.2

23 × 1 = 23 runs

gemini-3.5-flash openscad thinking medium (no judge)

model gemini-3.5-flash, thinking medium

gemini-3.5-flashThinking mediumopenscad0.2

23 × 1 = 23 runs

cheap eval gemini-3.5-flash + generated API ref 2026-06-15

model gemini-3.5-flash, thinking low

gemini-3.5-flashThinking lowbuild123d0.2

23 × 1 = 23 runs

cheap eval gemini-3.5-flash thinking=high + API ref 2026-06-15

model gemini-3.5-flash, thinking high

gemini-3.5-flashThinking highbuild123d0.2

23 × 1 = 23 runs

opus-4.8 thinking-low cheap (no judge)

model claude-opus-4.8, thinking adaptive, effort low

claude-opus-4.8Thinking lowbuild123d0.2

23 × 1 = 23 runs

cheap eval gemini-3.5-flash thinking=medium + API ref 2026-06-15

model gemini-3.5-flash, thinking medium

gemini-3.5-flashThinking mediumbuild123d0.2

23 × 1 = 23 runs

cheap eval fable-5 low-effort 2026-06-11

model claude-fable-5, thinking adaptive, effort low

claude-fable-5Thinking lowbuild123d0.2

23 × 1 = 23 runs

glm-5.2 cheap, no reasoning (no judge)

model glm-5.2, reasoning none

glm-5.2Thinking nonebuild123d0.2

23 × 1 = 23 runs

glm-5.2 cheap (no judge)

model glm-5.2, reasoning high

glm-5.2Thinking highbuild123d0.2

23 × 1 = 23 runs

cheap eval gemini-3.5-flash 2026-06-15

model gemini-3.5-flash, thinking low

gemini-3.5-flashThinking lowbuild123d0.2

23 × 1 = 23 runs

gpt-5.5 medium cheap (no judge)

model gpt-5.5, reasoning medium

gpt-5.5Thinking mediumbuild123d0.2

Other Stats

Average R-squared

10.57%

What is the average R-squared of all the runs? This tells us linear regression alignment human vs AI. 100% means AI perfectly predicts a human vote. 0% means AI doesn't predict it at all.

Combined R-squared

17.14%

When we set the model according to all pairs from all runs what is the R-squared?

Eval Runs

82

Total number of evaluation runs.

Total Cost of All Evals

$530.35

The sum of costs for all evaluation runs.

Average Cost per Test Run

$6.47

The average cost of a single evaluation run.

Total Duration of All Evals

5642m 48s

The sum of durations for all evaluation runs.

Average Duration per Test Run

68m 49s

The average duration of a single evaluation run.

All Generations

2597

The sum of all generations for all evaluation runs.