Nous sommes passés à Gemini 3.1 (et pourquoi nous avons changé d'avis)

Il y a deux semaines, j'ai écrit tout un article sur pourquoi nous ne passions pas à Gemini 3.1. Les chiffres étaient clairs : 2,5 fois plus lent, 2,6 fois plus cher, même taux d'erreur. Décision facile, non ?

Eh bien, j'ai changé d'avis. GrandpaCAD tourne maintenant sur Gemini 3.1.

L'astuce du budget de réflexion

Voici ce que j'ai raté la première fois. Ma comparaison initiale utilisait Gemini 3.1 avec un budget de réflexion élevé, parce que c'est ce que j'utilisais avec Gemini 3. Pommes avec pommes, je me suis dit.

Il s'avère que c'était la mauvaise comparaison. Gemini 3.1 avec un budget de réflexion moyen surpasse en fait Gemini 3 avec un budget de réflexion élevé. Laissez ça vous imprégner une seconde : moins de réflexion, meilleurs résultats.

Ça change toute l'équation de mon article précédent :

Métrique	Gemini 3 (élevé)	Gemini 3.1 (moyen)
Coût moyen	0,18 $	0,21 $ (~17 % de plus)
Taux d'erreur	0,29	~0,15 (divisé par deux)
Qualité géométrique	Pièces souvent déconnectées	Bien meilleure connectivité

Au lieu de 2,6 fois plus cher, on parle de grosso modo 17 % de plus par génération. Le taux d'erreur a chuté de moitié. Et la géométrie est nettement meilleure.

L'inquiétude sur le coût de mon article précédent ? Pratiquement disparue.

Meilleure géométrie, moins de pièces cassées

L'amélioration de qualité à laquelle je reviens sans arrêt, c'est la façon dont 3.1 comprend comment la géométrie doit se connecter. C'est difficile à capturer dans un score de benchmark. Un modèle peut obtenir la forme globale correcte (bon score d'adhérence) mais produire quand même des pièces qui flottent dans l'espace ou traversent les unes les autres. Des murs qui ne rejoignent pas la base. Des bras qui planent à côté des épaules. Un crochet qui se trouve à l'intérieur d'une plaque arrière au lieu d'en sortir.

Voici un exemple concret. J'ai demandé aux deux modèles de générer un support de casque mural.

Comparaison support casque mural Gemini 3.0 vs Gemini 3.1

À gauche, c'est Gemini 3. Voyez comment le crochet ne se connecte pas correctement à la plaque murale ? La géométrie est techniquement là, mais les pièces ne sont pas jointes. Ce genre de chose arrivait environ 4 fois sur 5 avec Gemini 3 sur des modèles nécessitant que les pièces se connectent à des points spécifiques.

À droite, c'est Gemini 3.1. Le crochet s'étend depuis la plaque arrière comme une pièce continue. Connexion propre, imprimable sans supports dans cette zone. Avec 3.1, ce genre de problème géométrique est tombé à environ 1 fois sur 5.

Pourquoi moins de réflexion fonctionne mieux

C'est la partie que je trouve vraiment intéressante. On s'attendrait à ce qu'augmenter le budget de réflexion produise toujours un meilleur résultat. Avec Gemini 3, c'était surtout vrai. Mais avec 3.1, le budget moyen semble atteindre un point optimal où le modèle raisonne assez pour obtenir la géométrie correcte sans trop réfléchir au point de générer des erreurs.

Le budget de réflexion élevé sur Gemini 3 a en fait produit plus d'erreurs que le moyen sur 3.1. J'ai pas vraiment d'explication pour ça, mais le schéma était constant dans les tests. Plus de calcul ne signifie pas toujours de meilleurs résultats, et 3.1 semble utiliser son budget de réflexion plus efficacement.

Les benchmarks complets arrivent

Je veux être transparent : j'ai pas encore exécuté la suite d'évaluation complète là-dessus. Les améliorations ci-dessus viennent de tests pratiques, pas du processus de benchmark rigoureux que j'ai décrit dans comment nous testons l'agent de modélisation 3D. Les chiffres complets suivront bientôt.

Ce que je peux dire des tests jusqu'à présent, c'est que la combinaison d'une meilleure géométrie, de taux d'erreur plus faibles et d'une augmentation modeste des coûts rend cette mise à niveau évidente. Si les benchmarks complets contredisent ça, j'écrirai dessus.

Essayez vous-même

Gemini 3.1 est en production sur GrandpaCAD maintenant.

Créer un modèle 3D avec Gemini 3.1

Nous sommes passés à Gemini 3.1 (et pourquoi nous avons changé d'avis)

L'astuce du budget de réflexion

Meilleure géométrie, moins de pièces cassées

Pourquoi moins de réflexion fonctionne mieux

Les benchmarks complets arrivent

Essayez vous-même

Le manuel que j'ai fait pour que mon grand-père puisse utiliser l'IA pour la CAO

Les benchmarks publics des LLM sont surtout une grosse blague

Comment gagner de l'argent avec une imprimante 3D (les maths ennuyeuses)

Arrêtez de redimensionner les modèles IA. Définissez une fois la configuration de votre imprimante.

Présentation du mode organique

Pourquoi nous ne passons pas à Gemini 3.1

Outils et calculateurs gratuits pour l’impression 3D

Blender vs OpenSCAD vs JSCad vs JSON : choisir le meilleur moteur LLM vers CAO

Impression 3D simplifiée avec BambuLab

De l’image au modèle 3D : dessinez, scannez, imprimez

Impression 3D multicolore avec l’IA

Comment ça marche

Comparer les LLM de pointe pour la génération 3D

Comment rendre vos modèles ajustables

Comment nous testons l’agent de modélisation 3D

Migrer vers Blender

Bienvenue sur GrandpaCAD Beta ! Voici ce que vous devez savoir

Journal des modifications

Paddle vs Polar pour les abonnements IA et la facturation à l’usage

GrandpaCAD : mon grand-père, l’IA et l’état de la CAO

Rendre à Grandpa sa créativité : comment l’IA l’a aidé à créer à nouveau

GrandpaCAD : pour la presse et les médias

Nous sommes passés à Gemini 3.1 (et pourquoi nous avons changé d'avis)

L'astuce du budget de réflexion

Meilleure géométrie, moins de pièces cassées

Pourquoi moins de réflexion fonctionne mieux

Les benchmarks complets arrivent

Essayez vous-même