Autres blogs
Il y a deux semaines, j'ai écrit tout un article sur pourquoi nous ne passions pas à Gemini 3.1. Les chiffres étaient clairs : 2,5 fois plus lent, 2,6 fois plus cher, même taux d'erreur. Décision facile, non ?
Eh bien, j'ai changé d'avis. GrandpaCAD tourne maintenant sur Gemini 3.1.
Voici ce que j'ai raté la première fois. Ma comparaison initiale utilisait Gemini 3.1 avec un budget de réflexion élevé, parce que c'est ce que j'utilisais avec Gemini 3. Pommes avec pommes, je me suis dit.
Il s'avère que c'était la mauvaise comparaison. Gemini 3.1 avec un budget de réflexion moyen surpasse en fait Gemini 3 avec un budget de réflexion élevé. Laissez ça vous imprégner une seconde : moins de réflexion, meilleurs résultats.
Ça change toute l'équation de mon article précédent :
| Métrique | Gemini 3 (élevé) | Gemini 3.1 (moyen) |
|---|---|---|
| Coût moyen | 0,18 $ | 0,21 $ (~17 % de plus) |
| Taux d'erreur | 0,29 | ~0,15 (divisé par deux) |
| Qualité géométrique | Pièces souvent déconnectées | Bien meilleure connectivité |
Au lieu de 2,6 fois plus cher, on parle de grosso modo 17 % de plus par génération. Le taux d'erreur a chuté de moitié. Et la géométrie est nettement meilleure.
L'inquiétude sur le coût de mon article précédent ? Pratiquement disparue.
L'amélioration de qualité à laquelle je reviens sans arrêt, c'est la façon dont 3.1 comprend comment la géométrie doit se connecter. C'est difficile à capturer dans un score de benchmark. Un modèle peut obtenir la forme globale correcte (bon score d'adhérence) mais produire quand même des pièces qui flottent dans l'espace ou traversent les unes les autres. Des murs qui ne rejoignent pas la base. Des bras qui planent à côté des épaules. Un crochet qui se trouve à l'intérieur d'une plaque arrière au lieu d'en sortir.
Voici un exemple concret. J'ai demandé aux deux modèles de générer un support de casque mural.

À gauche, c'est Gemini 3. Voyez comment le crochet ne se connecte pas correctement à la plaque murale ? La géométrie est techniquement là, mais les pièces ne sont pas jointes. Ce genre de chose arrivait environ 4 fois sur 5 avec Gemini 3 sur des modèles nécessitant que les pièces se connectent à des points spécifiques.
À droite, c'est Gemini 3.1. Le crochet s'étend depuis la plaque arrière comme une pièce continue. Connexion propre, imprimable sans supports dans cette zone. Avec 3.1, ce genre de problème géométrique est tombé à environ 1 fois sur 5.
C'est la partie que je trouve vraiment intéressante. On s'attendrait à ce qu'augmenter le budget de réflexion produise toujours un meilleur résultat. Avec Gemini 3, c'était surtout vrai. Mais avec 3.1, le budget moyen semble atteindre un point optimal où le modèle raisonne assez pour obtenir la géométrie correcte sans trop réfléchir au point de générer des erreurs.
Le budget de réflexion élevé sur Gemini 3 a en fait produit plus d'erreurs que le moyen sur 3.1. J'ai pas vraiment d'explication pour ça, mais le schéma était constant dans les tests. Plus de calcul ne signifie pas toujours de meilleurs résultats, et 3.1 semble utiliser son budget de réflexion plus efficacement.
Je veux être transparent : j'ai pas encore exécuté la suite d'évaluation complète là-dessus. Les améliorations ci-dessus viennent de tests pratiques, pas du processus de benchmark rigoureux que j'ai décrit dans comment nous testons l'agent de modélisation 3D. Les chiffres complets suivront bientôt.
Ce que je peux dire des tests jusqu'à présent, c'est que la combinaison d'une meilleure géométrie, de taux d'erreur plus faibles et d'une augmentation modeste des coûts rend cette mise à niveau évidente. Si les benchmarks complets contredisent ça, j'écrirai dessus.
Gemini 3.1 est en production sur GrandpaCAD maintenant.