Pourquoi on ne passe pas à Gemini 3.1

Il y a quelques mois, j'ai basculé le modèle par défaut de GrandpaCAD sur Gemini 3. Cette décision était basée sur des données : Gemini 3 avait le score pondéré le plus élevé, la meilleure adhérence aux prompts, et le coût le plus bas sur 84 générations. C'était le choix évident.

Donc quand Google a sorti Gemini 3.1, j'ai fait ce que je fais toujours : j'ai lancé ma suite d'éval dessus.

Les résultats étaient... décevants.

Les chiffres

Voici une comparaison directe, par génération :

Métrique	Gemini 3	Gemini 3.1
Temps moyen	1m 24s	3m 28s
Coût moyen	$0.14	$0.37
Taux d'erreur	0.29	0.29

Gemini 3.1 est 2,5x plus lent et 2,6x plus cher. Le taux d'erreur est identique à la deuxième décimale près. Pas "à peu près pareil". Exactement pareil.

Plus lent ne veut pas dire meilleur

Est-ce que les modèles de 3.1 sont un tout petit peu meilleurs ? Ouais, peut-être. Je lui accorderais ça. Mais la différence de qualité est marginale, et quand on prend en compte ce qu'on paie pour ce gain marginal (en temps et en argent), les calculs ne tiennent plus.

Voyez ça comme ça : dans le temps qu'il faut à Gemini 3.1 pour finir une génération, vous pourriez envoyer deux prompts à Gemini 3. Deux tentatives pour obtenir ce que vous voulez, avec le même taux d'erreur par essai. Si la première n'est pas tout à fait bonne, vous itérez. Deux tentatives Gemini 3 vous donneront presque toujours un meilleur résultat qu'une seule tentative Gemini 3.1, et ça vous coûtera moins cher ($0,28 vs $0,37).

Je préfère donner aux utilisateurs la capacité d'itérer rapidement plutôt que de les faire attendre 3,5 minutes pour un résultat marginalement plus brillant.

Le problème du coût

C'est l'autre moitié de l'équation. GrandpaCAD fonctionne déjà à perte. Chaque génération me coûte plus que ce que les utilisateurs paient. C'est un pari délibéré : je mise sur une baisse continue des coûts d'inférence, ce qui arrive historiquement. Mais ce pari ne fonctionne que si je ne perds pas des sommes folles entre-temps.

Passer à Gemini 3.1 triplerait presque mon coût par génération. À $0,37 par génération, le modèle économique n'a plus aucun sens. Même avec des projections optimistes sur les futures baisses de prix, l'écart est trop large.

Je peux absorber $0,14 par génération pendant que le marché rattrape. $0,37, c'est une conversation complètement différente.

Quand est-ce que je passerais ?

Si Google ramène le coût et la latence de 3.1 au niveau de ce que 3.0 offre aujourd'hui (ou proche), je relancerai les évals et je reconsidérerai. L'amélioration de qualité, aussi petite soit-elle, vaudrait le coup à prix équivalent. Mais là maintenant, le compromis n'y est pas.

Je garde aussi un œil sur Gemini 4 et ce qu'OpenAI sortira ensuite. Le système d'éval se fiche de la loyauté de marque. Le modèle qui produit les meilleurs modèles 3D à un coût et une vitesse raisonnables gagne. C'est tout le principe d'avoir un système d'éval.

Testez par vous-même

Gemini 3 est en ligne sur GrandpaCAD maintenant. Si vous voulez voir ce qu'il peut faire, allez créer quelque chose.

Créer un modèle 3D avec Gemini 3

Pourquoi on ne passe pas à Gemini 3.1

Donc quand Google a sorti Gemini 3.1, j'ai fait ce que je fais toujours : j'ai lancé ma suite d'éval dessus.

Les résultats étaient... décevants.

Métrique

Gemini 3

Gemini 3.1

Temps moyen

1m 24s

3m 28s

Coût moyen

$0.14

$0.37

Taux d'erreur

0.29

Plus lent ne veut pas dire meilleur

Je préfère donner aux utilisateurs la capacité d'itérer rapidement plutôt que de les faire attendre 3,5 minutes pour un résultat marginalement plus brillant.

Le problème du coût

Je peux absorber $0,14 par génération pendant que le marché rattrape. $0,37, c'est une conversation complètement différente.

Quand est-ce que je passerais ?

Pourquoi on ne passe pas à Gemini 3.1

Les chiffres

Plus lent ne veut pas dire meilleur

Le problème du coût

Quand est-ce que je passerais ?

Testez par vous-même

Le manuel que j'ai fait pour que mon grand-père puisse utiliser l'IA pour la CAO

Les benchmarks publics des LLM sont surtout une grosse blague

Comment gagner de l'argent avec une imprimante 3D (les maths ennuyeuses)

Arrêtez de redimensionner les modèles IA. Définissez une fois la configuration de votre imprimante.

Nous sommes passés à Gemini 3.1 (et voici pourquoi nous avons changé d'avis)

Présentation du mode organique

Outils et calculateurs gratuits pour l’impression 3D

Blender vs OpenSCAD vs JSCad vs JSON : choisir le meilleur moteur LLM vers CAO

Impression 3D simplifiée avec BambuLab

De l’image au modèle 3D : dessinez, scannez, imprimez

Impression 3D multicolore avec l’IA

Comment ça marche

Comparer les LLM de pointe pour la génération 3D

Comment rendre vos modèles ajustables

Comment nous testons l’agent de modélisation 3D

Migrer vers Blender

Bienvenue sur GrandpaCAD Beta ! Voici ce que vous devez savoir

Journal des modifications

Paddle vs Polar pour les abonnements IA et la facturation à l’usage

GrandpaCAD : mon grand-père, l’IA et l’état de la CAO

Rendre à Grandpa sa créativité : comment l’IA l’a aidé à créer à nouveau

GrandpaCAD : pour la presse et les médias

Pourquoi on ne passe pas à Gemini 3.1

Les chiffres

Plus lent ne veut pas dire meilleur

Le problème du coût

Quand est-ce que je passerais ?

Testez par vous-même