Autres blogs
Il y a quelques mois, j'ai basculé le modèle par défaut de GrandpaCAD sur Gemini 3. Cette décision était basée sur des données : Gemini 3 avait le score pondéré le plus élevé, la meilleure adhérence aux prompts, et le coût le plus bas sur 84 générations. C'était le choix évident.
Donc quand Google a sorti Gemini 3.1, j'ai fait ce que je fais toujours : j'ai lancé ma suite d'éval dessus.
Les résultats étaient... décevants.
Voici une comparaison directe, par génération :
| Métrique | Gemini 3 | Gemini 3.1 |
|---|---|---|
| Temps moyen | 1m 24s | 3m 28s |
| Coût moyen | $0.14 | $0.37 |
| Taux d'erreur | 0.29 | 0.29 |
Gemini 3.1 est 2,5x plus lent et 2,6x plus cher. Le taux d'erreur est identique à la deuxième décimale près. Pas "à peu près pareil". Exactement pareil.
Est-ce que les modèles de 3.1 sont un tout petit peu meilleurs ? Ouais, peut-être. Je lui accorderais ça. Mais la différence de qualité est marginale, et quand on prend en compte ce qu'on paie pour ce gain marginal (en temps et en argent), les calculs ne tiennent plus.
Voyez ça comme ça : dans le temps qu'il faut à Gemini 3.1 pour finir une génération, vous pourriez envoyer deux prompts à Gemini 3. Deux tentatives pour obtenir ce que vous voulez, avec le même taux d'erreur par essai. Si la première n'est pas tout à fait bonne, vous itérez. Deux tentatives Gemini 3 vous donneront presque toujours un meilleur résultat qu'une seule tentative Gemini 3.1, et ça vous coûtera moins cher ($0,28 vs $0,37).
Je préfère donner aux utilisateurs la capacité d'itérer rapidement plutôt que de les faire attendre 3,5 minutes pour un résultat marginalement plus brillant.
C'est l'autre moitié de l'équation. GrandpaCAD fonctionne déjà à perte. Chaque génération me coûte plus que ce que les utilisateurs paient. C'est un pari délibéré : je mise sur une baisse continue des coûts d'inférence, ce qui arrive historiquement. Mais ce pari ne fonctionne que si je ne perds pas des sommes folles entre-temps.
Passer à Gemini 3.1 triplerait presque mon coût par génération. À $0,37 par génération, le modèle économique n'a plus aucun sens. Même avec des projections optimistes sur les futures baisses de prix, l'écart est trop large.
Je peux absorber $0,14 par génération pendant que le marché rattrape. $0,37, c'est une conversation complètement différente.
Si Google ramène le coût et la latence de 3.1 au niveau de ce que 3.0 offre aujourd'hui (ou proche), je relancerai les évals et je reconsidérerai. L'amélioration de qualité, aussi petite soit-elle, vaudrait le coup à prix équivalent. Mais là maintenant, le compromis n'y est pas.
Je garde aussi un œil sur Gemini 4 et ce qu'OpenAI sortira ensuite. Le système d'éval se fiche de la loyauté de marque. Le modèle qui produit les meilleurs modèles 3D à un coût et une vitesse raisonnables gagne. C'est tout le principe d'avoir un système d'éval.
Gemini 3 est en ligne sur GrandpaCAD maintenant. Si vous voulez voir ce qu'il peut faire, allez créer quelque chose.