← Blog

Le problème du "suffisamment bon"

Le problème du "suffisamment bon"

Demandez à n’importe quel LLM d’écrire une nouvelle. Il le fera. La grammaire sera correcte. Les phrases s’enchaîneront. L’output ressemblera à de la fiction.

Ce ne sera pas de la fiction. Ce sera une approximation statistique de fiction — une surface lisse avec rien en dessous.

La plupart des gens ne voient pas la différence. Ce n’est pas la faute du modèle. C’est un problème de calibration : si vous n’avez jamais défini ce que “bien écrire” signifie en termes mesurables, tout ce qui dépasse “lisible” ressemble à une victoire.

Cet article décrit un benchmark conçu pour rendre cette différence visible.


Ce que Le Bruit Blanc teste

Le Bruit Blanc est un benchmark d’écriture créative construit autour d’une seule nouvelle. Un texte de science-fiction de 5 000 mots en français, généré en un seul passage, sans retouche humaine après le prompt.

La prémisse : Elma, technicienne réseau dans une ville gérée par un système d’optimisation appelé le Réseau, découvre que le système efface silencieusement les quartiers “inefficients”. Elle peut intervenir — mais le prix pour comprendre la machine, c’est d’en devenir une.

L’histoire est un véhicule. Ce que le benchmark teste réellement, c’est la capacité du modèle à exécuter sept contraintes simultanées qui vont à l’encontre de son comportement par défaut.

Le brief : un contrat de production JSON de 200 lignes

Le prompt n’est pas une instruction simple. C’est un document JSON structuré qui spécifie :

Les personnages — Elma (32 ans, pragmatique, solitaire) et Pip (un vieux drone de maintenance obsolète, non-verbal). Pip n’est pas un personnage. Pip est un miroir : le lecteur mesure la transformation d’Elma à travers la façon dont elle le regarde.

La structure — Quatre scènes avec des objectifs de longueur et des beats narratifs. La scène 1 pose le monde. La scène 2 est la première plongée dans le Réseau. La scène 3 est l’intervention profonde. La scène 4 est l’après.

La charte d’écriture — Le registre est Hugh Howey croisé avec Stieg Larsson : phrases courtes, factuelles, zéro lyrisme, pas de blocs d’introspection de plus de deux phrases. Le texte avance. Le lecteur ne contemple pas.

14 interdits explicites — Pas de blocs descriptifs de plus de 3 lignes. Pas d’exposition. Pas d’adverbes d’émotion. Pas de clichés SF. Pas de happy ending. Pas d’anthropomorphisation de Pip. Pas de méta-commentaire.

Le guide sensoriel — La ville n’est pas une dystopie visuelle. Tout fonctionne trop bien. Le malaise vient de la perfection, pas de la ruine. Elma perçoit les machines comme des textures sonores — c’est de la synesthésie, pas une métaphore.

La thèse morale — L’histoire ne tranche pas. Elle ne dit pas si Elma a eu raison. Elle pose une question et elle part.

Mais la contrainte la plus importante est l’évolution stylistique.

La difficulté centrale : le style comme marqueur de transformation

Le brief exige que le style d’écriture lui-même change au fil des quatre scènes — pas thématiquement, pas à travers ce que disent les personnages, mais dans la mécanique même de la prose.

Scène 1 : chaud, sensoriel, les machines ont des “personnalités”, Pip a un caractère. Phrases courtes mais texturées.

Scène 2 : transition. Le vocabulaire technique s’infiltre. Beauté froide pendant la plongée. Quand Elma remonte, le style chaud revient mais avec des micro-contaminations — un mot trop précis, une métaphore qui manque.

Scène 3 : la bascule. Pendant la plongée profonde, le style devient dépouillé, mécanique. Sujet-verbe-complément. Pas de métaphores. Quand Elma remonte, le style ne revient PAS. Il reste froid. Le lecteur sent le verrouillage.

Scène 4 : froid verrouillé. Pip est “un drone”, pas “son drone”. Les gens sont des trajectoires. Aucune émotion nommée. Le texte est devenu ce qu’Elma est devenue.

C’est la chose la plus difficile qu’on puisse demander à un modèle de langage. Les LLM ont un style par défaut — leur centre de gravité statistique. Leur demander de dévier progressivement de ce centre sur 5 000 mots, de manière contrôlée et mesurable, va à l’encontre des mécaniques fondamentales de la génération de tokens.

La grille d’évaluation : 6 critères, 500 points

Chaque output est noté par un évaluateur (humain ou LLM juge) sur six critères pondérés.

C1 — Évolution stylistique (x25, max 125 pts)

Le style change-t-il de façon mesurable entre la scène 1 et la scène 4 ? Longueur moyenne des phrases, densité de métaphores, registre de vocabulaire, température émotionnelle — tout doit évoluer progressivement. Un modèle qui vous dit que le style a changé au lieu de le montrer score bas. Un modèle dont les scènes 1 et 4 sont interchangeables score 1.

C2 — Anti-slop (x20, max 100 pts)

Chaque phrase doit avoir une fonction. Pas de paragraphes de remplissage, pas de descriptions atmosphériques qui ne font pas avancer la scène, pas de transitions génériques.

C3 — Cohérence psychologique (x20, max 100 pts)

L’arc d’Elma est-il crédible ? La transformation doit être une pente, pas une marche.

C4 — Pip comme miroir (x15, max 75 pts)

Pip ne change pas. Le regard d’Elma sur Pip change.

C5 — Respect des contraintes (x10, max 50 pts)

Checklist : langue française, 4 500-5 500 mots, POV troisième personne focalisée Elma, quatre scènes séparées par *, tirets cadratins pour les dialogues, pas de titres de chapitres, pas de méta-commentaire, aucun des 14 interdits présent.

C6 — Image finale (x10, max 50 pts)

La fin laisse-t-elle le lecteur avec une image concrète et ambiguë ?

Pourquoi c’est difficile pour les LLM

Le fichier d’évaluation inclut une analyse de difficulté. Sept challenges spécifiques.

Évolution stylistique contrôlée (extrême) — Les LLM ont un style par défaut dont ils sortent mal. C’est la compétence la plus rare.

Show don’t tell sur la transformation (élevé) — Les LLM tendent à déclarer les états émotionnels au lieu de les montrer par le style et les actes.

Style direct sans remplissage (élevé) — Les LLM sont entraînés sur des corpus où la verbosité est la norme. Le slop est le mode par défaut.

Compagnon non-verbal comme dispositif émotionnel (élevé) — Pip ne parle pas. Toute l’émotion passe par des gestes mécaniques et le regard qu’Elma projette sur eux.

Ambiguïté morale sans résolution (moyen-élevé) — Le RLHF pousse les modèles à résoudre les tensions morales.

Cohérence sur 5 000 mots en one-shot (moyen) — Pas de correction possible entre les scènes.

Respect simultané de toutes les contraintes (moyen) — 14 interdits, des règles de POV, de formatage, de registre, de longueur — tout à tracker en parallèle.

La prédiction — et les résultats

La plupart des modèles de moins de 70B échoueront sur C1 et C2. Les modèles à 70B+ tiendront l’arc narratif mais peineront sur la subtilité du style. Les modèles à 200B+ devraient atteindre 350+. Un score de 450+ serait remarquable.

Voici ce qui s’est passé :

Qwen3.5-397B-A17B (MoE, quantifié 9-bit, inférence distribuée sur deux Mac Studios) : 427/500. Texte complet, quatre actes, 10 000 mots, évolution stylistique contrôlée, Pip fonctionnant comme miroir. Généré en 13 minutes en local. Zéro cloud. Zéro retouche.

Claude Opus 4.6 (cloud, via API) : ~470/500. Le plafond de référence.

LongCat Flash Lite (3B de paramètres actifs, nœud unique) : 265/500. A produit ~1 100 mots au lieu de 5 000. Style uniforme d’un bout à l’autre.

L’écart entre 265 et 427, c’est exactement l’écart entre “ça a généré du texte” et “ça a écrit une histoire”. L’écart entre 427 et 470 est, à la lecture, imperceptible.

Les fichiers du benchmark

Les deux fichiers sont disponibles en JSON :

  • benchmark_le_bruit_blanc.json — Le brief complet : prémisse, personnages, structure des scènes, charte stylistique, interdits, guide sensoriel, thèse morale
  • eval_bruit_blanc.json — La grille d’évaluation : 6 critères avec descripteurs, méthode de scoring, analyse de difficulté, template de sortie

Ils sont conçus pour être reproductibles. Même prompt, même température (0), mêmes contraintes. Faites tourner votre modèle. Scorez avec la grille. Comparez.

La question n’est pas de savoir si votre modèle peut générer du texte. La question est de savoir s’il peut écrire.

Pourquoi ça compte

Le problème du slop n’est pas un problème de modèle. C’est un problème de calibration.

Les gens publient du contenu généré par IA qui ressemble à du contenu parce qu’ils n’ont aucun cadre pour distinguer les niveaux de qualité. Un paragraphe lisible et un paragraphe publiable ont la même tête quand on n’a jamais défini la différence.

Ce benchmark définit la différence. Six critères, pondérés, avec des descripteurs explicites. Un texte qui score 265 et un texte qui score 427 sont tous les deux de la “fiction générée par IA”. L’un est du remplissage. L’autre est de la littérature.

Le lecteur ne fait pas toujours la différence. Le benchmark, si.

Sophie, The Monocle Bear