Recherche
Articles & analyses
Recherche technique de l'équipe Anatoly : benchmarks, comparaisons et rapports sur l'audit de code assisté par IA.
En vedette
Audit de code IA vs revue de code IA en 2026 : les 14 outils qui comptent
Taxonomie et comparatif curé de 14 outils d'audit de code et de revue de code par IA disponibles en 2026. Classés selon qu'ils tournent au moment de la pull request (revue) ou scannent des bases de code existantes (audit), avec tarification, auto-hébergement, support des modèles locaux et compromis honnêtes pour chacun.
Discipline de concision : une stratégie de prompt Pareto-améliorante pour les agents d'audit de code
Une étude empirique montrant qu'ajouter une instruction anti-filler de 12 lignes au prompt système d'un agent d'audit de code a simultanément réduit les tokens output de 24.7%, le coût de 20.7%, la durée de 27.9%, et amélioré le rappel F1 de 9.1 points sur la fixture slot-engine.
Tous les articles
Invariants comportementaux : évaluer un auditeur de code sur des bugs qui n'existent que dans le temps
train-dispatch est la fixture de benchmark à invariants comportementaux d'Anatoly : un répartiteur de trains déterministe dont les six défauts plantés n'apparaissent que comme des violations de vivacité, d'exclusion mutuelle, d'ordre et de conservation, au fil d'une exécution. Elle présente les quatre premiers runs et montre comment la fixture a révélé un trou de récupération dans le RAG d'Anatoly : les fichiers de données pures étaient invisibles à l'indexeur.
Router le Claude Agent SDK vers des LLM locaux : une stack Qwen bi-tier avec TurboQuant 4-bit KV
Retour de terrain d'une exploration Anatoly : pipeline multi-étapes passé d'Anthropic à llama.cpp local. Un seul GGUF Qwen3.6-35B-A3B dans deux modes thinking (haiku no-think, sonnet thinking), quatre bugs SDK dont une astuce de désactivation du thinking qui apporte un facteur 12, KV cache 4-bit TurboQuant sur RTX 3090 Ti 24 Go, bench à 100 appels avec scoring Opus-as-judge. Le local est 5 à 9 fois plus rapide qu'Anthropic et au plafond Opus sur verify-rag.
Détecter les conflits sémantiques entre documents : un pipeline pragmatique
Un pipeline en quatre étapes pour trouver où deux documents se contredisent, pas seulement où ils se recoupent : chunking et embedding, pré-filtrage cosinus, déduplication de section et expansion des voisins, puis détection d'inversion par NLI ou LLM. Inclut un déploiement sans GPU (CPU seul) et un modèle de coût sous dix centimes sur une charge réaliste.
Faut-il remplacer le RAG d'Anatoly par PageIndex ? Une question ouverte avec une réponse mesurable
Poser une question d'outillage plutôt que la trancher. Les deux systèmes ont des formes différentes : lookup vectoriel par fonction d'un côté, marche TOC pilotée par LLM de l'autre. Savoir si l'un doit remplacer l'autre dépend de l'économie de la charge de travail et de conditions d'essai non mesurées. Cette note pose la question honnêtement, expose notre prior, et décrit l'expérience bornée qui la trancherait.