Recherche

Articles & analyses

Recherche technique de l'équipe Anatoly : benchmarks, comparaisons et rapports sur l'audit de code assisté par IA.

En vedette

Comparaison13 mai 202627 min de lecture

Audit de code IA vs revue de code IA en 2026 : les 14 outils qui comptent

Taxonomie et comparatif curé de 14 outils d'audit de code et de revue de code par IA disponibles en 2026. Classés selon qu'ils tournent au moment de la pull request (revue) ou scannent des bases de code existantes (audit), avec tarification, auto-hébergement, support des modèles locaux et compromis honnêtes pour chacun.

Rapport6 mai 202614 min de lecture

Discipline de concision : une stratégie de prompt Pareto-améliorante pour les agents d'audit de code

Une étude empirique montrant qu'ajouter une instruction anti-filler de 12 lignes au prompt système d'un agent d'audit de code a simultanément réduit les tokens output de 24.7%, le coût de 20.7%, la durée de 27.9%, et amélioré le rappel F1 de 9.1 points sur la fixture slot-engine.

Tous les articles

Benchmark15 juin 202613 min de lecture

Invariants comportementaux : évaluer un auditeur de code sur des bugs qui n'existent que dans le temps

train-dispatch est la fixture de benchmark à invariants comportementaux d'Anatoly : un répartiteur de trains déterministe dont les six défauts plantés n'apparaissent que comme des violations de vivacité, d'exclusion mutuelle, d'ordre et de conservation, au fil d'une exécution. Elle présente les quatre premiers runs et montre comment la fixture a révélé un trou de récupération dans le RAG d'Anatoly : les fichiers de données pures étaient invisibles à l'indexeur.

Analyse approfondie27 mai 202646 min de lecture

Router le Claude Agent SDK vers des LLM locaux : une stack Qwen bi-tier avec TurboQuant 4-bit KV

Retour de terrain d'une exploration Anatoly : pipeline multi-étapes passé d'Anthropic à llama.cpp local. Un seul GGUF Qwen3.6-35B-A3B dans deux modes thinking (haiku no-think, sonnet thinking), quatre bugs SDK dont une astuce de désactivation du thinking qui apporte un facteur 12, KV cache 4-bit TurboQuant sur RTX 3090 Ti 24 Go, bench à 100 appels avec scoring Opus-as-judge. Le local est 5 à 9 fois plus rapide qu'Anthropic et au plafond Opus sur verify-rag.

Analyse approfondie15 mai 202613 min de lecture

Détecter les conflits sémantiques entre documents : un pipeline pragmatique

Un pipeline en quatre étapes pour trouver où deux documents se contredisent, pas seulement où ils se recoupent : chunking et embedding, pré-filtrage cosinus, déduplication de section et expansion des voisins, puis détection d'inversion par NLI ou LLM. Inclut un déploiement sans GPU (CPU seul) et un modèle de coût sous dix centimes sur une charge réaliste.

Note de recherche14 mai 20267 min de lecture

Faut-il remplacer le RAG d'Anatoly par PageIndex ? Une question ouverte avec une réponse mesurable

Poser une question d'outillage plutôt que la trancher. Les deux systèmes ont des formes différentes : lookup vectoriel par fonction d'un côté, marche TOC pilotée par LLM de l'autre. Savoir si l'un doit remplacer l'autre dépend de l'économie de la charge de travail et de conditions d'essai non mesurées. Cette note pose la question honnêtement, expose notre prior, et décrit l'expérience bornée qui la trancherait.