Anatoly - agent IA multi-LLM d’audit de code

Recherche

Articles & analyses

Recherche technique de l'équipe Anatoly : benchmarks, comparaisons et rapports sur l'audit de code assisté par IA.

En vedette

Tous les articles

Benchmark13 min de lecture

Invariants comportementaux : évaluer un auditeur de code sur des bugs qui n'existent que dans le temps

train-dispatch est la fixture de benchmark à invariants comportementaux d'Anatoly : un répartiteur de trains déterministe dont les six défauts plantés n'apparaissent que comme des violations de vivacité, d'exclusion mutuelle, d'ordre et de conservation, au fil d'une exécution. Elle présente les quatre premiers runs et montre comment la fixture a révélé un trou de récupération dans le RAG d'Anatoly : les fichiers de données pures étaient invisibles à l'indexeur.

Analyse approfondie46 min de lecture

Router le Claude Agent SDK vers des LLM locaux : une stack Qwen bi-tier avec TurboQuant 4-bit KV

Retour de terrain d'une exploration Anatoly : pipeline multi-étapes passé d'Anthropic à llama.cpp local. Un seul GGUF Qwen3.6-35B-A3B dans deux modes thinking (haiku no-think, sonnet thinking), quatre bugs SDK dont une astuce de désactivation du thinking qui apporte un facteur 12, KV cache 4-bit TurboQuant sur RTX 3090 Ti 24 Go, bench à 100 appels avec scoring Opus-as-judge. Le local est 5 à 9 fois plus rapide qu'Anthropic et au plafond Opus sur verify-rag.

Analyse approfondie13 min de lecture

Détecter les conflits sémantiques entre documents : un pipeline pragmatique

Un pipeline en quatre étapes pour trouver où deux documents se contredisent, pas seulement où ils se recoupent : chunking et embedding, pré-filtrage cosinus, déduplication de section et expansion des voisins, puis détection d'inversion par NLI ou LLM. Inclut un déploiement sans GPU (CPU seul) et un modèle de coût sous dix centimes sur une charge réaliste.

Note de recherche7 min de lecture

Faut-il remplacer le RAG d'Anatoly par PageIndex ? Une question ouverte avec une réponse mesurable

Poser une question d'outillage plutôt que la trancher. Les deux systèmes ont des formes différentes : lookup vectoriel par fonction d'un côté, marche TOC pilotée par LLM de l'autre. Savoir si l'un doit remplacer l'autre dépend de l'économie de la charge de travail et de conditions d'essai non mesurées. Cette note pose la question honnêtement, expose notre prior, et décrit l'expérience bornée qui la trancherait.