---
title: "Rendre son site citable par une IA : robots.txt, llms.txt et le reste"
url: "https://kimoun.com/blog/rendre-site-citable-par-une-ia-llms-txt/"
date: "2026-05-25"
description: "robots.txt, .md, licences, llms.txt : ce qui rend vraiment un site lisible par une IA — et ce qui relève du mythe, testé depuis la Guadeloupe."
category: "Analyses"
---

# Rendre son site citable par une IA : robots.txt, llms.txt et le reste

robots.txt, .md, licences, llms.txt : ce qui rend vraiment un site lisible par une IA — et ce qui relève du mythe, testé depuis la Guadeloupe.

**On vous a peut-être présenté le fichier `llms.txt` comme la clé pour être cité par ChatGPT, Perplexity ou Google. Voici un chiffre qui remet les choses à plat : sur plus de 500 millions de visites de robots IA mesurées en trois mois, à peine 408 visaient ce fameux fichier. Rendre son site lisible par une intelligence artificielle, c'est utile et c'est faisable — mais ça ne passe pas par les recettes qu'on lit partout. Voici ce qui marche vraiment, ce qui ne sert à rien, et ce que nous faisons nous-mêmes chez Kimoun, en toute transparence.**

> [!IMPORTANT]
> **À lire avant de paniquer.** Vous avez peut-être vu l'info : Chrome Lighthouse vérifie désormais le `llms.txt`, et quelques analystes un peu pressés y voient un démenti de Google sur l'inutilité du fichier pour le référencement. Lecture trop rapide. Pourquoi ? La réponse est plus bas — elle tient à une seule distinction, posée par John Mueller le 20 mai 2026.

---

## Ce qu'une IA « lit » vraiment de votre site

> [!TIP]
> Une IA qui veut citer votre site lit la même chose qu'un visiteur et que Google : vos pages. Pas un fichier spécial, pas une version cachée — vos pages telles qu'elles sont.

Les grands moteurs de réponse s'appuient sur la recherche web classique pour fonder leurs réponses. Concrètement, ils parcourent votre site comme n'importe quel robot d'indexation et reprennent ce qu'ils y trouvent. Il n'y a pas de seconde porte d'entrée réservée aux IA. C'est la même logique que celle du [guide officiel de Google sur la recherche IA](https://kimoun.com/blog/seo-geo-2026-guide-officiel-google/) : une page propre et lisible se suffit à elle-même.

Ce qui suit n'est donc pas une liste de fichiers magiques. C'est le tri entre les leviers qui ont un effet réel et ceux qu'on vous vend pour rien.

## robots.txt : le seul fichier qui contrôle réellement les robots IA

> [!TIP]
> Le seul fichier qui a un vrai pouvoir sur les robots IA est celui qu'on oublie le plus souvent : `robots.txt`.

C'est le `robots.txt`, et lui seul, qui précise qui a le droit de parcourir votre site. Vous pouvez y nommer les robots des IA et les autoriser ou les refuser : `GPTBot` (OpenAI), `ClaudeBot` (Anthropic), `PerplexityBot`, ou encore `Google-Extended` (le robot que Google utilise pour ses fonctions IA). OpenAI elle-même documente `robots.txt` comme la bonne façon de contrôler son robot.

Deux nuances importantes. D'abord, c'est une consigne, pas un mur : les robots sérieux la respectent, mais elle ne rend pas votre site techniquement inaccessible. Ensuite, c'est un arbitrage. Tout bloquer, c'est protéger son contenu… et disparaître des réponses IA en même temps. Pour une entreprise locale qui cherche de la visibilité, l'enjeu n'est pas de fermer la porte, mais de bien la tenir ouverte.

## llms.txt et llms-full.txt : à quoi ça sert, à quoi ça ne sert pas

C'est le sujet sur lequel circulent le plus d'approximations, alors soyons précis. Le `llms.txt` est un fichier au format Markdown qui liste vos pages importantes ; le `llms-full.txt` contient le texte complet de votre site en un seul document. L'idée de départ est honnête : aider une IA à se repérer.

Le problème, c'est que ça ne fonctionne pas pour la raison qu'on vous vend. Google a confirmé qu'il ne lit pas ce fichier, et l'un de ses porte-parole l'a comparé à la vieille balise « keywords » — abandonnée depuis longtemps parce qu'elle est déclarée par le site lui-même, donc facile à manipuler. Aucun grand acteur de l'IA — OpenAI, Google, Anthropic, Meta, Mistral — n'a annoncé l'exploiter dans ses réponses de recherche. Une étude portant sur 300 000 sites n'a trouvé aucun lien entre la présence d'un `llms.txt` et le fait d'être cité ; un modèle de prédiction s'améliorait même quand on retirait cette donnée, signe qu'elle ajoutait du bruit plutôt que du signal. Et les robots qui comptent ne vont quasiment jamais le chercher — d'où les 408 visites sur 500 millions.

Il a pourtant un usage réel, mais ailleurs : les outils pour développeurs. Les assistants de code comme Cursor, GitHub Copilot ou Claude récupèrent de la documentation en temps réel, et là, un index Markdown propre leur fait gagner du temps. C'est d'ailleurs pour cet usage qu'Anthropic publie un `llms.txt` pour sa propre documentation. Rien à voir avec le référencement de votre site de quincaillerie ou de gîte.

Il y a une seconde raison, plus tournée vers l'avenir : l'expérimentation. Nous surveillons les signaux faibles, et l'un d'eux mérite l'attention. De grandes plateformes se mettent à généraliser le fichier : Wix le génère et le maintient désormais automatiquement, Shopify a ajouté des routes natives `/llms.txt` et `/agents.md` pour ses boutiques. Ces fichiers ne servent pas le référencement classique, mais ils pointent vers des ressources pour agents IA — recherche, catalogue, points d'accès MCP. Si le « web agentique » s'installe, c'est peut-être là que le `llms.txt` trouvera enfin une utilité réelle. En attendant, nous poursuivons l'expérimentation sur kimoun.com : ça coûte presque rien, et ça nous apprend où va le terrain avant nos clients.

> [!NOTE]
> **Notre position, et la dernière actu Google.** Chez Kimoun, nous maintenons un `llms-full.txt` — en toute transparence, il ne nous apporte aucune citation IA, et ce n'est pas pour ça qu'on le garde : c'est un index propre de nos pages, quasi gratuit, utile à nos propres outils. Détail parlant : quand un assistant IA équipé pour naviguer a eu besoin de lire nos pages, il n'est pas allé chercher ce fichier seul — il a fallu le lui indiquer. Et l'actualité confirme la lecture : en mai 2026, Chrome Lighthouse s'est mis à vérifier la présence d'un `llms.txt` (audits « Agentic Browsing »), mais John Mueller (Google) a aussitôt tranché — **découverte** (être trouvé, le SEO) vs **fonctionnalité** (aider un agent, surtout de codage, une fois la page trouvée). Le `llms.txt` relève de la seconde : une « béquille » pour les outils IA, pas un levier de référencement.

## Les pages .md et le mythe de la « version pour robots »

> [!WARNING]
> Créer une version Markdown de chaque page « pour les robots » est une fausse bonne idée. Si ces fichiers sont indexables, vous fabriquez du contenu dupliqué à grande échelle et vous diluez votre budget de crawl. Et servir une version différente aux robots et aux humains s'approche du cloaking, que Google sanctionne.

La logique paraît séduisante : « mon site est chargé en JavaScript, donnons aux IA une version texte allégée. » En pratique, vous créez une seconde version de votre site que personne ne voit, avec les risques techniques qui vont avec. Du côté de Google, on a qualifié sans détour de mauvaise idée le fait de servir des pages Markdown destinées uniquement aux robots. La bonne approche est plus simple, et moins chère : écrivez de vraies pages, propres et rapides, une seule fois, pour vos lecteurs. Les machines lisent les mêmes.

Ce principe, je le connais bien avant l'arrivée de l'IA. J'ai travaillé des années sur l'accessibilité numérique : expert AccessiWeb en évaluation, diplômé par l'association BrailleNet en mars 2005, au sein d'IPEOS — la première société de services en logiciels libres de la Caraïbe — et premier évaluateur ultramarin habilité à auditer l'accessibilité d'un site web. Et c'est exactement la même règle qui s'applique ici.

> « En accessibilité, on n'a jamais résolu le problème en bricolant une page à part pour les personnes en situation de handicap. On rend une seule ressource accessible à tous, en respectant des règles communes. Créer un site parallèle pour un public, c'est fabriquer un ghetto numérique — et ça finit toujours mal. Avec l'IA, c'est pareil : une seule page propre, lisible par tout le monde, humains comme machines. Et le vrai bénéfice est là : cette interopérabilité, c'est ce qui fait grandir à la fois le référencement et la reprise par les IA. »
>
> — Olivier Watté, dit Oliver · fondateur de Kimoun

Une page qui respecte les standards du web est lisible par un lecteur d'écran, par Google et par une IA. Le même travail sert les trois — pas trois chantiers séparés, un seul, bien fait.

## Licences et conditions : dire ce qu'une IA a le droit de faire

Vous pouvez exprimer des préférences d'usage. Refuser les robots d'entraînement dans `robots.txt` (par exemple `Google-Extended` ou `GPTBot`) indique que vous ne souhaitez pas que votre contenu serve à entraîner des modèles. En droit européen — et la Guadeloupe est territoire français — vous pouvez aussi réserver vos droits face à la fouille de textes et de données par un signal lisible par machine.

Soyons honnêtes sur les limites : l'application de ces réserves reste imparfaite, et le cadre juridique évolue vite. Je ne suis pas juriste, donc pour une vraie stratégie de protection de votre contenu, prenez un avis adapté à votre situation. Et surtout, posez-vous la bonne question : la plupart des entreprises d'ici veulent **plus** de visibilité, pas moins. L'objectif n'est presque jamais de bloquer l'IA — c'est de devenir la source qu'elle cite.

## Ce qui rend réellement citable

On revient toujours aux mêmes fondamentaux, et c'est une bonne nouvelle, parce qu'ils sont à votre portée.

Une structure claire, d'abord : des titres logiques, une question par section, des réponses nettes. Une vraie fraîcheur ensuite : une date de mise à jour qui correspond à un contenu réellement revu, pas un horodatage cosmétique. Une base technique saine : un site rapide sur mobile et bien indexé — sur la 4G guadeloupéenne, ça se joue à la seconde, et c'est largement une affaire d'[hébergement et de configuration propre](https://kimoun.com/infogerance-hebergement-web-guadeloupe/). Et par-dessus tout, ce que personne ne peut copier : votre expérience de première main et vos données locales. Une IA ne peut citer que ce qui existe quelque part ; si vous êtes la source la plus précise sur une réalité d'ici, vous devenez la citation.

Aucun fichier ne remplace ça. Si vous voulez qu'on regarde concrètement où en est votre site — ce qui le rend lisible, citable, et visible localement — c'est ce que nous faisons sur la [page SEO &amp; visibilité locale](https://kimoun.com/seo-geo-guadeloupe/).

Je n'ai pas de forum sur ce blog, et la question que je vous laisse mérite mieux qu'un silence : **quel « truc magique » pour plaire à l'IA vous a-t-on déjà vendu, ou conseillé d'installer ?**

Alors poursuivons ailleurs. Venez en discuter sur [LinkedIn](https://www.linkedin.com/in/owatte) : je réponds aux commentaires, et les meilleurs échanges finissent souvent par devenir un prochain article. Et si vous voulez la suite sans avoir à y penser, [abonnez-vous à la newsletter Kimoun](https://kimoun.com/newsletter) : une à deux fois par mois, une veille triée pour aller à l'essentiel, des décryptages de cas locaux et des conseils applicables dès la semaine suivante — calibrés pour des budgets et des équipes réalistes. Désinscription en un clic.

## Sources

- [Spécification llms.txt (llmstxt.org)](https://llmstxt.org/)
- [Search Engine Land — Does llms.txt matter?](https://searchengineland.com/does-llms-txt-matter-467740)
- [Limy — llms.txt in 2026: the full guide](https://limy.ai/blog/llms.txt-in-2026-the-full-guide)
- [Wix — Understanding your site's LLMs.txt file](https://support.wix.com/en/article/understanding-your-sites-llmstxt-file)
- [Shopify Developer Community — llms.txt and agents.md](https://community.shopify.dev/t/llms-txt-and-agents-md/34049)
- [Google — Chrome Lighthouse, audits « Agentic Browsing »](https://developer.chrome.com/docs/lighthouse/agentic-browsing/scoring)
- [John Mueller (Google) — Bluesky](https://bsky.app/profile/johnmu.com/post/3mmb6if3h532n)
- [AccessiWeb / BrailleNet — Groupe de Travail, experts IPEOS (archive)](https://web.archive.org/web/20111122085551/http://www.accessiweb.org/fr/groupe_travail_accessibilite_du_web/experts/GTA_ipeos/)
- [Guide Kimoun — SEO et GEO en 2026 : le guide officiel Google](https://kimoun.com/blog/seo-geo-2026-guide-officiel-google/#ce-que-le-guide-vous-dit-darr%c3%aater)
- [Page Kimoun — SEO &amp; visibilité locale en Guadeloupe](https://kimoun.com/seo-geo-guadeloupe/)