Llms.txt to eksperymentalny plik tekstowy zaproponowany jako mechanizm komunikacji między właścicielami stron internetowych a twórcami systemów sztucznej inteligencji opartych na dużych modelach językowych (LLM – Large Language Models).
Podobnie jak robots.txt służy do informowania botów wyszukiwarek, które części witryny mogą być indeksowane, tak llms.txt ma służyć do określania, czy i w jaki sposób treść strony może być wykorzystywana przez modele językowe AI (np. ChatGPT, Claude, Gemini itp.) do trenowania lub przetwarzania treści.
Skąd wziął się pomysł llms.txt?
W miarę rozwoju AI, coraz więcej wydawców i właścicieli witryn wyraża zaniepokojenie wykorzystaniem ich treści przez narzędzia generatywne, często bez zgody. Dlatego pojawiła się idea stworzenia prostego pliku tekstowego umieszczanego na serwerze (analogicznie do robots.txt), który określa zasady dostępu do treści dla systemów LLM.
Jak działa llms.txt?
- Umieszczany jest w katalogu głównym strony internetowej, np.:
https://example.com/llms.txt
- Zawiera reguły dotyczące wykorzystania treści przez konkretne systemy AI (np. OpenAI, Anthropic, Google).
- Nie jest jeszcze formalnym standardem, ale niektóre firmy (np. OpenAI) zaczynają go testowo respektować.
Przykładowa zawartość llms.txt
User-Agent: OpenAI
Disallow: /
User-Agent: GoogleAI
Allow: /public/
User-Agent: *
Disallow: /private/
Co oznaczają powyższe reguły?
- OpenAI (np. ChatGPT) nie ma dostępu do żadnej treści (
Disallow: /). - GoogleAI ma dostęp do katalogu
/public/. - Wszystkie inne systemy AI nie mogą korzystać z zasobów w
/private/.
Czy llms.txt jest obowiązujący?
- Nie – to nie jest jeszcze oficjalny standard uznawany przez wszystkie firmy AI.
- Jego skuteczność zależy od dobrowolnego przestrzegania zasad przez dostawców modeli językowych.
Dlaczego warto rozważyć llms.txt?
- Daje właścicielom treści minimalną kontrolę nad tym, kto może je przetwarzać.
- Może być elementem strategii ochrony własności intelektualnej.
- To czytelny sygnał intencji właściciela strony, nawet jeśli technicznie nie da się ich jeszcze całkowicie wyegzekwować.
Czy llms.txt wpływa na SEO?
Nie. llms.txt nie wpływa na indeksowanie strony w Google ani innych wyszukiwarkach. Jest to plik kierowany wyłącznie do systemów opartych na LLM (np. do treningu AI), a nie do klasycznych crawlerów indeksujących.
Jak zablokować czytanie strony przez AI?
Choć llms.txt to rozwiązanie eksperymentalne, część firm tworzących modele AI, takich jak OpenAI (twórca ChatGPT), Anthropic (Claude), czy Google DeepMind, zaczęła dobrowolnie respektować instrukcje zawarte w pliku robots.txt.
Dlatego – jeśli chcesz uniemożliwić tym systemom korzystanie z treści Twojej strony, możesz to zrobić już teraz, dodając do pliku robots.txt takie wpisy:
Przykład – blokada ChatGPT (OpenAI)
User-agent: GPTBot
Disallow: /
Przykład – blokada Claude (Anthropic)
User-agent: ClaudeBot
Disallow: /
Przykład – blokada Gemini (Google AI)
User-agent: Google-Extended
Disallow: /
Czy warto blokować AI?
Moim zdaniem – nie warto. Sztuczna inteligencja będzie z czasem coraz silniej zintegrowana z wyszukiwarkami, a blokowanie jej dostępu do treści może działać podobnie jak zablokowanie Googlebota – Twoja strona może po prostu przestać być widoczna w nowoczesnych wynikach wyszukiwania.
Oczywiście, to indywidualna decyzja. Jeśli chcesz chronić konkretne treści, masz do tego prawo. Ale warto pamiętać, że zamknięcie się przed AI to także zamknięcie się na potencjalny ruch w przyszłości.
Ważne:
- Systemy AI przestrzegają
robots.txttylko dobrowolnie.
To nie jest techniczna blokada – opiera się na etyce i zasadach danego dostawcy. - Złośliwe boty lub niezależne instytucje mogą zignorować te ustawienia.
- Dlatego wrażliwe dane nadal należy chronić od strony backendu (np. hasłem, autoryzacją, zabezpieczeniem przed scrapingiem).
Llms.txt to nowa, nieformalna propozycja pliku tekstowego umożliwiającego właścicielom stron określenie, czy ich treści mogą być wykorzystywane przez modele językowe AI. Choć jego przestrzeganie jest obecnie dobrowolne i nie wszystkie firmy go uwzględniają, może stać się w przyszłości standardem ochrony treści w erze sztucznej inteligencji, podobnie jak robots.txt w SEO.
Jeśli chcesz chronić treści swojej strony przed wykorzystaniem przez modele AI, najszybszym i obecnie najskuteczniejszym sposobem jest dodanie odpowiednich reguł do pliku robots.txt. Choć nie daje to pełnej gwarancji, większość liczących się firm AI już dziś respektuje takie ograniczenia – i jest to realny sposób na ograniczenie niechcianego trenowania modeli na Twojej treści.