Ø LLMS.txt ou Robots.txt? Qual a diferença?

LLMs.txt: A Nova Fronteira para Interações entre Sites e Inteligência Artificial

Profissionais que trabalham com extração de dados da web certamente conhecem o arquivo robots.txt, tradicionalmente localizado na raiz dos websites. Este documento estabelece diretrizes claras sobre quais informações podem ser coletadas ou indexadas de um determinado site. Afinal LLMS.txt ou Robots.txt? Qual a diferença? 

LLMS.txt ou Robots.txt? Qual a diferença?

Recentemente, um novo conceito surgiu no mundo digital: o llms.txt. Embora seja uma inovação recente, seu potencial de transformação é significativo, principalmente se adotado amplamente pelos administradores de websites.

Este artigo explorará detalhadamente o que é o llms.txt, sua relevância e como pode transformar as estratégias de SEO e marketing digital na nova era dominada pela inteligência artificial.

Compreendendo o Contexto: Robots.txt e Buscadores com IA

O que é Robots.txt?

O robots.txt consiste em um arquivo textual simples posicionado na raiz de um website (exemplo: dominio.com/robots.txt) que oferece instruções aos rastreadores web (como os bots do Google, Bing ou ferramentas de scraping) sobre as áreas do site que podem ou não ser acessadas.

Este arquivo integra o Protocolo de Exclusão de Robôs, um padrão utilizado para orientar e controlar robôs automatizados que navegam pelos sites.

  • Tela imersiva FHD+ e Dolby Atmos
  • Câmera de 50 MP + OIS
  • Velocidade 5G
  • Superbateria e carregamento TurboPower
  • Bastante armazenamento interno

Funções do Robots.txt:

  • Permite ou restringe o acesso a URLs e diretórios específicos
  • Auxilia no gerenciamento da indexação por mecanismos de busca
  • Previne sobrecargas nos servidores causadas por tráfego desnecessário de bots
  • Funciona como uma solicitação, não como uma ordem obrigatória

Exemplo Prático: Google.com

O arquivo robots.txt do Google fornece diretrizes para todos os rastreadores da web (indicados por User-agent: *). O arquivo proíbe a indexação de caminhos como /search, /groups, /imgres, /setprefs e diversos URLs relacionados a dispositivos móveis, considerados sensíveis ou dinâmicos.

LLMS.txt ou Robots.txt? Qual a diferença?
Fonte: Captura de tela de google.com/robots.txt

Simultaneamente, permite acesso a páginas específicas como /search/about, /search/static, /search/howsearchworks e /m/finance, provavelmente por serem relevantes para usuários ou propósitos documentais.

Ademais, implementa regras precisas com strings de consulta (exemplo: /?hl=, /?gws_rd=ssl$) para ajustar o acesso dos rastreadores.

O uso do símbolo $ assegura que a regra se aplique exclusivamente às URLs que terminam com aquele padrão específico. Em suma, este arquivo ajuda o Google a controlar o conteúdo rastreado, evitar indexações redundantes e otimizar a eficiência da navegação.

Buscadores Potencializados por IA

Os mecanismos de busca baseados em inteligência artificial representam sistemas avançados que utilizam IA, especialmente os Modelos de Linguagem de Grande Escala (LLMs), para compreender consultas profundamente e entregar resultados contextualizados e inteligentes.

Diferentemente dos buscadores tradicionais, que dependem principalmente da correspondência de palavras-chave e análise de links, os sistemas com IA procuram entender a intenção do usuário, o significado semântico e até o contexto conversacional da pesquisa.

Estes sistemas podem sintetizar respostas, gerar conteúdo e interagir de maneira similar a um humano.

Exemplos de Buscadores com IA:

  • Perplexity
  • Gemini
  • Grok 3
  • ChatGPT
  • DeepSearch

Estes buscadores alimentados por IA necessitam de fontes de dados, sendo as páginas web prontamente disponíveis sua principal fonte. Utilizando a internet, identificam quais URLs precisam ser investigados. Para isso, podem utilizar APIs como Google Search API, Bing Search API, Serper API e Tavily API.

Após identificarem URLs relevantes, o próximo passo envolve coleta e extração de dados dos sites correspondentes.

  • Desafie o tédio: Com um design slim, várias cores e tecnologia ainda mais inteligente, este teclado Bluetooth da coleção Pebble 2 permite que você expresse sua vibe.
  • Fora do comum; feito para ir a qualquer lugar: o teclado Pebble Keys 2 K380s é slim, compacto, portátil e feito com plástico reciclado
  • Alterne facilmente entre três dispositivos: Use o Bluetooth para conectar até três dispositivos sem fio entre sistemas operacionais (Windows, macOS, iPadOS, ChromeOS) e alterne entre eles com um clique dos botões Easy-Switch.
  • Economize tempo: Obtenha acesso instantâneo à busca, captura de tela, menu de emojis e muito mais com as teclas de atalho Fn; personalize as dez teclas Fn com o aplicativo Logi Options+ para que você possa fazer as coisas do seu jeito.
  • Digitação agradável na ponta dos seus dedos: O teclado de baixo ruído Pebble Keys 2 K380s vem com teclas redondas e uma experiência de digitação familiar, confortável e sem esforço, semelhante a de um notebook.

Estes dados extraídos precisam ser estruturados claramente para que, quando fornecidos aos LLMs junto com a consulta do usuário, os modelos possam formular respostas eficazes utilizando o contexto disponibilizado.

Consequentemente, o desafio principal reside no processo de extração. Esta extração frequentemente precisa ocorrer em tempo real, e uma dificuldade significativa é que as páginas web apresentam estruturas variadas. Isso exige o desenvolvimento de scripts versáteis capazes de processar essas estruturas diversas.

Além disso, é necessário extrair dados de todas as URLs para encontrar a resposta desejada e fragmentá-la adequadamente.

Para superar este obstáculo, um tipo de marcador de metadados semelhante ao robots.txt pode ser adotado pelos proprietários de sites para guiar os buscadores com IA na recuperação eficaz de informações, evitando sobrecargas e imprecisões.

LLMs.txt: Uma Nova Proposta

Em setembro de 2024, Jeremy Howard, cofundador da Answer.AI, propôs o formato llms.txt como um método padronizado para sites fornecerem informações cruciais aos LLMs.

A proposta foi apresentada através de um repositório no GitHub (GitHub — AnswerDotAI/llms-txt) e um post no blog da Answer.AI (Answer.AI — /llms.txt Proposal), destacando a necessidade de uma abordagem padronizada para tornar os sites mais compatíveis com sistemas de IA.

Com ferramentas avançadas de IA como Perplexity, ChatGPT, Gemini e Grok reformulando o comportamento de busca das pessoas, torna-se fundamental que o conteúdo dos sites apareça nas respostas.

O llms.txt funciona de maneira semelhante ao robots.txt, mas direcionado a robôs de IA em vez de rastreadores convencionais.

Objetivo Principal

O propósito do llms.txt é superar as limitações dos LLMs no processamento de dados da web, especialmente em cenários onde as janelas de contexto são insuficientes para processar sites inteiros e onde a conversão de HTML complexo para texto simples apresenta imprecisões.

Isso é particularmente importante para casos como ambientes de desenvolvimento, onde os LLMs precisam acessar rapidamente documentações de programação e APIs, além de aplicações mais amplas como sites corporativos, legislação e recursos educacionais.

Isto significa que os administradores de sites poderão especificar quais informações podem ser utilizadas pelos buscadores com IA.

Como resultado, cada proprietário de site estará disposto a compartilhar determinadas informações (como metadados) com os buscadores baseados em IA, pois estas aparecerão diretamente nas pesquisas dos usuários. Portanto, a extração não precisará ser realizada para todos os URLs.

  • CONHEÇA O ECHO POP - Este smart speaker compacto com Alexa conta com som de qualidade e é perfeito para quartos e espaços pequenos. Pequeno o suficiente para combinar com o ambiente, mas poderoso o bastante para se destacar.
  • CONTROLE A MÚSICA POR VOZ - Peça para Alexa tocar músicas e podcasts nas suas plataformas preferidas, como Amazon Music, Apple Music, Spotify, Deezer e outras. Conecte-o também por Bluetooth e ouça músicas do seu celular em todo o ambiente.
  • TORNE SUA CASA INTELIGENTE - Controle dispositivos de casa inteligente compatíveis, como plugues ou lâmpadas inteligentes, com sua voz ou pelo aplicativo Alexa. Crie rotinas para ligar as luzes ao pôr do sol ou para apagá-las automaticamente na hora de dormir.
  • SUA VIDA MAIS FÁCIL - Peça para Alexa definir timers, informar a previsão do tempo, ler as notícias, comprar produtos, realizar chamadas, responder às suas perguntas e muito mais.
  • ALEXA TEM SKILLS - Com milhares de Skills, Alexa pode te ajudar a fazer mais coisas em menos tempo ao tocar músicas relaxantes ou acompanhar as últimas notícias.
  • SOBRE A BARRA DE LUZ- Alexa só começa a escutar quando seu dispositivo detecta a palavra “Alexa” e sua barra de luz fica azul.
  • DESENVOLVIDO PARA PROTEGER A SUA PRIVACIDADE - A Amazon não vende informações pessoais de clientes. Este dispositivo foi desenvolvido com várias camadas de controles de privacidade, incluindo o botão de desligar o microfone.
  • DESENVOLVIDO PARA A SUSTENTABILIDADE - Nós pensamos na sustentabilidade ao desenvolver este dispositivo com 100% do tecido feito com fios de poliéster reciclados pós-consumo e 80% de alumínio reciclado. 99% da embalagem deste dispositivo é feita de materiais à base de fibra de madeira de florestas geridas de forma responsável ou fontes recicladas.

LLMS.txt ou Robots.txt? Qual a diferença?

Formato e Estrutura do LLMs.txt

Atualmente, o formato mais abrangente e compreensível para modelos de linguagem é o Markdown. Simplesmente indicar onde os principais arquivos Markdown podem ser encontrados já constitui um excelente primeiro passo.

LLMS.txt ou Robots.txt? Qual a diferença?
Fonte: Imagem do Github

Fornecer uma estrutura básica auxilia um modelo de linguagem a localizar a origem das informações necessárias.

O arquivo llms.txt é peculiar por utilizar Markdown para estruturar informações, em vez de formatos estruturados clássicos como XML. Isso ocorre porque espera-se que muitos desses arquivos sejam interpretados por modelos e agentes de linguagem.

Ainda assim, as informações no llms.txt seguem um formato específico e podem ser processadas utilizando ferramentas programáticas padrão.

A especificação do arquivo llms.txt destina-se a arquivos localizados no caminho raiz /llms.txt de um site (ou, opcionalmente, em um subcaminho). Um arquivo conforme a especificação contém as seguintes seções em markdown, na ordem específica:

  1. Um H1 com o nome do projeto ou local (única seção obrigatória)
  2. Um bloco de citação com um breve resumo do projeto, contendo informações essenciais para compreensão do restante do arquivo
  3. Nenhuma ou mais seções markdown (parágrafos, listas, etc.) de qualquer tipo, exceto títulos, contendo informações detalhadas sobre o projeto e como interpretar os arquivos fornecidos
  4. Nenhuma ou mais seções markdown delimitadas por cabeçalhos H2, contendo “listas de arquivos” com URLs onde mais detalhes estão disponíveis
    • Cada “lista de arquivos” é uma lista markdown, contendo um hiperlink markdown obrigatório nome e, opcionalmente, notas sobre o arquivo.

Exemplo Prático

Considerando a página de documentação do Langraph, ao enviar uma solicitação GET para llms.txt, o sistema retorna os detalhes da página em formato Markdown, que podem ser facilmente encaminhados para o LLM. Isso elimina a necessidade de extração explícita, pois o próprio site fornece o conteúdo adequado para processamento por IA.

  • Conteúdo da caixa: 1x JBL Charge 5 com Wi-Fi 1x cabo USB tipo C 1x ficha de segurança 1x guia de início rápido 1x cartão de garantia e instruções de segurança
  • Compatibilidade de rede Wi-Fi 5G: 802.11a/n/ac/ax

Por que não usar sitemap.txt?

O sitemap.xml representa uma lista de todas as informações indexáveis e legíveis disponíveis em um site. Não substitui o llms.txt porque:

  • Frequentemente não contém versões legíveis para LLM das páginas listadas
  • Não inclui URLs para sites externos, mesmo quando úteis para compreender as informações
  • Geralmente abrange documentos que, coletivamente, são volumosos demais para uma janela de contexto do LLM e incluem informações desnecessárias para entender o site

Adoção pela Comunidade

O padrão llms.txt teve rápida aceitação, principalmente entre ferramentas de desenvolvimento e projetos relacionados à IA. Notavelmente, o Mintlify, uma plataforma popular de documentação, implementou suporte integrado ao llms.txt, assim como o site de documentação do Langraph. Empresas como Anthropic e Cursor adotaram o padrão através do Mintlify, evidenciando sua crescente importância no setor.

O engajamento da comunidade é fomentado através do repositório GitHub (GitHub AnswerDotAI/llms-txt) e um canal dedicado no Discord (Discord Channel), onde ocorrem discussões sobre melhores práticas, implementações e feedback.

Casos de Uso e Aplicações

A versatilidade do llms.txt o torna aplicável em diversos domínios, aprimorando a interação entre conteúdo web e tecnologias de IA:

  • Documentação de software: simplifica o acesso a referências de API, guias e exemplos para desenvolvedores que utilizam LLMs em seus fluxos de trabalho, como observado em implementações como FastHTML e LangChain.
  • Sites comerciais: fornecem informações estruturadas sobre serviços, produtos e políticas empresariais, facilitando o atendimento ao cliente por assistentes de IA.
  • Legislação: torna documentos e regulamentações legais mais acessíveis aos modelos de IA para análise e interpretação, potencialmente auxiliando na pesquisa jurídica.
  • Portfólios pessoais: permite que indivíduos apresentem seus trabalhos e conquistas em formato facilmente analisável por LLMs, aprimorando a compatibilidade com processos de recrutamento ou networking baseados em IA.
  • E-commerce: oferece descrições de produtos, preços e termos de serviço estruturadamente, aperfeiçoando assistentes de compras baseados em IA.
  • Recursos educacionais: facilita o uso de conteúdo educativo por tutores ou assistentes de IA, enriquecendo experiências de aprendizagem através da integração com IA.

À medida que a inteligência artificial continua expandindo-se, iniciativas como o llms.txt desempenharão papel crucial para garantir que o conteúdo web permaneça acessível e valioso, incentivando administradores de sites a implementarem este padrão para aprimorar sua interação com tecnologias de IA.

FAQ: LLMS.txt ou Robots.txt? Qual a diferença?

Perguntas Frequentes

O que é o arquivo robots.txt?

O robots.txt é um arquivo tradicional colocado na raiz de um site que fornece instruções aos rastreadores web (como Googlebot) sobre quais partes do site podem ou não ser acessadas e indexadas. É parte do Protocolo de Exclusão de Robôs e existe há décadas como um padrão web.

O que é o arquivo llms.txt?

O llms.txt é um novo formato proposto em setembro de 2024 por Jeremy Howard da Answer.AI, criado especificamente para orientar modelos de linguagem de grande porte (LLMs) sobre como interpretar e acessar o conteúdo de um site. Diferentemente do robots.txt, ele usa formato Markdown e é otimizado para processamento por inteligência artificial.

LLMS.txt ou Robots.txt? Qual a diferença? principal entre os dois formatos?

A principal diferença é o público-alvo: robots.txt é direcionado a rastreadores web tradicionais, enquanto llms.txt é projetado para modelos de linguagem e sistemas de IA. O robots.txt usa um formato simples de texto com regras de permissão/proibição, enquanto o llms.txt utiliza Markdown estruturado para fornecer contexto rico e navegação para LLMs.

É necessário ter ambos os arquivos em meu site?

Sim, idealmente. Como estes arquivos servem a propósitos diferentes para tipos diferentes de visitantes automatizados, ter ambos LLMS.txt e Robots.txt otimiza como seu site interage tanto com rastreadores tradicionais quanto com sistemas modernos de IA.

Como o arquivo llms.txt beneficia meu SEO?

Com o crescimento dos buscadores baseados em IA como Perplexity e ChatGPT, implementar o llms.txt pode ajudar seu site a ser melhor interpretado por estes sistemas, potencialmente aumentando sua visibilidade nas respostas geradas por IA. Ao considerar LLMS.txt ou Robots.txt? Qual a diferença?, note que o llms.txt pode ser especialmente valioso para SEO em um futuro próximo dominado por IA.

Quais informações devo incluir no meu arquivo llms.txt?

Seu arquivo llms.txt deve incluir um título H1 com o nome do site/projeto, um resumo conciso, informações contextuais relevantes e links estruturados para as páginas mais importantes do seu site, especialmente aquelas que você deseja que os modelos de IA acessem prioritariamente.

O arquivo llms.txt é obrigatório?

Não, o llms.txt não é obrigatório atualmente. É um padrão proposto que está ganhando adoção, mas ainda não é universalmente implementado ou exigido. Ao comparar LLMS.txt ou Robots.txt? Qual a diferença?, observe que o robots.txt é mais estabelecido, enquanto o llms.txt representa uma evolução para a era da IA.

Como posso implementar o llms.txt no meu site?

Crie um arquivo Markdown seguindo a estrutura especificada (título H1, bloco de citação para resumo, seções informativas e listas de arquivos com links) e hospede-o na raiz do seu site em /llms.txt. Algumas plataformas como o Mintlify já oferecem suporte integrado.

O llms.txt substitui o sitemap.xml?

Não. Enquanto o sitemap.xml fornece uma lista completa de URLs para indexação, o llms.txt oferece informações estruturadas e contextualizadas especificamente para modelos de linguagem. Ao analisar LLMS.txt ou Robots.txt? Qual a diferença?, é importante notar que o llms.txt complementa, mas não substitui, outros arquivos de metadados.

Quais tipos de sites mais se beneficiam do llms.txt?

Sites de documentação técnica, portais de conhecimento, sites educacionais, e-commerce, sites corporativos e plataformas de conteúdo são os que mais se beneficiam da implementação do llms.txt, pois geralmente contêm informações complexas que precisam ser corretamente interpretadas por sistemas de IA.

Fontes e referências

Foto de Jan Carle

Jan Carle

Atuando na internet desde 2005, sou um criador de conteúdo apaixonado por compartilhar conhecimento. No meu blog NetJan.com, escrevo sobre diversos temas, trazendo insights sobre tecnologia, negócios, marketing digital e muito mais. Além disso, sou especialista em gestão de redes sociais, Social Media e administração de perfis empresariais no Google Meu Negócio, ajudando marcas a fortalecerem sua presença digital. 🚀.

Saiba Mais

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo