通过llms.txt文件让AI更容易的收录你的网站内容
date
May 11, 2025
AI 摘要
slug
how-to-make-ai-index-your-website-content-via-llms-txt-file
status
Published
tags
front-end
summary
llms.txt 是一个专为大型语言模型(Large Language Models,简称 LLMs)设计的文本文件,类似于 robots.txt,但目的不同。robots.txt 告诉搜索引擎爬虫哪些页面可以爬取,而 llms.txt 则是为 AI 工具提供网站内容的结构化信息,帮助 AI 更好地理解和索引网站内容。
llms.txt 的名称中的 "llms" 代表 "Large Language Models",表明这个文件是专门为大型语言模型设计的。
type
Post
llms.txt 是一个专为大型语言模型(Large Language Models,简称 LLMs)设计的文本文件,类似于 robots.txt,但目的不同。robots.txt 告诉搜索引擎爬虫哪些页面可以爬取,而 llms.txt 则是为 AI 工具提供网站内容的结构化信息,帮助 AI 更好地理解和索引网站内容。
llms.txt 的名称中的 "llms" 代表 "Large Language Models",表明这个文件是专门为大型语言模型设计的。
一、llms.txt 的由来
随着 ChatGPT、Claude 等 AI 工具的普及,开发者希望这些 AI 工具能够更好地理解和索引他们的文档。然而,AI 工具在抓取和理解网站内容时面临着一些挑战:
- 网站结构复杂,AI 难以理解内容之间的关系
- 网站内容可能分散在多个页面,AI 难以获取完整信息
- 网站可能包含动态内容,AI 难以抓取
为了解决这些问题,一些开发者和 AI 公司开始探索一种标准化的方式,让网站所有者能够主动向 AI 工具提供网站内容的结构化信息。这就是 llms.txt 的由来。
相关标准对比
文件类型 | 主要功能 | 目标用户 |
robots.txt | 控制爬虫访问权限 | 搜索引擎爬虫 |
sitemap.xml | 提供可索引页面列表 | 搜索引擎 |
llms.txt | 优化内容结构呈现 | AI系统 |
二、llms.txt 的规范
标准定义了两类文件:
- 基础文件(/llms.txt):作为核心导航指南,概述网站主要内容框架
- 扩展文件(/llms-full.txt):可选补充文件,包含完整内容细节供深度查询使用
机器人协议配置 在robots.txt中添加AI爬虫专用规则
1、基础文件(llms.txt
):
作为核心导航指南,概述网站主要内容框架
llms.txt 文件通常放置在网站的根目录下,例如
https://example.com/llms.txt
。它的内容格式比较自由,但通常包含以下几个部分:- 网站标题和描述:简要介绍网站的主题和内容
- 内容目录:列出网站的主要页面和链接
- 内容摘要:提供网站主要内容的摘要
下面是一个简单的示例:
2、扩展版本 llms-full.txt
此外,还有一个扩展版本
llms-full.txt
,它包含网站的完整内容,让 AI 工具能够获取网站的所有信息。下面是一个简单的示例:三、llms.txt 的作用
llms.txt 是放置在网站根目录下的 Markdown 文件,包含结构化内容导航和核心信息摘要。其标准由 Answer.AI 联合创始人 Jeremy Howard 提出,目的是解决传统网页(如复杂 HTML 元素)对 AI 处理效率的干扰。主要作用如下:
- 优化 AI 内容处理
- 过滤冗余信息:去除导航栏、JavaScript 等非必要元素,直接为 AI 提供“纯净”文本。
- 结构化呈现:通过标题(H1/H2)和列表划分内容模块,帮助 AI 快速理解网站架构。
- 上下文管理:适应 AI 的有限上下文窗口,优先提供关键内容。
- 控制 AI 访问权限
- 指定允许抓取的页面路径(如
/docs
),排除敏感或无关内容(如/admin
)。 - 声明内容使用规则(如引用授权、禁止商用)。
- 提升生成结果质量
- 标注关键词和术语,增强 AI 对专业领域内容的理解。
- 通过
llms-full.txt
提供完整文档细节,供 AI 深度查询。
四、llms.txt 的生成工具与实操指南
4.1、自动化工具
4.1.1、Firecrawl LLMs.txt Generator:
Firecrawl LLMs.txt Generator 支持输入网址自动生成文件,提供 API 接口,适合技术文档站。
4.1.2、SiteSpeakAI:
SiteSpeakAI LLMs.txt Generator 免费在线工具,一键抓取网站内容并生成标准化文件。
4.1.3、Mintlify:
4.2、开发插件:vitepress-plugin-llms
vitepress-plugin-llms 是一个专为 VitePress 文档网站设计的插件,它可以自动生成 llms.txt 和 llms-full.txt 文件,让你的 VitePress 文档更好地被 AI 工具理解和索引。
尤雨溪推荐的 VitePress 插件,安装后自动生成文件并集成到文档站。
配置 VitePress 后,文件将自动生成至根目录。
4.3、快速生成方法
URL 转换工具,访问
https://llmstxt.new/你的网站域名
(如 llmstxt.new/https://example.com
),系统自动抓取并生成 Markdown 格式文件。五、注意事项
- 内容质量优先:需配合原创优质内容,仅技术优化无法替代内容价值。
- 持续更新:定期更新
llms.txt
可建立 AI 信任度,提升收录优先级。
- 兼容性验证:使用工具生成后,建议通过 LLMs TXT Hub 校验文件格式。
通过上述工具和方法,开发者可快速为网站生成符合标准的
llms.txt
文件,显著提升 AI 对内容的理解与应用效率。实用工具推荐
[1] Firecrawl LLMs.txt Generator :https://llmstxt.firecrawl.dev/
[2] SiteSpeakAI LLMs.txt Generator : https://sitespeak.ai/tools/llms-txt-generator
[3] apify/actor-llmstxt-generator : https://github.com/apify/actor-llmstxt-generator
[4] WordLift AI-Powered SEO Generator : https://wordlift.io/generate-llms-txt/
[5] Mintlify : https://mintlify.com/docs/settings/llms
总结
llms.txt 为 AI 工具提供了一种统一的方式来获取和理解网站内容,而 vitepress-plugin-llms 插件则让 VitePress 文档网站轻松支持这一标准。通过在 Wot Design Uni 项目中引入这一插件,我们让 AI 工具能够更好地理解和索引我们的文档内容,为用户提供更准确、更有价值的信息。
随着 AI 技术的不断发展,llms.txt 标准可能会得到更广泛的支持和应用。作为开发者,我们可以通过引入这一标准,让我们的文档在 AI 时代保持良好的可访问性和可发现性。