什么是 robots.txt 文件?

robots.txt 文件用于告知搜索引擎爬虫可以或不能请求您网站上的哪些页面或文件。robots.txt 是一个网络标准文件,大多数良性爬虫在请求特定域名内容前都会先读取该文件。

您可能希望保护网站的某些区域不被爬取(从而避免被索引),例如 CMS 后台、电商用户账户或某些 API 路由等。这些文件必须部署在每个主机的根目录下,或者您可以将根路径 /robots.txt 重定向到目标 URL,大多数爬虫会遵循该规则。

如何在 Next.js 项目中添加 robots.txt 文件

借助 Next.js 的静态文件服务功能,我们可以轻松添加 robots.txt 文件。只需在项目根目录的 public 文件夹中创建名为 robots.txt 的新文件。文件内容示例如下:

//robots.txt
 
# 禁止所有爬虫访问 /accounts
User-agent: *
Disallow: /accounts
 
# 允许所有爬虫访问其他路径
User-agent: *
Allow: /

当您使用 yarn dev 运行应用时,该文件将通过 http://localhost:3000/robots.txt 地址访问。请注意 URL 中不包含 public 目录名。

切勿修改 public 目录名称。该目录名不可更改,是唯一用于托管静态资源的目录。

扩展阅读

On this page