AI 爬虫访问

适用于 AI 爬虫的 Shopify robots.txt

Shopify robots.txt、AI 抓取工具访问、私有路径、Googlebot 风险以及代理购物可见性监控的实用指南。

ShopGox Editorial2026/5/23zh-CN
适用于 AI 爬虫的 Shopify robots.txt:允许、阻止和监控的内容

人工智能购物系统无法推荐他们无法抓取、阅读或信任的商品。对于 Shopify 商店,robots.txt 是产品目录与搜索引擎、人工智能助手、购物代理和商业爬虫之间的首要门户之一。

我们的目标不是允许一切。目标是保持重要的产品、集合、图像和结构化数据路径可访问,同时保护购物车、结帐、帐户、搜索、过滤器和无助于发现的内部实用程序路径。

Robots.txt 控制抓取,而不是内容质量

Robots.txt 告诉合规爬虫它们不应请求哪些路径。它不会添加产品架构、修复重复变体、改进精简描述或保证索引。将其视为爬虫的访问控制,而不是技术 SEO 的替代品。

默认情况下 Shopify 通常可以很好地处理哪些内容

保留这些默认设置,除非有明确的原因

  • check_circle产品和产品系列页面应保持可抓取状态。
  • check_circle呈现产品内容所需的静态资源应保持可抓取状态。
  • check_circle购物车、结帐、帐户和内部搜索路径通常不需要抓取工具访问权限。
  • check_circle站点地图路径应保持可发现性。
  • check_circle除非您有意删除 Google 搜索访问权限,否则不应阻止 Googlebot。

Shopify 的合理 AI 抓取工具策略

Visual summary diagram for Shopify robots.txt for AI Crawlers: What to Allow, Block, and Monitor.

对于成长阶段的电子商务网站来说,平衡的政策通常比一揽子封锁更好。允许爬虫能够创造发现价值、保护私有和低价值路径以及监控日志或 CDN 分析以发现异常流量。

Shopify 的合理 AI 抓取工具策略

路径类型推荐政策为什么它很重要
产品页面允许它们包含人工智能购物系统所需的商业事实。
收藏页面允许它们帮助抓取工具了解类别、库存分组和内部链接。
产品图片允许图像支持视觉搜索、预览和更丰富的产品理解。
购物车和结账禁止它们无助于发现,并且可能会造成抓取浪费。
客户帐户页面禁止它们是私有的或对于公众发现而言价值较低。
内部搜索和过滤的网址通常不允许他们可以创建重复或无限的抓取路径。
站点地图允许它可以帮助爬虫有效地找到规范的网址。

AI 抓取工具的 Shopify robots.txt 规则示例

Shopify 商店可以通过主题的 robots.txt.liquid 模板自定义机器人规则。保持自定义规则较小、记录在案且易于撤销。不要盲目地从其他商店复制爬虫阻止列表。

User-agent: *
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /search
Disallow: /*?*sort_by=
Disallow: /*?*filter.

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Disallow: /cart
Disallow: /checkout
Disallow: /account

User-agent: Google-Extended
Disallow: /

Google 扩展与 Googlebot 不同

Google-Extended 是针对某些 Google AI 培训和产品用例的单独控件。阻止 Google-Extend 与阻止 Googlebot 不同。如果您的首要任务是搜索可见性,切勿将它们视为可互换的。

更改 robots.txt 后要监控的内容

更改后检查

  1. 1打开 /robots.txt 并确认最终渲染的文件符合您的预期。
  2. 2验证 Googlebot 没有屏蔽产品和产品系列网址。
  3. 3检查站点地图网址是否仍可访问。
  4. 4针对代表性产品页面运行抓取工具访问检查。
  5. 5观察服务器、CDN 或 Shopify 分析以了解抓取峰值。
  6. 6为 robots.txt 的每项更改保留注明日期的注释,以便您可以快速回滚。

常见的 Shopify robots.txt 错误

常见的 Shopify robots.txt 错误

  • error当重要的变体 URL 依赖于参数时,阻止所有查询参数。
  • error阻止产品预览所需的图像文件夹。
  • error阻止 Googlebot,同时尝试仅阻止 AI 训练抓取工具。
  • error假设 robots.txt 可以自行修复重复内容。
  • error忘记某些抓取工具可能会忽略 robots.txt 或使用更改的用户代理字符串。

常见问题

Shopify 商店应该阻止 AI 爬虫吗?keyboard_arrow_down

默认情况下不是。如果人工智能购物可见性很重要,请允许爬虫访问公共产品和产品系列页面,同时阻止私有或低价值路径,例如购物车、结帐、帐户、搜索和重复过滤器。

robots.txt 能否从 Google 中删除 Shopify 产品页面?keyboard_arrow_down

Robots.txt 控制抓取。如果 Google 已经知道某个 URL,则阻止抓取与干净的 noindex 策略不同。对于 Google 搜索,请特别小心,不要阻止 Googlebot 访问重要的产品页面。

Shopify 是否允许 robots.txt 自定义?keyboard_arrow_down

是的,Shopify 支持通过主题的 robots.txt.liquid 模板进行 robots.txt 自定义。保持更改保守并在发布后测试渲染的 /robots.txt 文件。

哪些 Shopify 网址应保持可抓取以供 AI 购物使用?keyboard_arrow_down

产品页面、产品系列页面、产品图片、规范 URL 和站点地图 URL 通常应保持可抓取状态,因为它们包含产品事实、类别上下文和发现链接。

相关工具

相关文章