apps搜索引擎优化工具
radarAI 爬虫访问检查器

AI Crawler Access Checker:检查电商产品页的爬虫访问

检查搜索引擎和 AI 爬虫是否能发现、抓取、索引并读取你的产品页;重点核对 robots.txt、meta robots、X-Robots-Tag、sitemap、canonical 和最终渲染内容。

check_circlerobots.txt 和 AI bot 规则
check_circlemeta robots 与 X-Robots-Tag
check_circlesitemap 与 canonical 发现
check_circle最终渲染页面访问
系统就绪
link

无需登录 · 免费扫描 · 即时在线报告

审计范围

该工具检查什么

robots.txt 规则

检查重要产品 URL 或 crawler group 是否被 robots.txt 拦截,包括面向搜索引擎和 AI crawler user agent 的规则。

索引指令

检查 meta robots 和 X-Robots-Tag。即使 robots.txt 允许抓取,这些指令也可能阻止页面被索引或链接被跟随。

发现信号

核对 sitemap、canonical、hreflang 和内部链接信号,确认爬虫能找到首选产品 URL。

渲染访问

识别 JavaScript、重定向、密码门、地区限制或应用故障是否让爬虫看不到关键产品信息。

Crawler Access Map

这个检查器会拆开的访问层

Crawler access 不是一个开关。页面可能 robots.txt 放行了,却被 noindex 拦住;也可能没进 sitemap、被 canonical 指走,或者浏览器能看完整但 crawler 只能看到残缺版本。这个检查器会把每一层拆开,让你知道风险到底卡在哪个门槛。

robots.txt 和 AI bot 规则

robots.txt 控制特定 user agent 是否允许抓取某个 URL。它适合做抓取控制,但不等于索引、排名或 AI 可见性。

信号示例

User-agent: OAI-SearchBot / GPTBot / ClaudeBot / Claude-SearchBot / PerplexityBot / Google-Extended; Disallow: /products/

重点核对

  • check_circle产品 URL 没有被过宽的 Disallow 规则意外拦截。
  • check_circle搜索、购物和 AI-specific user agents 是被有意处理的,而不是复制粘贴来的默认规则。
  • check_circle当 robots.txt 也承担发现提示时,sitemap 位置清晰暴露。

meta robots 和 X-Robots-Tag

crawler 可以抓到页面,但仍可能被告知不要索引。meta robots 和 HTTP X-Robots-Tag headers 经常能解释为什么产品 URL 可发现,却没有进入搜索索引。

信号示例

meta robots: noindex, nofollow; X-Robots-Tag: noindex

重点核对

  • check_circle产品页没有从 staging、筛选页或应用模板继承 noindex。
  • check_circleHTTP headers 和 HTML 指令没有互相冲突。
  • check_circle索引指令与页面的 canonical 和 sitemap 状态一致。

sitemap、canonical 和市场发现

sitemap 和 canonical 会告诉 crawler 哪个产品 URL 应该代表这个商品。这里漂移时,AI 和搜索系统可能收集到错误的变体、市场或集合页语境。

信号示例

sitemap.xml URL + canonical 产品 URL + hreflang market equivalents

重点核对

  • check_circle首选产品 URL 出现在 sitemap.xml 中。
  • check_circlecanonical 指向产品页,而不是筛选集合页或过期变体。
  • check_circle本地化市场 URL 使用一致的 canonical 与 hreflang 关系。

最终渲染的产品事实

AI 和搜索 crawler 需要最终产品事实,而不是空壳页面。渲染失败会让 schema、价格、库存或产品属性对 crawler 不可见。

信号示例

Rendered HTML: Product schema, price, availability, attributes, reviews, return and shipping context

重点核对

  • check_circle核心事实不需要登录、购物车状态或用户交互就能出现。
  • check_circleJavaScript 和应用组件不会把关键 schema 或 Offer 数据延迟到 crawler 收集不到。
  • check_circlebot 防护、重定向和地区限制不会向 crawler 返回过薄或被拦截的页面。

常见拦截器

值得首先解决的问题

priority_high

AI crawler group 被误拦截

robots.txt 可能会拦截 GPTBot、OAI-SearchBot、ClaudeBot、Claude-SearchBot 和 PerplexityBot,也可能通过 Google-Extended 做内容使用 opt-out。过宽的 bot 规则还会误伤产品页。

priority_high

产品 URL 带 noindex

产品页可以被抓取,但仍可能被 meta robots 或 X-Robots-Tag noindex 指令排除在索引之外。

priority_high

sitemap 或 canonical 漂移

爬虫发现的是一个 URL,但 canonical、hreflang 或 sitemap 条目却指向另一个市场、变体或集合页。

priority_high

渲染内容对 bot 不完整

延迟 JavaScript、应用组件、重定向或 bot 防护可能让价格、库存、schema 或属性无法出现在 crawler-visible 页面里。

工作流程

从 URL 到修复计划

01

粘贴线上产品 URL

使用你希望搜索引擎和 AI 系统发现的公开产品页,不要使用预览链接或后台 URL。

02

拆开每一层访问门槛

ShopGox 会一起检查 robots.txt、页面指令、sitemap/canonical 信号,以及最终渲染出的产品内容。

03

先修真正挡路的那一层

根据报告判断问题属于 robots.txt、主题模板、HTTP headers、sitemap 设置、应用规则,还是平台配置。

常见问题解答

扫描前的问题

允许 AI crawler 就能保证 AI 可见性吗?
expand_more
不能。允许访问只代表 crawler 没有被阻止抓取页面。AI 可见性仍取决于产品数据质量、权威性、新鲜度、商家数据源,以及对应 AI 系统是否选择使用这个页面。
robots.txt 和 noindex 是一回事吗?
expand_more
不是。robots.txt 控制是否允许抓取,noindex 控制已抓取页面是否可以进入索引。一个页面可以被 robots.txt 放行,但仍被 meta robots 或 X-Robots-Tag 排除。
我应该屏蔽 GPTBot、ClaudeBot 或 PerplexityBot 吗?
expand_more
这是商业决策。屏蔽可能减少某些 AI 训练或检索访问,但也可能降低 AI 系统收集你产品事实的机会。这个检查器帮助你看清当前规则实际在做什么。
为什么 sitemap 访问对 AI 搜索有影响?
expand_more
sitemap 帮助 crawler 发现 canonical 产品 URL,并重新抓取重要页面。如果产品页没有出现在 sitemap.xml 里,AI 和搜索系统可能只能依赖更弱的内部链接或过期 URL。
Shopify 或电商应用会意外屏蔽 crawler 吗?
expand_more
会。主题模板、robots.txt.liquid 修改、密码保护、地区规则、评论应用、SEO 应用、bot 防护和 WAF 工具,都可能让 crawler 看到的内容和购物者看到的不一样。