apps搜尋引擎優化工具
radarAI 爬蟲存取檢查器

AI Crawler Access Checker:檢查電商產品頁的爬蟲存取

檢查搜尋引擎和 AI 爬蟲是否能發現、抓取、索引並讀取你的產品頁;重點核對 robots.txt、meta robots、X-Robots-Tag、sitemap、canonical 和最終渲染內容。

check_circlerobots.txt 和 AI bot 規則
check_circlemeta robots 與 X-Robots-Tag
check_circlesitemap 與 canonical 發現
check_circle最終渲染頁面存取
系統就緒
link

無需登入 · 免費掃描 · 即時線上報告

审计范围

该工具检查什么

robots.txt 規則

檢查重要產品 URL 或 crawler group 是否被 robots.txt 阻擋,包括面向搜尋引擎和 AI crawler user agent 的規則。

索引指令

檢查 meta robots 和 X-Robots-Tag。即使 robots.txt 允許抓取,這些指令也可能阻止頁面被索引或連結被跟隨。

發現訊號

核對 sitemap、canonical、hreflang 和內部連結訊號,確認爬蟲能找到首選產品 URL。

渲染存取

識別 JavaScript、重新導向、密碼門、地區限制或應用故障是否讓爬蟲看不到關鍵產品資訊。

Crawler Access Map

這個檢查器會拆開的存取層

Crawler access 不是一個開關。頁面可能 robots.txt 放行了,卻被 noindex 擋住;也可能沒進 sitemap、被 canonical 指走,或者瀏覽器能看完整但 crawler 只能看到殘缺版本。這個檢查器會把每一層拆開,讓你知道風險到底卡在哪個門檻。

robots.txt 和 AI bot 規則

robots.txt 控制特定 user agent 是否允許抓取某個 URL。它適合做抓取控制,但不等於索引、排名或 AI 可見性。

訊號範例

User-agent: OAI-SearchBot / GPTBot / ClaudeBot / Claude-SearchBot / PerplexityBot / Google-Extended; Disallow: /products/

重點核對

  • check_circle產品 URL 沒有被過寬的 Disallow 規則意外阻擋。
  • check_circle搜尋、購物和 AI-specific user agents 是被有意處理的,而不是複製貼上的預設規則。
  • check_circle當 robots.txt 也承擔發現提示時,sitemap 位置清楚暴露。

meta robots 和 X-Robots-Tag

crawler 可以抓到頁面,但仍可能被告知不要索引。meta robots 和 HTTP X-Robots-Tag headers 經常能解釋為什麼產品 URL 可發現,卻沒有進入搜尋索引。

訊號範例

meta robots: noindex, nofollow; X-Robots-Tag: noindex

重點核對

  • check_circle產品頁沒有從 staging、篩選頁或應用模板繼承 noindex。
  • check_circleHTTP headers 和 HTML 指令沒有互相衝突。
  • check_circle索引指令與頁面的 canonical 和 sitemap 狀態一致。

sitemap、canonical 和市場發現

sitemap 和 canonical 會告訴 crawler 哪個產品 URL 應該代表這個商品。這裡漂移時,AI 和搜尋系統可能收集到錯誤的變體、市場或集合頁語境。

訊號範例

sitemap.xml URL + canonical 產品 URL + hreflang market equivalents

重點核對

  • check_circle首選產品 URL 出現在 sitemap.xml 中。
  • check_circlecanonical 指向產品頁,而不是篩選集合頁或過期變體。
  • check_circle在地化市場 URL 使用一致的 canonical 與 hreflang 關係。

最終渲染的產品事實

AI 和搜尋 crawler 需要最終產品事實,而不是空殼頁面。渲染失敗會讓 schema、價格、庫存或產品屬性對 crawler 不可見。

訊號範例

Rendered HTML: Product schema, price, availability, attributes, reviews, return and shipping context

重點核對

  • check_circle核心事實不需要登入、購物車狀態或使用者互動就能出現。
  • check_circleJavaScript 和應用元件不會把關鍵 schema 或 Offer 資料延遲到 crawler 收集不到。
  • check_circlebot 防護、重新導向和地區限制不會向 crawler 返回過薄或被阻擋的頁面。

常见拦截器

值得先解決的問題

priority_high

AI crawler group 被誤擋

robots.txt 可能會阻擋 GPTBot、OAI-SearchBot、ClaudeBot、Claude-SearchBot 和 PerplexityBot,也可能透過 Google-Extended 做內容使用 opt-out。過寬的 bot 規則還會誤傷產品頁。

priority_high

產品 URL 帶 noindex

產品頁可以被抓取,但仍可能被 meta robots 或 X-Robots-Tag noindex 指令排除在索引之外。

priority_high

sitemap 或 canonical 漂移

爬蟲發現的是一個 URL,但 canonical、hreflang 或 sitemap 條目卻指向另一個市場、變體或集合頁。

priority_high

渲染內容對 bot 不完整

延遲 JavaScript、應用元件、重新導向或 bot 防護可能讓價格、庫存、schema 或屬性無法出現在 crawler-visible 頁面裡。

工作流程

从 URL 到修复计划

01

貼上線上產品 URL

使用你希望搜尋引擎和 AI 系統發現的公開產品頁,不要使用預覽連結或後台 URL。

02

拆開每一層存取門檻

ShopGox 會一起檢查 robots.txt、頁面指令、sitemap/canonical 訊號,以及最終渲染出的產品內容。

03

先修真正擋路的那一層

根據報告判斷問題屬於 robots.txt、主題模板、HTTP headers、sitemap 設定、應用規則,還是平台配置。

常見問題解答

扫描前的问题

允許 AI crawler 就能保證 AI 可見性嗎?
expand_more
不能。允許存取只代表 crawler 沒有被阻止抓取頁面。AI 可見性仍取決於產品資料品質、權威性、新鮮度、商家資料來源,以及對應 AI 系統是否選擇使用這個頁面。
robots.txt 和 noindex 是一回事嗎?
expand_more
不是。robots.txt 控制是否允許抓取,noindex 控制已抓取頁面是否可以進入索引。一個頁面可以被 robots.txt 放行,但仍被 meta robots 或 X-Robots-Tag 排除。
我應該封鎖 GPTBot、ClaudeBot 或 PerplexityBot 嗎?
expand_more
這是商業決策。封鎖可能減少某些 AI 訓練或檢索存取,但也可能降低 AI 系統收集你產品事實的機會。這個檢查器幫助你看清目前規則實際在做什麼。
為什麼 sitemap 存取對 AI 搜尋有影響?
expand_more
sitemap 幫助 crawler 發現 canonical 產品 URL,並重新抓取重要頁面。如果產品頁沒有出現在 sitemap.xml 裡,AI 和搜尋系統可能只能依賴更弱的內部連結或過期 URL。
Shopify 或電商應用會意外封鎖 crawler 嗎?
expand_more
會。主題模板、robots.txt.liquid 修改、密碼保護、地區規則、評論應用、SEO 應用、bot 防護和 WAF 工具,都可能讓 crawler 看到的內容和購物者看到的不一樣。