MUTools

網站元資訊擷取

網站元資訊擷取工具是一款從多頁中一併取出 SEO 相關主要元資訊的工具。可依每行 1 個 URL 的形式指定最多 10 個,結果可以表格形式顯示,也可下載為 CSV 檔案。

已輸入 0 / 10 個
按下「開始擷取」按鈕後,結果表格將顯示在這裡。

輸入的 URL 會透過伺服器取得並解析 HTML。對私有 IP 或 localhost 的連線會被拒絕。

每個 URL 的取得會在 8 秒後逾時,僅讀取 HTML 主體的前 2 MB。

網站元資訊擷取是什麼?

網站元資訊擷取工具是一款從多頁中一併取出 SEO 相關主要元資訊的工具。可依每行 1 個 URL 的形式指定最多 10 個,結果可以表格形式顯示,也可下載為 CSV 檔案。

擷取項目共 10 項: title、description、robots、canonical URL、HTTP 狀態、最終 URL(重新導向後)、lang、charset、viewport、theme-color。可用於一次性盤點 SEO 檢查表,或網站改版時的狀態比較。

由於指定的 URL 頁面會透過伺服器取得並解析 HTML,因此不會受到瀏覽器 CORS 限制的影響。只要目標站未對爬蟲等 Bot 進行封鎖,幾乎所有頁面皆可被擷取。

使用方法

  1. 在 URL 輸入框中依每行 1 個 URL 貼上想擷取元資訊的頁面 URL(最多 10 個)。
  2. 按下「開始擷取」按鈕,會從各 URL 取得並解析 HTML,結果會顯示在表格中。
  3. 在表格中可逐列確認 title / description / robots / canonical 等的值。
  4. 透過「切換為中文表頭」可將表格與 CSV 表頭切換為中文。
  5. 按下「下載 CSV」可儲存為可用試算表開啟的格式(UTF-8 + BOM)。

使用情境

  • 希望一併檢查企業站主要頁面(首頁 / 產品 / 徵才 / 公告)的 title、description 的 SEO 負責人。
  • 希望比較網站改版前後元資訊變化的 Web 製作公司。
  • 希望依列表確認競品站上位頁面標題設計的行銷人員。
  • 希望確認重新導向後最終 URL 與 HTTP 狀態的維運人員。
  • 希望一併稽核多頁中是否有 noindex / nofollow 設定漏失的 SEO 顧問。

注意事項

  • 單次請求最多可處理 10 個 URL。
  • 出於安全考量,對私有 IP 位址或 localhost 的連線會被拒絕。
  • 單 URL 的取得逾時為 8 秒。回應慢的站點可能會出錯。
  • 僅讀取 HTML 的前 2 MB。極大頁面可能無法取得 meta 標籤。
  • 對於透過 JavaScript 動態改寫 meta 標籤的站點(如 SPA),擷取的是初始 HTML 的值,可能與實際爬蟲的行為不同。
  • 需基本驗證、Bot 封鎖、地區限制的站點可能無法取得。

常見問題

1 次最多可處理多少個 URL?
最多 10 個。出於並行負載與使用者體驗的平衡固定為 10 個。如需處理更多頁面,請分多次執行。
CSV 可用什麼應用程式開啟?
以 UTF-8(附 BOM)格式輸出,可在 Microsoft Excel、Google 試算表、LibreOffice Calc、Numbers 等中不亂碼開啟。分隔符為逗號,換行為 CRLF。
需要登入的頁面也能取得元資訊嗎?
無法取得。本工具不持有任何驗證資訊,以公開頁面方式取得 HTML,因此無法取得需要登入或特定工作階段的頁面的元資訊。
透過 JavaScript 改寫的 meta 標籤也會被取得嗎?
僅取得初始 HTML 中的 meta 標籤。SPA 等在瀏覽器 JavaScript 執行後再替換 meta 標籤的站點,結果可能與最終值不同。Google 爬蟲會執行 JavaScript,因此本工具的結果與搜尋引擎所識別的可能不一致,請特別留意。
也能偵測 noindex 頁面嗎?
robots 欄會顯示 meta robots 標籤的值。noindex / nofollow / max-snippet 等指定也會原樣取得,可用於發現設定漏失或意外的 noindex。