MUTools

网站元信息提取

网站元信息提取工具是一款从多页中一并取出 SEO 相关主要元信息的工具。可按每行 1 个 URL 的形式指定最多 10 个,结果可以表格形式显示,也可下载为 CSV 文件。

已输入 0 / 10 个
按下“开始提取”按钮后,结果表格将显示在这里。

输入的 URL 会通过服务器获取并解析 HTML。对私有 IP 或 localhost 的连接将被拒绝。

每个 URL 的获取在 8 秒后超时,仅读取 HTML 正文的前 2 MB。

网站元信息提取是什么?

网站元信息提取工具是一款从多页中一并取出 SEO 相关主要元信息的工具。可按每行 1 个 URL 的形式指定最多 10 个,结果可以表格形式显示,也可下载为 CSV 文件。

提取项目共 10 项: title、description、robots、canonical URL、HTTP 状态、最终 URL(重定向后)、lang、charset、viewport、theme-color。可用于一次性盘点 SEO 检查表,或网站改版时的状态比较。

由于指定的 URL 页面会通过服务器获取并解析 HTML,因此不会受到浏览器 CORS 限制的影响。只要目标站未对爬虫等 Bot 进行屏蔽,几乎所有页面都可被提取。

使用方法

  1. 在 URL 输入框中按每行 1 个 URL 粘贴想提取元信息的页面 URL(最多 10 个)。
  2. 按下「开始提取」按钮,会从各 URL 获取并解析 HTML,结果会显示在表格中。
  3. 在表格中可逐行确认 title / description / robots / canonical 等的值。
  4. 通过「切换为中文表头」可将表格与 CSV 表头切换为中文。
  5. 按下「下载 CSV」可保存为可用电子表格打开的格式(UTF-8 + BOM)。

使用场景

  • 希望一并检查企业站主要页面(首页 / 产品 / 招聘 / 公告)的 title、description 的 SEO 负责人。
  • 希望比较网站改版前后元信息变化的 Web 制作公司。
  • 希望按列表确认竞品站点上位页面标题设计的市场人员。
  • 希望确认重定向后最终 URL 与 HTTP 状态的运维人员。
  • 希望一并审计多页中是否有 noindex / nofollow 设置漏检的 SEO 顾问。

注意事项

  • 单次请求最多可处理 10 个 URL。
  • 出于安全考虑,对私有 IP 地址或 localhost 的连接将被拒绝。
  • 单 URL 的获取超时为 8 秒。响应慢的站点可能会出错。
  • 仅读取 HTML 的前 2 MB。极大页面可能无法获取到 meta 标签。
  • 对于通过 JavaScript 动态改写 meta 标签的站点(如 SPA),提取的是初始 HTML 的值,可能与实际爬虫的行为不同。
  • 需基本身份验证、Bot 屏蔽、地域限制的站点可能无法获取。

常见问题

1 次最多可处理多少个 URL?
最多 10 个。出于并发负载与用户体验的平衡固定为 10 个。如需处理更多页面,请分多次执行。
CSV 可用什么应用打开?
以 UTF-8(带 BOM)格式输出,可在 Microsoft Excel、Google 表格、LibreOffice Calc、Numbers 等中不乱码打开。分隔符为逗号,换行为 CRLF。
需要登录的页面也能获取元信息吗?
无法获取。本工具不持有任何认证信息,以公开页面方式获取 HTML,因此无法获取需要登录或特定会话的页面的元信息。
通过 JavaScript 改写的 meta 标签也会被获取吗?
仅获取初始 HTML 中的 meta 标签。SPA 等在浏览器 JavaScript 执行后再替换 meta 标签的站点,结果可能与最终值不同。Google 爬虫会执行 JavaScript,因此本工具的结果与搜索引擎所识别的可能不一致,请注意。
也能检测 noindex 页面吗?
robots 列会显示 meta robots 标签的值。noindex / nofollow / max-snippet 等指定也会原样获取,可用于发现设置漏检或意外的 noindex。