网站元信息提取

网站元信息提取工具是一款从多页中一并取出 SEO 相关主要元信息的工具。可按每行 1 个 URL 的形式指定最多 10 个,结果可以表格形式显示,也可下载为 CSV 文件。

URL(每行 1 个,最多 10 个)

已输入 0 / 10 个

按下“开始提取”按钮后,结果表格将显示在这里。

输入的 URL 会通过服务器获取并解析 HTML。对私有 IP 或 localhost 的连接将被拒绝。

每个 URL 的获取在 8 秒后超时,仅读取 HTML 正文的前 2 MB。

从 URL 提取 OGP / Twitter Card,并预览在 X 与 Facebook 中分享卡片的呈现。

从 URL 批量提取 title / description / h1~h6,并提供 SEO 诊断与 CSV 下载。

汇总显示您的全球 IP、来源国家 / 地区、主机名以及设备 / 浏览器信息。

对域名 / URL / IP(最多 10 个)批量获取注册日期、到期日期、剩余天数、域名服务器、注册商、DNSSEC 等 Whois 信息,并可下载为 CSV。

网站元信息提取是什么?

提取项目共 10 项: title、description、robots、canonical URL、HTTP 状态、最终 URL(重定向后)、lang、charset、viewport、theme-color。可用于一次性盘点 SEO 检查表,或网站改版时的状态比较。

由于指定的 URL 页面会通过服务器获取并解析 HTML,因此不会受到浏览器 CORS 限制的影响。只要目标站未对爬虫等 Bot 进行屏蔽,几乎所有页面都可被提取。

1 次最多可处理多少个 URL?

最多 10 个。出于并发负载与用户体验的平衡固定为 10 个。如需处理更多页面,请分多次执行。

CSV 可用什么应用打开?

以 UTF-8(带 BOM)格式输出,可在 Microsoft Excel、Google 表格、LibreOffice Calc、Numbers 等中不乱码打开。分隔符为逗号,换行为 CRLF。

需要登录的页面也能获取元信息吗?

无法获取。本工具不持有任何认证信息,以公开页面方式获取 HTML,因此无法获取需要登录或特定会话的页面的元信息。

通过 JavaScript 改写的 meta 标签也会被获取吗?

仅获取初始 HTML 中的 meta 标签。SPA 等在浏览器 JavaScript 执行后再替换 meta 标签的站点,结果可能与最终值不同。Google 爬虫会执行 JavaScript,因此本工具的结果与搜索引擎所识别的可能不一致,请注意。

也能检测 noindex 页面吗?

robots 列会显示 meta robots 标签的值。noindex / nofollow / max-snippet 等指定也会原样获取,可用于发现设置漏检或意外的 noindex。