SEO:分析Googlebot抓取问题,效率低下

小帅帅 4103 0

如果未对新内容或更新内容进行爬网和编制索引,则抓取预算效率低下会影响自然搜索性能。

在“ Google 抓取预算对Googlebot的意义 ”中,Google在其网站站长中心博客中解释说,有两个因素可以控制抓取预算:抓取率和抓取需求。“将抓取率和抓取需求结合在一起,我们将抓取预算定义为Googlebot可以抓取并希望抓取的网址数量。”

谷歌声称抓取预算不会影响少于几千页的网站。但电子商务网站通常会有更多页面,从而产生潜在问题。

在本文中,我将解释如何生成报告,以帮助确定您的网站是否存在Googlebot抓取预算问题。目标是列出尚未被抓取(并因此被编入索引)的新网页或更新网页。我将通过生成站点的XML站点地图上的所有URL列表以及创建或修改日期来完成此操作。

然后,我会将该列表与Web服务器日志中的Googlebot抓取活动进行比较。在分析爬网预算时,日志文件提供了最佳信息来源。我在“ 使用服务器日志解决SEO问题 ”中解决了这个问题。

我将使用Screaming Frog的日志文件分析器 启动。

日志文件

首先,将日志文件插入“日志文件分析器”中的“拖放日志文件”。这将打开“项目”选项卡,以配置新的分析。

Screaming Frog的日志文件分析器可以显示Googlebot抓取页面的时间。

接下来,修剪日志文件以隔离Googlebot条目。大多数网站都会收到来自数十个机器人的抓取内容,例如Googlebot,Bingbot,其他搜索引擎搜索引擎优化工具。我们还需要删除“虚假”的Googlebot请求,这些请求通常来自模仿Google的工具,主要用于合法分析。

要执行此操作,请在“项目”选项卡中转到“ 新建”>“用户代理”,然后选中“在导入日志时验证机器人(减慢导入速度)”框。这可以通过执行双重DNS验证来验证Googlebot IP是否真实,正如Google在“ 验证Googlebot, “在Search Console帮助门户中。

使用实用电子商务的日志文件作为示例,消除伪造的Googlebot抓取将个别请求从306,960减少到112,308 - 换句话说,大约一半的Googlebot请求是假的。

接下来,在Log File Analyzer处理日志之后,我将其导出到一个已清理的结构化CSV文件中。我将选择“验证状态显示已验证”选项。这将删除虚假的Googlebot条目。当我创建项目并选择我们的时区时,日志中的日期格式正确。现在我们只需要导出CSV文件。

XML站点地图

我将再次使用Practical Ecommerce的XML站点地图作为示例。我会假设它们非常全面,只包含我们想要抓取和编入索引的唯一网址。我还假设XML站点地图中的最后修改日期是准确的。

该XML网站地图按住按键供我们检索预算分析:

是否有网页或更新未被抓取?我们可以通过将XML站点地图中的页面与从日志中抓取的页面进行比较来回答这个问题。

变化的速度有多快?我们可以通过将修改时间与爬网时间进行比较来回答这个问题。

我首先需要将XML站点地图转换为CSV文件。 我尝试了Screaming Frog的seo Spider来下载XML站点地图并将其导出为CSV,但它会降低关键的修改时间。

我将使用Python。

将站点地图中的网址与CSV文件进行比较。 首先,我将展开XML索引站点地图并将各个站点地图解析为Pandas DataFrame。(“ Pandas ”是Python用于执行各种类型分析的软件库。“DataFrame”相当于Google Sheet,但能够执行更强大的数据转换。)以下是代码:

https://gist.github.com/hamletbatista/5d0d996872239ddbfe8744da049124a9。

然后,我将DataFrame导出为CSV文件并将其导入日志文件分析器。 当我从下拉菜单中选择“URL”选项卡和“Not in Log File”时,我会得到第一个问题的答案:一个尚未被抓取但应该是的URL列表。

将修改时间与爬网时间进行比较。回答第二个问题 - 变化的速度有多快? - 我们需要将站点地图中的最后修改日期与日志文件中的爬网日期进行比较。遗憾的是,Log File Analyzer不提供此功能。

它回到了Python。

我已经在Pandas DataFrame中拥有XML站点地图。我现在将CSV导出从Log File Analyzer加载到另一个DataFrame中。 然后我可以使用Pandas 合并功能组合两个DataFrame 。

根据我们想要保留的数据,可以选择合并。在这种情况下,我将使用“Left Join”来保留XML站点地图URL并捕获站点地图和日志文件之间的交集。这是执行此操作的代码:

https://gist.github.com/hamletbatista/b8801049ae464398404a8f9bc755ad26

使用Pandas 合并功能组合两个DataFrame 。使用“左连接”保留XML站点地图URL并捕获站点地图和日志文件之间的交集。

合并DataFrame后,我们可以使用以下代码确定哪些页面未被抓取(因为缺少抓取日期):

https://gist.github.com/hamletbatista/5e3a65bc19427d8c5570482b572d04b2。

输出是在日志文件期间未被Googlebot抓取的页面列表。

最有趣的问题是最近更改的URL是否被抓取。为此,我可以比较日志文件中的爬网日期和XML站点地图中的最后修改日期:

https://gist.github.com/hamletbatista/02fb89d885825398c611cba57fbdb3ec。

结果是快速爬网的更新页面列表以及其他未列出的页面列表。

现在,我们可以确定实用电子商务是否存在爬网预算问题。我们可以查看尚未抓取的网址,并在Search Console的“网址检查”工具中插入重要的网址。它应该提供有关原因的详细信息。我们还可以在检查工具中请求重新索引。

标签: SEO优化 今日新鲜事

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~