SEO知识：SEO日志文件分析

谙年博客

1465
文章

75
评论

2020年1月20日 19:18:40SEO知识评论230阅读模式

什么是日志文件？

日志文件包含了服务器上所有发生行为的记录，对于SEO来说，其中最有用的是搜索引擎爬虫和用户的访问行为，日志源文件看起来是下面这样的：

乍看是不是觉得一团乱麻，别慌，我们会仔细分解里面的每一项参数。

举例说明

50.56.92.47 – – [01/March/2018:12:21:17 +0100] “GET” – “/wp-content/themes/esp/help.php” – “404” “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” – www.example.com –

每条日志包含了：IP，访问日期，获取方法，返回码，User-Agent,，URL，主机这些参数

日志的重要性

因为日志是唯一可以获取搜索引擎是如何访问和抓取网站的渠道。虽然搜索引擎站长后台，第三方爬虫，搜索指令能给你一些参考，但只有日志文件才能给到最全面和最详尽的信息。

如何分析日志为SEO服务呢？

分析日志文件对SEO的帮助如下：

1.确定哪些页面能被爬虫抓取，哪些页面不能

2.查看搜索引擎访问页面的返回码，尤其是分析返回302和404的页面

3.找出抓取问题，以及背后的原因（网站导航，内链结构）

4.定位搜索引擎抓取频繁的页面以及原因

5.分析爬虫抓取资源是否存在浪费

怎样获取日志文件？

可以直接从服务器上下载下来，根据你的需求选择对应的时间段，有些网站一周的日志文件就足够分析，有些网站需要一个月甚至更多的原始数据。在下载前最好能和运维人员聊聊，日志是否包含了多域名的数据和http协议。

用什么工具来分析日志文件?

Excel就可以用来分析，下次我们会专门写一篇相关文章。目前国外分析日志的工具有Screaming Frog和Log File Analyser,Splunk,GamutLogViewer,国内的光年分析工具也还不错

分析日志的具体步骤

A. 找到爬虫资源都耗费在哪里了?

首先，什么叫做爬虫资源，Google曾经给出过定义：“Googlebot能够抓取（抓取率）和愿意抓取（抓取需求）的URL数量”

也就是说，爬虫资源是搜索引擎每次抓取的网站页面数量，抓取的量和网站权重和内部链接的权重都有关系。

另外需要指出的是，爬虫资源有时会被浪费在无关重要的页面上，这时如果你输出了新的内容，但是爬虫资源已经被耗尽了，也无法被搜索引擎所收录。这也是监控爬虫日志的重要作用，找出资源浪费在哪了。

优化爬虫资源的配置能让搜索引擎更好的抓取网站核心页面。

影响爬虫资源的因素

低质页面太多会影响爬虫资源的分配，低质页面包括但不限于：

1.多重筛选和带有过多参数的页面

2.重复的内容页面

3.被劫持的页面

4.低质和Spam的内容页面

让爬虫抓取这些页面其实没啥意义，反而挤占了真正高价值页面的抓取资源，造成优质内容无法被搜索引擎及时收录并给予排名。

B. 解决SEO技术问题

通过分析日志文件，可以更好地定位并解决一下问题：

特定的目录被抓取的频率是怎样的，例如：产品页，列表页，文章页等等

所有目标搜索引擎的爬虫都来访问过网站吗？

哪些页面发生了抓取问题，去检查返回码 3xx, 4xx & 5xx的这些页面

日志分析实战案例

这是最近用screamfrog给一个客户做的日志分析

从日志中发现，Google会经常抓取一些奇怪的页面，Top15抓取量的页面里面大多数都是302跳转的页面，或者是404无法打开的页面，同时Google还花了大量时间访问带有参数的页面

因此我建议客户，去对这些跳转和参数页面做处理，通过Robots禁止爬虫抓取，更新跳转状态，解决软404问题（页面打开是404页面，但是http返回码是200），做完这些动作后，Google对这个网站的抓取效率的确大大提高，对收录和排名也有着积极的影响。

继续阅读

SEO知识：SEO日志文件分析

SEO引流怎么做

SEO推广怎么做：SEO推广的基本概念和策略

SEO文案：如何写出独具匠心的优化文章？

SEO大揭秘！如何让你的企业网站一飞冲天？

SEO搜索引擎优化是什么？SEO该怎么做

SEO关键词优化怎么做效果比较好

SEO是什么意思？SEO技术有什么用？

SEO查询怎么做？

网站SEO怎么做？网站SEO从哪几个方面入手

网站SEO分析怎么做

发表评论

在线咨询

微信