什么是日志文件?
日志文件包含了服务器上所有发生行为的记录,对于SEO来说,其中最有用的是搜索引擎爬虫和用户的访问行为,日志源文件看起来是下面这样的:
乍看是不是觉得一团乱麻,别慌,我们会仔细分解里面的每一项参数。
举例说明
50.56.92.47 – – [01/March/2018:12:21:17 +0100] “GET” – “/wp-content/themes/esp/help.php” – “404” “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” – www.example.com –
每条日志包含了:IP,访问日期,获取方法,返回码,User-Agent,,URL,主机这些参数
日志的重要性
因为日志是唯一可以获取搜索引擎是如何访问和抓取网站的渠道。虽然搜索引擎站长后台,第三方爬虫,搜索指令能给你一些参考,但只有日志文件才能给到最全面和最详尽的信息。
如何分析日志为SEO服务呢?
分析日志文件对SEO的帮助如下:
1.确定哪些页面能被爬虫抓取,哪些页面不能
2.查看搜索引擎访问页面的返回码,尤其是分析返回302和404的页面
3.找出抓取问题,以及背后的原因(网站导航,内链结构)
4.定位搜索引擎抓取频繁的页面以及原因
5.分析爬虫抓取资源是否存在浪费
怎样获取日志文件?
可以直接从服务器上下载下来,根据你的需求 选择对应的时间段,有些网站一周的日志文件就足够分析,有些网站需要一个月甚至更多的原始数据。在下载前最好能和运维人员聊聊,日志是否包含了多域名的数据和http协议。
用什么工具来分析日志文件?
Excel就可以用来分析,下次我们会专门写一篇相关文章。目前国外分析日志的工具有Screaming Frog和Log File Analyser,Splunk,GamutLogViewer,国内的光年分析工具也还不错
分析日志的具体步骤
A. 找到爬虫资源都耗费在哪里了?
首先,什么叫做爬虫资源,Google曾经给出过定义:“Googlebot能够抓取(抓取率)和愿意抓取(抓取需求)的URL数量”
也就是说,爬虫资源是搜索引擎每次抓取的网站页面数量,抓取的量和网站权重和内部链接的权重都有关系。
另外需要指出的是,爬虫资源有时会被浪费在无关重要的页面上,这时如果你输出了新的内容,但是爬虫资源已经被耗尽了,也无法被搜索引擎所收录。这也是监控爬虫日志的重要作用,找出资源浪费在哪了。
优化爬虫资源的配置能让搜索引擎更好的抓取网站核心页面。
影响爬虫资源的因素
低质页面太多会影响爬虫资源的分配,低质页面包括但不限于:
1.多重筛选和带有过多参数的页面
2.重复的内容页面
3.被劫持的页面
4.低质和Spam的内容页面
让爬虫抓取这些页面其实没啥意义,反而挤占了真正高价值页面的抓取资源,造成优质内容无法被搜索引擎及时收录并给予排名。
B. 解决SEO技术问题
通过分析日志文件,可以更好地定位并解决一下问题:
特定的目录被抓取的频率是怎样的,例如:产品页,列表页,文章页等等
所有目标搜索引擎的爬虫都来访问过网站吗?
哪些页面发生了抓取问题,去检查返回码 3xx, 4xx & 5xx的这些页面
日志分析实战案例
这是最近用screamfrog给一个客户做的日志分析
从日志中发现,Google会经常抓取一些奇怪的页面,Top15抓取量的页面里面大多数都是302跳转的页面,或者是404无法打开的页面,同时Google还花了大量时间访问带有参数的页面
因此我建议客户,去对这些跳转和参数页面做处理,通过Robots禁止爬虫抓取,更新跳转状态,解决软404问题(页面打开是404页面,但是http返回码是200),做完这些动作后,Google对这个网站的抓取效率的确大大提高,对收录和排名也有着积极的影响。
评论