第二章 了解搜索引擎
搜索引擎工作原理
1、爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤;
2、 预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同一内容不同 网站或同一网站不同网址);倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法;
3、排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。
链接原理:
1、李彦宏超链专利(关键词锚文本);
2、Gongle PR(页面链接投票,作弊链接排除,Google2014年10月表示停止更新,最后更新时间为2013年12月6号),pr只是谷歌排名算法中200多个因素之一,搜狗评级类似;
3、Hilltop算法提示外部链接更应该主题相关。
用户关注点击程度
谷歌英文点击率参考(2014):第一页71%,第1位31%,第2位14%,第3位10%,第6-10为4%,处于分屏之处的第6位不利于展现和点击,搜索引擎结果页展示效果不断变化中,中文习惯并不完全符合上述点击特点。
搜索引擎结果关注点击程度,英文点击更具“F型”金三角,中文结果前十名查找时间更长,点击差距相比于英文平和。
SEO应尽一切力量方法丰富自己页面的展现格式,图片、目录、开放数据等,排名重要,展现方式也越来越重要。
高级搜索指令
site: 收录,百度以索引为准,link:谷歌随机外链,百度不支持,“”全文搜索,-排除(如“苹果 -电影”:排除电影),*通配符(百度不支持),inurl:搜索词出现在url中的页面(如“inurl:zhanzhangdaohang”百度不支 持),inanchor:导入链接锚文字包含搜索词页面(如“inanchor:网络热词”百度不支持),intitle:页面标题包含关键词
高级使用:Inurl:.edu.cn intitle:交换链接 愿意交换链接的中国学校网站
搜索引擎份额
搜索引擎简史:1994年Yahoo!诞生,1998年Google诞生,2000年百度诞生,2012年360搜索(好搜)推出。
国 内搜索引擎份额(2016年1月预估):PC端份额大致为:百度50%,好搜30%,搜狗15%;移动端百度80%,神马14%,搜狗5%,按PC与移动 平分来算,整体份额比约为百度:好搜:搜狗:神马=65%:15%:10%:7% ,神马可能比搜狗高一点,必应中国、谷歌香港份额可忽略。
全球搜索引擎份额(2015年12月):Google-Global、Bing、百度、Yahoo–Global份额比为66.04%、14.61%、9.61%、7.66%。
搜索引擎重要算法历程:
早期关键词和外部链接成为Google/百度两个主要排名因素,也就导致很多人为了SEO而欺骗搜索引擎,如堆砌关键词和发布大量外链(甚至批量生成),来获得搜索引擎重视排名,降低了用户体验的同时砸了搜索引擎口碑也扰乱了SEO良性发展,故而促使搜索引擎算法改进,而现在这么做的大多收到了惩罚。
2011年,Google推出熊猫算法,打击低质内容页面;
2012年,Google推出企鹅算法,打击作弊链接和垃圾链接;
2012年,百度多次出现大面积K站排名甚至收录清零,有针对垃圾内容和链接;
2013年,百度推出绿萝算法,打击垃圾链接和买卖链接;博客论坛群发买卖。
2013年,百度推出石榴算法,打击低质量内容页面,弹窗广告;
2013年,百度推出起源算法,打击采集站、伪原创站;
2015年,百度尝试推出原创保护,提升原创内容排名并标识,提出扶持新站的“蝶变”计划。
2011年至今,Google/百度算法的改变,使SEO更加自然,更强调用户体验。2012年以来,百度对SEO也更加开放推出完善站长平台及工具,官方给出指导文档,并积极的与网站SEOer沟通。
评论