这篇帖子姗姗来迟,早就应该对内部重复内容(duplicate content)问题给出一个睿智的简单明了的解决方法了。我希望你能把这篇文章拿给你的老板或者工程师团队,也许这能让他们欣喜万分。
问题的根本在于我们网站上的同一主题的多重页面制作。这种做法的原因有很多:提高页面的兼容性(尽管老练的CSS代码能够被填入)、页面的格式和导航不同、不同版本的页面能更好的适合网站的不同板块、或者是为了内容中的无处不在的问题分页。今天我将在这用最普遍的博客来举例子。
首先,你的博客会有两个大的重复内容板块:
1. 在博客主页面上显示的每篇博客的重复内容
2. 分页标记的博客目录页中的重复内容
下面是#1的视觉形式
你能清除的看见博客首页中个人帖子中的每个单词、句子和段落的重复。这种内容上的重复看起来十分正常,但是却带来一些麻烦。那一部分的内容才应该被搜索引擎收录和排名呢?博客的主页面一般都含有更多的链接源和PR,但是单个的帖子页面去更能吸引爬虫。如果你的博客经常更新,首页上的内容就会相对快速的向下滚动。可是如果你分页了呢?
这就牵涉到#2
是不是觉得Google机器人很挑剔啊?你的这篇博客充斥了给你带来麻烦的重复内容。如果Google不经常浏览你的每一个博客分页,情况就会变的更糟,因为Google统计的拷贝内容会比实际数更多。举个例子,如果Google机器人3天都访问了你的博客,并且每一次只浏览到一个分页,结果很可能是机器人索引你为有4个相同的拷贝内容——每个分页有一个,再加上博客发帖页面本身一个。
好消息是——我认为Google、雅虎和MSN都已经对这种复制见怪不怪了,所以他们开发了针对这种情况的工作平台。然而,我不得不说的是,当SEOmoz开始着手解决这个问题时,我们却收到了从用户搜索老博客的占总体的25%的流量。
不过,并不是所有的内部重复内容都是博客结构的。你能在各种形状和尺寸的博客里发现相同的问题。举个例子,在许多站点上,这种兼容型的页面非常流行。而在论坛上,那些通过爬虫验证的链接的帖子可能会被多次复制。很多电子商务网站的同一产品的页面都被分在不同的站点目录中,并产生出不同的URLs(这可能是最恐怖的噩梦)。
那么,怎么修复这个问题呢?
上面的图示提供了两个优秀的解决方案,但是你还得知道这两者在应用时的差别。当你建立起一个网站并能正确的从Getgo获取它时,我建议你使用无索引标签(meta noindex tag)。而对于那些有很多的指向不同版本内容的内链接和外连接的老网站来说,最好还是使用301重定向(301-redirect)。
有些SEO甚至还建议使用Cloaking,这种情况下就很难争辩它的职业道德或者是否和搜索引擎的精神相悖。我的本意是说,用301重定向来给引擎导航,让它们把注意力都放在原始版本的链接上并把链接定义为规范的资源。到现在为止,浏览者仍然能看见兼容型格式的内容(或者其他形式呈现的这种格式)。我总是相信所有事情都会慢慢变好的,但是有时候一些特殊情况……
希望这篇文章能帮助你减轻重复文本的压力,让你的团队更容易的接触和关注这些关系重大的修正。
本文到目前为止有0条评论