1. robots.txt meta robots
现在大部分网站采用CMS,不需要被索引的内容肯定存在,因此 robots.txt 极为重要。另外 robots.txt 无法完全控制的内容也最好通过 meta robots 阻止搜索引擎的索引。千万不要认为收录越多越好,搜索引擎从一个网站收录到越多不相关的内容,相关内容被分散权重的可能性也越大。
2. 301 转向和域名统一
有需要跳转的内容一定要采用301转向,302在Google那里比较敏感,容易被判定为作弊,大部分页面劫持就是通过302进行的。对于域名统一的问题,除了 www.xxx.com 转向至 xxx.com,也应该保证 www.xxx.com/a.html 能够顺利转向至 xxx.com/a.html。这个问题主要是针对百度,Google通过网站管理员工具就可以变相解决。
3. 相对路径和管理入口
前面说了,大部分网站采用cms。cms的模板上的一些链接最好采取绝对路径,否则随着路径变化404也会多出许多;很多CMS都预留了管理员登录入口,这个入口留在页面上就会被搜索引擎抓取到,即便阻止了索引像雅虎百度一类的搜索引擎偶尔还是会将其纳入收录范围,因此最好保证后台相关链接的孤立性,即从页面删除登录后台的入口。同时预留管理员链接也是一处安全隐患,容易被别有用心的人利用。