网站不收录或收录不全是什么原因?
发布时间:2013-12-05 浏览:214打印字号:大中小
同样是来自于SEO前辈ZAC撰写的有关收录和索引和文章,这也可以很好的解释很多站长经常问到的为什么网站不收录,为什么网站site标题和页面title不一致等众多SEO从业人员关心的网站问题。
网站不收录或收录不全是什么原因?
页面不收录是SEO们最头疼的问题之一,不收录就谈不上排名、流量了。太多人在博客、论坛里问页面不被收录是什么原因,也给出了域名,但这种问题是没法回答的,即使愿意花时间去诊断也不能回答(除非列出所有可能的原因,等于没回答),因为缺了一个关键信息:页面被抓取了没有?这只有查原始日志才能知道,看网站是看不出来的,查流量也是查不出来的。了解前面的概念就知道,被抓取不一定被收录,没被收录也不一定意味着没被抓取。
如果页面被抓取过却没被索引和收录,应该往内容是否有问题(原创?采集?所谓伪原创?敏感内容或产品?复制内容?)方向去找原因。网站结构应该没有大问题,搜索引擎是看了内容之后觉得不适合收录的。如果页面压根就没被抓取过,则应该往网站和链接结构、搜索引擎不友好的技术障碍、域名权重等方面去找。
索引了,但一定抓取了吗?
使用site:指令或直接搜索URL都可以检查URL是否被索引,能查到URL却不一定说明页面被抓取了。经常有人问搜索结果中URL没有说明文字,只有URL,标题也和页面真正标题不一样是什么情况,原因之一就是页面被索引了,但没有被抓取。
大家熟知的淘宝在百度的收录就是典型。
百度索引了淘宝首页,但百度蜘蛛并没有抓取淘宝首页内容,因为淘宝的robots文件禁止百度抓取。存在于百度索引库的关于淘宝首页的是其它来源的信息,主要是外部链接,百度按照链接信息给出了猜想的标题(和真正页面标题不一样),但没有说明文字,点击快照进去看也是空的。如果你的页面出现这种情况,说明搜索引擎知道页面的存在,却因为某种原因不能抓取页面。也许robots文件有问题,也许服务器设置出错禁止百度抓取了