近期对百度与谷歌收录的观察-小结
2 3rd, 2012 by daniel
在看这里的一些结论之前,先看一下今年1月17日我写的一篇文章《近期对百度与谷歌收录的观察》。
今天2012年2月3日。继续我的观察。
百度的快照更新到了2012年1月26日,首页是23日的,还有部分更早的。
1月18日发布的《二级域名及频道栏目的PR传递》也已经收录,快照日期1月20日;
1月10日的关于小莉的文章也收录,显示快照1月13日;
但是,其中一篇1月17日的《近期对百度与谷歌收录的观察》却没有收录,有点蹊跷。
–1月6日发布的《网站seo遇到了困难和挑战?》也未被收录?!
不论如何,有些事情可以下些判断:
谷歌对博客程序(wordpress这类)似乎更友好,而对一些更新少的企业站抓取频率较低,
百度没有对这方面有明显的偏好;
我能看到的首页更新为1月6日,1月23日;而首页链接的更新为1月26日,
说明,首页的更新频率似乎比内页更快,而首页的链接确实是被蜘蛛收藏后再来爬的,这里可以认为是3天后。
即1月23日来首页抓到链接,26日在来爬这些链接,然后进行了更新。
时间次序是这样,但过程并非如此。
蜘蛛抓取以后,有个处理过程,这就是为什么我直到今天才看到1月26日的快照,而不是1月29日就看到。
说明蜘蛛抓取以后要进行分析,然后才决定哪些结果,对数据库进行更新,并把结果显示给用户。
这也许能解释为什么《近期对百度与谷歌收录的观察》今天还未在百度搜索结果里找到,肯定不是蜘蛛的抓取问题;
而是这样的题目需要受到更多的审核。需要更多的时间。
是否可以做一个大胆的假设?百度的技术,抓取是非常快的,而且对服务器等资源的占用其实也非常小;
但是因为各种原因所限制(有技术特点,资源成本控制,非技术要求等原因),对这些内容的审核及发布
(发布是指百度更新数据库,并将结果显示)需要更多的时间。
也就是说,我们看到的更新快照的频率,并非完全由于百度对网站内容更新频率的判断,而是百度对网站内容的信任程度也同样重要。
有人看到这篇文章,也许会觉得无聊,到底我在干什么?
没什么。就是细心的观察。如果你看出什么,就是你的心得;如果你没看出什么,我提供点初级爱好者的结果:
百度(包括谷歌)对网站的内容抓取,判断及显示需要一定的时间,仅仅是首页的更新或页面的抓取可能就超过2周。
如果你还希望排名的变化,就可能需要更久的时间。
如果你愿意,可以持续观察,在你做了各种动作之后,可能是加了一些链接,可能是增加快了页面的链接,
注意百度对你首页快照更新的频率,首页链接的快照更新频率,更深页面的更新频率,
这样的观察对你了解搜索引擎,如何优化网站可能会很有帮助。
