首页 > 搜索引擎 > 深入分析CNZZ搜索统计的奥秘
2013
02-27

深入分析CNZZ搜索统计的奥秘

CNZZ搜索市场统计相信是广大从业者最常用来了解搜索引擎市场份额的工具,相对于其他的统计工具,其更新的最勤快,很快就可以看到前两天的数据。更难等可贵的是,这个比起艾瑞等收费数据来说是完全开放的,每个人都能看的到。今天,我就来深入说说CNZZ统计的一些奥秘。

  CNZZ本身是个非常有名的站长统计工具,其和Google analytics、百度统计相似,能够帮助站长统计自己网站的流量、跳出率、用户来源等信息,据其宣称有50%的网站都使用了这个统计工具,当然大多是小网站。而CNZZ做搜索流量统计也是根据这些网站的数据,统计这些网站来自每个搜索引擎的流量分别有多少,根据这个计算搜索引擎的市场份额。

  首先是占有率和使用率究竟看哪个呢?可以这么理解,占有率是UV,就是用多少用户使用过这个搜索引擎。而使用率是查询请求数,就是用户请求了多少次查询。对于搜索引擎来说,其份额和变现都是通过查询次数来计算的,所以使用率是最重要的数值。

  中文搜索每天的总点出应该在10亿左右,而CNZZ能够覆盖多少呢?我们原来在搜狗时,曾经专门做过分析和统计,大概占总流量的10%-15%左右。而且这块会受不同搜索引擎的流量组成成分和排序策略所影响。如果某搜索引擎的用户群体和CNZZ的群体倾向性相似,或者某搜索引擎的结果排名更倾向于使用CNZZ统计的网站,CNZZ统计出来的份额就会比实际份额更高一些。

  具体这些搜索引擎的实际情况如何呢?对于百度,我们都知道,其结果非常倾向于百度自己的其他产品,例如贴吧、知道、文库、百科、奇艺等,而这些页面都不会使用CNZZ统计;而使用CNZZ代码的网站多为娱乐类网站(程序员估计都会用GA),所以流量成分偏高端的Google也会相对吃点亏。而其他搜索引擎就会占一些便宜,不过大概都在10%左右,影响并非很大。

  而单个站点的结果影响对CNZZ最终结果会有多少差异呢?我们做个算术题,假如有一个使用CNZZ的网站,占了某个搜索引擎点出的1%,而被其他搜索引擎所封禁无点出,会影响多少流量呢?其实不是1%,而是10-15%中的1%,几乎可以影响到CNZZ对这个搜索引擎估算流量的近10%。

  以前有一次,搜狗在CNZZ上莫名提升了5%的份额,当时我的判断就是肯定CNZZ收录网站有变动,最后查实确实是有一个和搜狗合作的开放平台数据提供网站新使用了CNZZ代码。

  所以,搜索引擎想要欺骗CNZZ也很容易,只要针对使用CNZZ代码的网站进行额外的排名优化就可以了。像上面所说的1%,对于快播或者百度影音类网站,其实没那么难。当然,再次声明,我是不屑于干这种事情,也绝没干过。

  当然,魔高一尺道高一丈,我是不会只放毒药不管解毒的,在这里也教CNZZ一招去对付这些招数。这些其他页面的流量可以异常波动,但是寻址类查询词的流量却很难造假。例如4399.com的来源词可能是4399、4399小游戏等,若当寻址类查询的总数几乎未变,但其他数据异常波动时,就需要去分析调查其原因了。

  当然,如我在前一篇文章所说,即使采样都有问题,但正式可被使用的数据都只有那些基于用户采样的统计工具,这种基于网站的统计是无法登上“大雅之堂”的。而CNZZ统计本身也有几个存在的问题,使得其数据有一些不可靠的地方。

  若CNZZ监测流量中的refer存在问题,其就很难统计正确。搜狗浏览器由于是双核,在某些情况下,从高速核的搜狗搜索点出到一个兼容核的网页,网页端的js代码无法正确取到refer,使得流量在有些情况下会低于实际值。

  CNZZ中居然存在百度视频,这本身是一件非常不科学的事情。众所周知,视频网站的索引内容及点出结构与传统的网页搜索有着本质的不同,而对这种完全不同的产品用相同方式做统计就更是一件很不合理的事情。

  360导航原来默认搜索是谷歌,当其切换到自己的时候,谷歌的流量受到了极大的损失,我这边看到的几乎被腰斩,而各种其他的统计中谷歌流量也都狂跌,而在CNZZ中,居然未变!这块容我猜测一下,当时CNZZ内部检测到谷歌流量下跌后,以为是自己的统计出了问题,人为的将其调回到原来状态,然后就将错就错下去了。

  不管怎样,CNZZ的搜索统计做为一个免费服务,帮助很多搜索爱好者、从业者及站长了解搜索份额,是一个很好的参考工具和风向标。也希望其能够不断的完善统计方法,让其的准确性和公信力越来越高。

附:CNZZ搜索引擎统计地址 http://engine.data.cnzz.com/