Posts Tagged ‘baidu’

对搜索引擎应该怎样管理?

星期六, 十一月 22nd, 2008

自从上回CCAV曝光了百度关键字弊案后,搜索引擎的确引起了人们的很大关注。搜索引擎经过十年的发展,已经成为互联网上重要的组成部分。有资料显示,互联网的使用者大约有3/4每天都使用搜索引擎。在美国,人们离不开Google,所以我们常常会在好莱坞的大片里看到XXX Google一下;同样,在中国,人们离不开百度。

搜索引擎作为用户获取信息的窗口,担负起了向访客提供尽量有效、精确的搜索结果,以便让访客尽快找到所需的网址。我记得某一家搜索引擎曾经说过,“我们的目标是让用户尽量减少在本站停留的时间”,因为访客的时间应该用在资料上,而不是在查找资料上。

搜索引擎俨然已经把握了互联网上数千万其他网站的生死,哪怕像淘宝这样的大网站也不能无视搜索引擎的作用。既然搜索引擎已经“掌握”了其他网站的生死,出于商业目的,在收了¥之后,自然有义务帮某个特定的网站多多呈现给用户。那么看看百度是如何利用手中大权为获得利益无视伦理道德达到登峰造极的地步呢?

助纣为虐

问题就在于此,如果搜索引擎收取了某些非法网站的好处,如所谓的“治疗性病”,“不孕不育”,“信用卡套现”,“监视器材”,“手机监听”,那么把这些原本对用户有害的信息呈现给用户,那又会对用户产生多大的危害呢?

某媒体给我们算了一笔账,百度上“性病”广告的关键字点击一次的价格至少在¥30-50一次!(我想百度联盟肯定才给投放广告的网站主0.3-0.5左右)某一非法医院,在百度上投放了关于“性病”的关键字,定价就大概在¥50左右。按照转换率,每10个用户点击该网站,最终有1个客户成为该非法医院的客户,那么医院所花费的广告费就是500;而这500元最终也是转嫁到这位冤大头上。而如果在100个点击广告的客户中最终只有1个客户,那么这个冤大头就要承担¥5000的广告费了。

敲诈勒索

同样,搜索引擎掌握了资源以后,对某些具有一定知名度,但又不是特别大的网站进行敲诈勒索,比如百度惯用的伎俩,在看到某些网站具有一定规模时,通过各种方式邀请网站主在百度上做广告,如果网站主拒绝,则百度就把该网站投放到黑名单,不再对该网站进行收录,如果网站主投入一定资金进行广告宣传后,由于各种原因,停止了广告投放,百度最终还是会把该网站屏蔽。换句话说,只要被百度盯上的网站,最终只有死路一条。

缺乏诚信

搜索引擎缺乏诚信还是上述问题进一步危害的主要原因。还是百度的例子。百度针对网站进行的敲诈勒索早在几年前就开始盛行,一个日IP网站数千,原本百度收录8万页面的网站,仅仅在停止了在百度的广告投放以后,收录页面仅剩下4!这难道不是人为操纵吗?百度CEO李彦宏把这个问题归结于技术原因,并称技术原因属商业机密,不能泄露。呵呵,这“商业机密”真是个好挡箭牌,等某天李彦宏杀了人,被逮了,对警察说,这是“商业机密”,不能泄露,警察会信吗?

如果真是技术原因,那也只能说明百度的技术实在是太落后了——不,太先进了!(说实话,百度针对“克隆网站”的识别远远不如Google)

在百度的事情被曝光以后,李彦宏又是写公开信什么的,又是喊冤,称自己毫不知情,一副搞得自己是窦娥的样子,我相信所有的网站主都于心何忍!

那么该如何解决这些问题呢?我觉得还是要从政策监管、行业自律、用户选择入手。

政策监管

目前政府已经对多个行业的网站进行了监管,比如出售药品的网站、教育网站、彩票投注等。我认为政府还应该对搜索引擎进行监管,如何监管呢?还应当从版权下手。

我们都知道,百度的所有收录的页面都来源于别的网站,这些一般是以全文收录的,比如本站在百度的收录情况:site:photozero.net 清晰可见本站的内容或多或少直接显示在百度的网站上。而百度大多数情况下是在没有得到网站主的授权的情况下收录的,(当然,这也是搜索引擎的特点,因为互联网的宗师美国人认为互联网就是应该要共享的),这样,我们就可以认为百度在没有获得版权的情况下“盗窃了其他网站的信息”、并进行商业获利活动(因为每个百度搜索结果的页面都或多或少有商业广告)。

如果要收录某个网站,就应该征得网站主的同意。这可以以robots.txt协议的形式确定,也可以以书面形式授权。当然,还不能否认百度不支持robots.txt协议

如果搜索引擎没有获得授权的情况下还进行收录,并进行商业获利,那么搜索引擎就属于“盗窃”行为,应当进行处罚。不过搜索引擎自然会说是“计算机自动收录,非人为因素…”,那么我现在就可以反驳你,如果你家的狗在街上咬了人,你需要赔偿吗?

行业自律

说实话,行业自律才是解决方法的唯一出路,可是看百度这么不诚实的样子,要QQ SOSO、网易有道、搜狗等都做到自律,恐怕还不是国人的素质能够到达的高度。

用户选择

用户自然会选择结果准确有效、少垃圾网站、界面清爽、不容易有病毒网址的搜索引擎(如果有,加上一个Google的提示“此网站可能会伤害您的计算机”),百度的份额年年在下降说明了问题。

此文献给百度、以及“无辜”的李彦宏、也祝愿百度在NASDAQ的股票能延续前面走势,一路下跌,最终见乔治华盛顿去吧。当然,Google也不能沾沾自喜,毕竟Google也存在许多问题。

百度死有余辜,三鹿死不足惜

星期四, 十一月 20th, 2008

看到这个标题朋友们一定知道我对这些企业充满了愤怒和鄙视。的确,我希望这些高举“民族品牌”的企业死的越多越好,越快越好。

百度作恶多端,连比他作恶更多端的CCAV都给曝光了,可见百度多么的不得人心。百度作恶不是一两天而起码好几年了,为什么CCAV以前从来不报道,现在给连续两天曝光呢?可见百度没有给CCAV三百万的危机公关费,要嘛就是百度想钱想疯了,找CCAV.COM要求做竞价。

百度会死吗?很难,百度目前占据中文搜索市场的70%以上,即便受到这次事件的影响,也不至于一下就流失了大部分用户,虽然CCAV的曝光让百度很难堪,但对于大部分的搜索引擎用户来说,一旦对某个搜索引擎形成依赖,不会很容易改变,用户搜“性病”的毕竟是少数,大多数人使用的百度还是跟以往一样。我在很多门户的该新闻的后面发现了顶百度的人不少,估计百度这“民族品牌”的旗号打得挺响的。

李彦宏(我一直以为是拼音是LI HONG YAN)让人很恶心,网上有个李彦宏给百度员工的一封信,所谓他也是看了新闻才知道百度有这样的问题,并把责任一股脑推给分公司。够绝,够恶心,李彦宏比让我吃了苍蝇还恶心。李彦宏作为一家公司的最高领导人,如果连公司的盈利模式都搞不清楚,那他妈的不是智障吗?

我感觉这些搞互联网的一旦把一个网站做成一定规模以后,转型成一个商业公司以后,即从一个“程序员”变成一个“企业家”后,无论是贪财、还是没有远见,或是作秀,远远胜于一个传统的企业家。也许叫他们严谨地写程序没有问题,叫他们做商人,那就是赶猪上树了。

方兴东是著名的博客中国的创始人,号称中国博客第一人,原来我常听到有人称呼他为“方老师”,原来是挺风光的,结果经济危机一来,欠薪几十万,员工上门讨债,没钱还,只好打110报警(原文新浪博客,可惜已经被删除了),公司基本瘫痪,面临倒闭的危险。

如果把看到百度比作吃苍蝇的话,我会把看到三鹿、蒙牛等视为吃大粪。

我的一位QQ好友的签名是这么写的“请who书记吃三鹿奶粉”。我的想法是让全国八千万党员干部以身作则,因为他们的营养需要从小孩子就开始补起,否则不堪承受社会主义建设的重任。

蒙牛发言人在香港说:“我们发往香港的货比大陆的货更好”。另外,大陆的陈某人去了台湾后说:“对于台湾同胞这么多方面受到损失,我们感同身受,我在此再次向台湾同胞表示歉意”。可是,谁来管你大陆十三亿人的死活呢?难道大陆人的命就是贱吗?号称全球最他妈的优越的制度下,外国人在中国投资不但有超国民待遇,城市农村不同,现在还沦落到了十三亿人合起来还不如那几百万人的下场,中国的一场矿难死2个人叫“万幸”,死了几十几百个才觉得算新闻。

蒙牛老板牛根生发了一封“万言书”给商界朋友,希望大家帮忙,防止蒙牛被外资收购。我觉得被外国收购挺好的,蒙牛这牌子反正也是倒闭的命,被外国人收购了后倒闭了,那不是赚了外汇吗?蒙牛赚钱的时候没有想到我们,现在快倒闭了,还让你拉他一把,不落井下石的人才是傻瓜。

蒙牛、三鹿、伊利的牛奶,就算买一送三我也不买,白送我也不喝。正好有位养生专家说“牛奶是牛才喝的”。

网页快照

星期六, 九月 20th, 2008

提及网页快照,大家立马会想起百度搜索结果旁边的“百度快照”或Google搜索结果旁的“网页快照”,网页快照作为一种保存网页历史信息的工具,在网站的网络故障或网速不畅的情况下,能有效改善网站的浏览。除了搜索引擎的网页快照外,还有以照片形式保存的快照,如QQ书签首页的热门网站配有网页快照。这里介绍一下这两类几种常用的快照。

1.archive.org

Archive.org是网页快照中最出色的工具,这个网站由雅虎运营。Archive的快照会定期抓取网站的快照,并长时间保存下来。Archive最大的特点就是专业、信息全面,Archive大概每个月会对某个网站进行2-5次抓取。通过这个工具,我们可以看到Google在过去10多年间不同的首页风格(当然一如既往的简洁)。

2.百度快照

百度快照是一个业余级的网页快照,之所以这里提及,一方面是因为百度是国内使用率最高的搜索引擎,另一方面我还想攻击一下这个挺业余的网页快照。为什么说这个网页快照是业余级的呢?因为它仅仅缓存了HTML文档的文字部分,不对其中涉及的图片、CSS、Javascript文件进行缓存,在使用百度快照时,如果网站的图片或JS出现了什么问题,百度快照也就是鸡肋了。

3.Google快照

Google.com的快照曾经在一段时间内被GFW封得厉害,至今依然如此,GFW此举无非是掩耳盗铃之举。好在现在Google.cn的网页快照还算比较正常。

4.Snap.com

Snap.com是一个提供网页快照图片的网站,简单说,就是给定URL,返回该URL的快照图片。配合Snap.com的插件,在网站上添加snap.com的快照功能,当鼠标指针移动至某个URL链接上时,就可以在链接旁边快速显示该URL的快照,这个功能可以极大地增强访客的粘性。比较可惜的是,由于网速的限制和snap.com本身抓取的效率太低,导致很多网页的快照都不能正常显示。

5.Alexa.com

Alexa.com以提供网站信息为主,也提供了某些网页快照图片的功能。当然,只有Alexa排名10W以内的网站才有享受这一待遇。但Alexa.com的快照图片更新太慢,基本上快照图片都是半年以前的。

6.抓糖网

准确说,抓糖网还不算一个成型的服务,但我实在非常喜欢他们的服务。他们抓取网页快照的速度、效率和准确率的确一流,生成图片有160*120大小的供网页中使用的,也有屏幕大小1024*768,甚至有整张网页完整截图的,可谓功能强劲。上回我在做zQuery的时候曾经想提供一个类似于Snap的服务,就考虑采用抓糖的方案,但最终由于服务器等原因不能做到。

如何禁止搜索引擎收录?

星期五, 九月 19th, 2008

很多站长都认为有搜索引擎收录是一件好事,首先是自己的网站得到了承认,通过搜索引擎也能带来一定的流量。其实并不完全准确,某些比较不知名的搜索引擎,即便收录了许多网页,并且天天更新,却不能带来实在的利益,反而浪费了服务器带宽(国内的主机一般宣称不限流量,但国外的Dreamhost这样的主机都是限制流量的),这样的搜索引擎,收不收录也是无所谓的。本文说说如何禁止某些搜索引擎的抓取及收录。

首先谈谈哪些搜索引擎是一定有用的,Google,百度,我认为这两个搜索引擎是必须的。国内网站的90%以上的搜索引擎流量来自于Google和百度,其中百度七成,Google三成左右。Google是搜索引擎的权威(强龙),而百度就是中文搜索的领袖(地头蛇)。除此之外,我认为其他的搜索引擎都可以屏蔽。雅虎中国、Live中文、以及国内的搜狗、搜搜、有道之辈均是无足轻重的搜索引擎。

禁止搜索引擎收录的方法大概有3种。

方法一:服务器禁止访问。

这需要服务器配备有cPanel这样的后台管理软件,设定某个搜索引擎所在的IP段禁止访问。如要封锁Google的蜘蛛,先通过域名对应IP查询得www.google.com的IP地址,如74.125.19.99,再通过IP WHOIS查询查到IP段 74.125.0.0 – 74.125.255.255 的所有人均是Google公司,把这个IP段填入IP黑名单中。(具体的方法根据不同的管理软件有所不同,可能是74.125.0.0-74.125.255.255或74.125.*.*)

这个方法比较好的地方在于直接禁止搜索引擎的访问,除了HTTP请求头,几乎不耗费流量,一般情况下这点流量也不会计算在你的消耗的流量当中。这是禁止搜索引擎收录的最好方法。但麻烦在于你不可能得到Google的所有IP段,这个就得靠收集了。

方法二:robots.txt禁止

robots.txt(小写)是放置在网站根目录下的搜索引擎权限控制文件。搜索引擎一般遵守robots.txt协议。通过编辑robots.txt协议,可以禁止某些搜索引擎的访问、禁止某个文件、文件夹被搜索引擎收录,适合用于保护私有文件。搜索引擎通过读取robots.txt,判断自己是否在被禁止搜索引擎之列,如果被禁止,一般不会对该网站进行抓取,除了百度这变态

robots.txt的简单用法:

1.禁止百度收录(想和淘宝一样抵制百度就这么做 :)

  1. User-agent: *
  2. Disallow:
  3.  
  4. User-agent: baiduspider
  5. Disallow: /

首先是User-agent,每个搜索引擎都有自己的User-agent,比如Google的为 Googlebot,百度的为 baiduspider ,可能区分大小写,其他相对应的应该到搜索引擎的帮助页面去查询一下。 * 是一个通配符,通配所有的搜索引擎,Disallow: 项目表示禁止访问的位置,第一个Disallow:后面为空,表示没有禁止访问的项目,也就是允许所有的搜索引擎收录。但如果要添加例外,还可以添加一行User-agent: baiduspider,表示下面的规则仅适合百度蜘蛛,百度蜘蛛的规则是Disallow: / ,也就意味着禁止收录该域名下所有的网页。

在特殊情况下,我们可能希望部分不被所有的搜索引擎收录,比如Wordpress的wp-admin/目录是后台管理的目录,wp-content/是存放主题、插件的目录,这个不需要被搜索引擎收录,可以编辑robots.txt为

  1. User-agent: *
  2. Disallow: /wp-admin/
  3. Disallow: /wp-content/

2.仅允许百度以及Google收录(推荐)

  1. User-agent: Googlebot
  2. Disallow:
  3.  
  4. User-agent: baiduspider
  5. Disallow:
  6.  
  7. User-agent: *
  8. Disallow:/

使用robots.txt需要注意的是,并非所有的搜索引擎都遵守该协议,而且就算遵守该协议不代表蜘蛛不对网站进行抓取,可能是抓取后不发布出来而已,流量是要样要耗费的。

方法三:脚本判断,禁止

这里写一下PHP的方法,其他ASP等方法也是类似的。
检测来访的访客的User-agent(UA),如果是搜索引擎的蜘蛛则立即禁止访问,提示出错信息。

  1. if(preg_match("/(google|baidu)/i", $_SERVER['HTTP_USER_AGENT'])){
  2.     header('HTTP/1.1 403 Forbidden');
  3.     exit;
  4. }

该代码当来访的访客的UA中包含google或baidu字样即返回403禁止信息并退出脚本。

  1. //禁止UA中含有bot/crawl/spider字样的用户
  2. //但允许百度和Google
  3. if(preg_match("/(bot|crawl|spider)/i", $_SERVER['HTTP_USER_AGENT']) && !preg_match("/(google|baidu)/i", $_SERVER['HTTP_USER_AGENT'])){
  4.     header('HTTP/1.1 403 Forbidden');
  5.     exit;
  6. }

用脚本的方法禁止搜索引擎的访问比较方便快捷,特别是WordPress这样的程序,只要加一个插件即可(过些天做一个发布出来)。用这个方法对服务器流量的消耗也不大,可以接受。

百度遵守robots.txt协议吗?

星期四, 九月 18th, 2008

百度遵守robots.txt协议吗?原本是一个很简单的问题,百度自己说遵守,但事实却摆在人们面前,毫无疑问,百度并不遵守robots.txt协议,这是我根据百度的搜索结果和根据某些网站的robots.txt得出的结论。

结果前两天有个专家跳出来骂了:“我订阅的blog中有许多人质疑,百度是否不遵守robots协议,我很奇怪,这么简单的问题居然也要质疑,如果百度不遵守robots协议,哪混得到今天…”。这位“研究了搜索引擎六七年”叫“askbaidu”的专家一上来就给我们这些小虾米一个下马威,说我们根本没有研究过robots.txt,在这里瞎扯,话外之意,只有他研究了六七年的搜索引擎才能称得上专家,我们不是专家的就不能发表意见,起码不能发表错误的意见。当然,到头来他还说了一句“今天专家俩字变成笑谈主要还是因为装的太多了”,也不知道他究竟在骂装专家的我,还是骂他自己?

前文中我说到,“百度在现实中几乎不遵守该协议,在淘宝已经宣称封杀百度后,百度依旧对淘宝进行更新”,结果这位askbaidu的专家就指出我的话中有毛病,首先是怀疑我是否有权利讨论百度是否遵守协议的问题,他的意思是百度是毫无条件遵守robots.txt协议的,接下来又说“您对robots所做的修改,会在48小时内生效。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。”,这位专家可能没明白我说的意思,在提醒我robots.txt需要48小时才能生效。我要说的是,淘宝封锁百度的新闻至少曝光一个星期以上了,淘宝网主站、各个商店的二级域名的robots.txt也明确禁止百度蜘蛛的访问也至少一个星期了,如果百度遵守robots.txt协议,那么至少应该在几天前就停止对淘宝的抓取了,并且在接下来的时间里逐步移除淘宝的页面,但时至今日,百度照样在抓取淘宝的页面,你说他到底遵守robots.txt协议没有?

这是一幅百度的截图,证明至少在9月16日,百度依然在对淘宝进行抓取。不过专家又发难了,他指出百度也会发生把收录时间标错的情况,例如曾经有人搜出的某个页面的缓存时间居然是2010年的!专家认为百度的快照时间不能作为收录时间的根据。当然,这时候专家的理可是越说越糊涂了。我可不相信百度会把每个页面的快照时间都无缘无故向前推移的。

为了证明百度依然在收录淘宝,我只好找出更绝的证据了。

找到一条昨天更新的淘宝页面,点击链接打开快照,看快照的内容,与下图的直接打开页面的内容相比,证明什么?完整地说明了百度,在9月17日还依然在收录 www.taobao.com 的内容。这个铁的证据证明了百度要么不遵守robots.txt协议,要么就是过了一个星期依然未对 www.taobao.com 的robots.txt进行更新,无论如何,百度必然是没有遵守自己的申明。

另外一个证据就是搜狐博客(blog.sohu.com),搜狐博客谢绝百度就是更早的事情了,看搜狐博客的robots.txt,明显是拒绝了百度蜘蛛,同样,百度在9月16日依然对它进行抓取!

这些证据绝对能够证明百度不遵守robots.txt协议。虽然robots.txt协议并不是任何搜索引擎都要遵循的协议,我们也没有资格要求百度遵守这个那个协议,但百度作为一个上市公司,全球最大的中文引擎,自称遵守robots.txt协议,就必定要遵守自己的诺言,否则何以维护自己的声誉?

另外,对这位askbaidu的专家,我也毫不客气地在他的博客上留言指出他的低级失误。我不晓得askbaidu究竟是否是一个自称研究了六七年的专家,总之我了解互联网这些事不过两三年,不敢班门弄斧,但客观事实还是要尊重的。有一点一直让我这个后生有点怀疑的是,该博客的首页PR为2,Alexa无数据,百度收录62页,一点也不像传说中的六七年历史的专家的博客丫?研究了六七年的搜索引擎,恐怕也是跟李彦宏称兄道弟的人物了吧?不解。求解。

淘宝百度之争

星期一, 九月 15th, 2008

淘宝最近和百度干上了,起因大概是由于百度比较牛B,即将推出自己的C2C(个人对个人)电子交易平台,与淘宝争夺市场,而作为百度C2C最大的竞争对手,淘宝网则通过Robots规则拒绝百度搜索引擎的爬虫对其网站的抓取。

我不是研究互联网的人,在这里,我只是作为一个普通的网购用户谈谈我的看法。

首先,从一个普通的销售者、购买者来说,没有人会排斥百度C2C的推出。目前国内的C2C几乎只有淘宝、eBay旗下的易趣,腾讯旗下的拍拍,除了淘宝混得不错,其他两家都在竞争中处于绝对劣势,按百度搜索的口号“百度,更懂中文”,淘宝可以说“淘宝(阿里巴巴),更懂网上贸易”,淘宝今天为什么那么牛B,比较普遍的看法是当初的免费战略吸引了很多商家,这是题外话,总之,淘宝现在在市场中几乎处于垄断地位,百度C2C的推出,将成为淘宝有利的竞争者,从市场竞争、反垄断的角度来说,这绝对是一件好事。

再说淘宝封杀百度,如果不知情的人第一眼看到这个标题,肯定会认为淘宝疯了,包括我看到这篇消息的第一眼感受一样。淘宝为什么封杀百度,毫无道理呀?百度自称为淘宝带来70%流量,我想百度再吹牛,应该也没有把牛吹倒的地步,至少30%应该是有的吧?据说淘宝封杀百度后,淘宝的商家的日交易量普遍萎缩。

既然如此,为什么淘宝会不顾商家的利益而拒绝百度呢?我不太清楚,互联网专家的说法是,百度C2C即将推出,如果淘宝此时不主动出击,将在市场中处于劣势,而主动出击的方法就是拒绝百度收录,有人评论说,百度搜索会将淘宝的商业机密外泄。另一种说法是,如果百度提供了淘宝的搜索结果,可能会导致用户对百度的依赖,比如买东西不使用淘宝的搜索引擎搜索而使用百度,一旦养成这种依赖后,百度突然封杀淘宝,带给淘宝的损失将是灾难性的,所以在未造成这种结果前淘宝主动出击也是必然的。

C2C市场对搜索引擎的依赖是相当大的,我认为。在茫茫几百万几千万商品中找到一件合适自己的商品,如果没有搜索引擎的帮忙,无异于大海捞针。依我对淘宝内置搜索引擎(应该是雅虎中国提供的技术)的使用感受来看,淘宝的搜索引擎功能并不强大,有时候指定条件的搜索倒是不能取得好的结果,而且由于淘宝的页面复杂,浏览时严重拖慢速度,再加上雅虎中国的搜索引擎基本上是完败,而百度搜索如日中天,我相信用户对百度C2C的精确搜索绝对满意!

我对百度和淘宝的纠纷倒是不如我对卖家的担忧来得大,目前淘宝的卖家是一个相当庞大的团体,而淘宝和百度的纠纷目前损失最大的就是这些卖家,特别是全职的卖家。这些卖家已经花费一定代价通过网站优化(SEO)、在百度上投放广告等方法扩大店铺知名度和消费群体,而一旦百度对他们的商店停止收录,损失可想而之。

当然,淘宝的做法也未必能取得好的效果,反正百度C2C即将推出,想必在淘宝开店的卖家一般也会在易趣,拍拍等开设店铺,到时候又会有一部分卖家将主战场转移到百度,并且由于百度在C2C推出的初期必然会加大宣传力度,给卖家很大的优惠(可能是低额的广告费用、搜索引擎结果排名前列,就像百度知道、百度贴吧一样),百度C2C将会很大程度上夺取淘宝的用户资源。

淘宝和百度之争毫无疑问反应了当前中国互联网的企业为追求最大利益而不顾用户感受和利益的做法(晕,又扯回来骂中国互联网了)。此前阿里巴巴和百度的名声都不是很好,淘宝常常对某些销售额大的卖家提出过分要求,淘宝工作人员也经常恶意删除用户账户,在Google上搜一下就能得到很多结果,百度更别说了,过分追求利益的结果必将是引火自焚,这对一个依靠用户口碑发展起来的网站是一个致命打击。

扯完了百度淘宝表面冲突,再看技术层面上的问题。

淘宝封杀百度,通过的是在网站根目录的 robots.txt 文件进行的。通过robots.txt宣布禁止某些搜索引擎的机器人的访问,从而达到拒绝让该搜索引擎收录的目的。在淘宝的 robots.txt 文件中,清晰地标明了禁止“Baiduspider”访问,而且担心百度蜘蛛不能分辨大小写,还加了一行小写的“baiduspider”,如果百度遵守Robots.txt协议(百度官方宣称遵守该协议),那么百度就应当无条件移除关于淘宝网 (*.taobao.com)的所有搜索结果页面,当大家关心的是,百度在现实中几乎不遵守该协议,在淘宝已经宣称封杀百度后,百度依旧对淘宝进行更新,今天(9月15日),百度照样抓取淘宝的内容。

这里涉及到一个 robots.txt 缓存的问题,几乎所有的搜索引擎都宣称会缓存 robots.txt 结果,因为搜索引擎如果每次对一个网站进行抓取都要访问robots.txt文件的话,这对网站带宽是一个浪费。这意味着对 robots.txt 做出的修改应该在一段时间后才会起作用,估计当前淘宝新的robots.txt文件尚未被百度读取,而这个时间是多长呢?谁都不知道,所以百度还是有理有据地照样进行抓取。而且robots.txt标准并非是强制性标准,百度也可以不按常规出牌,大不了改了他们的指南,宣布“百度搜索引擎不遵守robots.txt规则,老子爱收录你就收录,不收录就拉倒”。

再让很多人感到“无耻”的是,百度宣称不排除提供绿色通道,让淘宝卖家直接提交网页到百度,从而绕过淘宝的robots.txt限制的目的。robots.txt只限制不能让搜索引擎对网站进行抓取,并没有说不能让用户直接把网站内容录入到搜索引擎中。这一点让我也感到气愤。首先百度这奸诈的伎俩实在让人作呕,再则如果推出绿色通道,并且只对淘宝卖家有效的话,这可能导致某些人利用这个绿色通道恶意欺诈。并且,这也是“不平等”的规则,它必将引起搜索结果的人为干预(虽然百度的人为干预不在少数),破坏了作为一个搜索引擎应当持有的“客观、公平、公正”的原则。这样一个搜索引擎,那他就不配作为一个“最大的中文搜索引擎”,或许和那些假冒搜索引擎,实际上是域名停放的垃圾网站有得一比。

浅谈中国Web2.0网站萧条

星期天, 九月 7th, 2008

写这篇文章的时候之前,正巧赶上我博客所用的两个Web2.0服务:Clicki的统计和Feedsky的订阅双双出现服务器问题,登陆Feedsky,首页居然还提示Mysql连接错误,过了好久还没有修复好。

中国的Web2.0的网站本来就比较少,特别是原创型的,像一大批基于Ucenter构建的SNS网站就不纳入讨论范围内了。讲一讲我认为好的Web2.0网站,关键在于有创意,想法好。我的博客好友趣站酷软,一直在推荐一些有创意的Web2.0类型的网站,这些网站共有的特点就是你平时想不到还有这样的网站,但一旦用起来也算比较有趣的。

我看过的国内Web2.0网站数量极为有限,豆瓣,芝麻,百度知道,Clicki,Feedsky,鲜果等RSS阅读器,土豆等视频网站。当然还有好大一部分是跟风国外的网站建起来的,像校内网,整个就是Facebook的中文版,最近改版也是担心版权问题。

国内的Web2.0网站生存得并不好(这里指真正意义上的Web2.0网站),这是由于中国特定的市场环境所决定的。中国人缺乏创新意识,抄袭能力强,所以国内的网站多垃圾站,我曾经说过,三大门户是中国最大的垃圾站。再说技术性的网站CSDN.net,我在百度中搜索某个问题的时候,往往出现了一排标题都是相同的,点进去内容也完全相同,不同的是垃圾站的广告是满天飞,CSDN的略微好点,也是到处飘。Google的搜索结果也类似。这里不说搜索引擎辨别镜像的能力差,单说那么多的“镜像”网站就可以看出我们的市场环境。

再说说中国的网民结构,大家都清楚,中国人最喜欢上的网站是百度,因为那里搜索八卦新闻比较容易,中国人最喜欢的博客是QQ空间,因为那里的人物衣服、场 景很炫,中国最流行的CMS系统里就看谁的采集能力强,美国人利用互联网办公,看新闻。中国的网民素质略低,从各个论坛不绝于耳的国骂、问候他娘的留言也 可以看出的,虽然我不敢说美国人素质有多高。什么样的网民素质决定了互联网发展的潜力。纵然中国互联网网民超过了美国,但各个都只懂得开QQ,上百度,中 国的互联网水平能超过美国吗?我记得以前的初中的计算机教材里有提及,互联网上的中文网站、中文资源仅占1%,而英文资源占了90%,所以我们要学好计算 机……我现在倒觉得这是应该的,要是某一天中文资源超过了英文资源那才是可悲的事。

广告市场是网站赖以生存的基础。国内的广告市场大家都很了解,很多“弹窗联盟”,“挂马联盟”,依靠点击广告的联盟也就是这一两年才兴起的阿里妈妈,看看 美国的广告市场,多的是“优雅”的点击广告、文字链接广告,极少有“弹窗联盟”之类的广告联盟。当然,这是我们的消费习惯决定的,网民对互联网广告的不信 任以及浏览习惯等决定了中国网民不喜欢点击文字的广告,而喜欢被弹窗广告QJ。

扯远了,回到Web2.0网站,Web2.0网站不同于以往的垃圾站的模式,在盈利方面有许多的限制,Web2.0网站的广告不能多,否则对于网站的推广是极为不利的。试想一下,某个Web2.0网站,虽然它的服务很实用,但广告绝不亚于三大门户首页的广告,有网友会接受吗?

Web2.0本身的特点限制了Web2.0的发展,所以有专家说,Web2.0网站的最好结局就是被大公司收购,比如被Google收购的Feedburner,被雅虎收购的Delicious。中国缺少这样的大公司,如果提到能上台面的收购,百度收购Hao123可以算一个,可惜,Hao123真的不能算Web2.0网站。而且,相比国外盛行的收购,国内大型网站要是看到某个网站有前途,首先想到的是自己也模仿一个,而不是花高价去收购。国内做模仿不需要有法律代价,而美国不同。

中国Web2.0网站的萧条是由这个整体决定的,网民的素质、广告市场的成熟、行业领导者的素质(比如百度、QQ、三大门户,他们的素质怎样大家都清楚)都是决定者,可以说,Web2.0的命运还不是把握在自己手中。

几款常用的网络书签对比

星期一, 八月 18th, 2008

对于需要经常使用书签,并且在不同的电脑上使用,网络书签是一个很好的工具。这里结合我对几个网络书签网站的认识,来谈一下几款主流的网络书签。

  • Delicious

谈到网络书签,就不能不提这一行业的领头羊-Delicious(美味书签),Delicious以简单实用的风格吸引了众多爱好者,目前Delicious应该是网络书签里使用人数最多的。相比Delicious的使用简单,注册起来难度可不小,资料要填齐,密码不能少于8位,且必须有字母,图片验证码简直看不清楚,注册相当麻烦。而且相比其他的网络书签网站纷纷采用了AJAX等更好的用户体验模式,Delicious还依然坚持最基本的HTML,且对于中国用户来说,速度也是一个软肋,Delicious还算一般的。当然,Delicious的用户分享的模式是挺不错的,有点类似于Digg,可以把自己收藏的书签分享给别人。

  • Google Bookmarks

Google的书签产品继承了Google的一贯风格,简单明了,使用Google账户登陆即可。只提供了添加、编辑、管理等最基本服务,似乎不能很好的形成分享的氛围。由于Google的速度不错,自己放一些书签也是不错的选择。

  • QQ书签

以前我经常抱怨QQ的产品是如何如何差劲,不够人性化,全部是抄袭,毫无创新。但QQ书签似乎给人一种耳目一新的感觉。QQ书签采用了基于jQuery的AJAX技术,使得使用QQ书签时与服务器的反应更为迅速,用户体验明显上了一个档次。此外QQ书签还提供了收藏的网页的Screenshot功能,提供缩略图,也是一目了然。美中不足的是,由于是QQ开发的产品,难免要使用QQ号码之类的登陆,我个人觉得麻烦,且在网页上输入QQ账号密码也是没有安全感的。相比之下,我更愿意使用EMAIL账号或自己选择的用户名登陆。

  • 百度搜藏

相比其他书签网站各有千秋,百度搜藏算是一款比较普通的产品了,就连QQ书签都有的“导出书签”的功能都没有。页面虽然是用了一点JavaScript技术,却又舍不得弄成AJAX的,显得不伦不类。既然其他的不行,我想搜索是百度的拿手好戏,试着添加了一个书签,标题为“零号相册”,网址就是“http://photozero.net”,在公开收藏搜索栏中输入“零号相册”,以匹配性来说应该是我的书签排名第一才对,可是排名前面的根本都是不沾边的网页,可见百度的搜藏搜索部分也是一般。百度搜藏的风格也显得不伦不类,一开始显然是受了Gmail的影响,可能做出来后百度的工程师也怕被骂抄袭Gmail风格,又给改了一点,感觉一般。

此外雅虎、新浪等许多门户都提供了书签收藏服务,内容,使用方面大同小异,我就不一一测试了。总结一下,在界面操作方面,QQ书签的确做得比较好,在兼容(导入导出)方面,国外的书签网站做得更不错,而QQ书签也不错,至于浏览器支持(浏览器)插件方面,显然是国内的比较重视,基本上都提供了在右键添加、工具栏添加等多种方式;国外的书签网站更放心地把这些功能交给第三方插件去做,比如Google Toolbar for Firefox,Delicious的Firefox插件。具体要用哪一种,得看用户的使用需求决定了

Blog-Info-Display博客信息显示插件

星期天, 八月 10th, 2008

在管理后台首页显示您的Google Pagerank,Alexa Rank,以及Technorati Rank排名,每三天自动更新一次。插件所用的函数都是我先前介绍的 如何获取Alexa排名数据调用Google PageRankTechnorati API教程 中介绍过的。应Dianso 朋友的要求,即将在下面的版本中推出 Google , baidu收录查询。如果您还常关注博客的某些数据,您也可以告诉我一下,我争取把它整合到这里来。

另,该插件已经获得Wordpress官方插件目录的审核通过,但由于测试尚未完善,暂未发布到官方目录。希望朋友们使用后把情况反馈一下。待该插件正式发布后,您就可以在后台一键升级了 :)

下载:
Blog-Info-Display BETA 1.0

谢谢支持 !

如何获取Alexa排名数据

星期一, 七月 28th, 2008

上回说到Alexa的排名数据来源于Alexa工具条,所以排名数据并不十分准确,特别是对于中文网站来说,国内装Alexa工具条的多是被某些网站“误导”的用户以及一些网站站长,所以很多人也对Alexa数据不以为然。在目前情况下,Alexa的排名还是和Google PR一样被广告商们看重的数据和作为衡量网站广告投放价值的依据。

这里讲讲如何获取Alexa的数据排名。最简单的莫过于装上Alexa提供的工具条了,Alexa提供了Firefox和IE的版本,但纯粹为了看一个网站的排名而安装这个插件显得有点浪费资源。我在Firefox浏览器用的是SearchStatus这个插件,这个插件同时显示了Google PR和Alexa排名,占用位置也不大,用起来比较方便。

本文着重要讲的是如何使用从Alexa的服务器下载数据,并进行分析后应用于WP插件或提供给访客(如 http://alexa.chinaz.com/这样的服务)。Alexa官方提供了收费的API接口,每千次查询$0.15(上回凭印象说是$0.1,更正一下),既然要收费,肯定没有多少人愿意花这钱了,特别在我们中国人看来更是难以理解,照理说用你Alexa的数据应该是相当给你面子,给你人气,你还要向我收费?还好早就有人破解了Alexa工具条(貌似很多国内网站强迫要求下载的Alexa工具条还经过改装,拥有木马功能了),并把它的服务器接口盗取出来分享给大家了。

接口一:

http://data.alexa.com/data/+wQ411en8000lA?cli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=12206&act=00000000000&ss=1680×1050&bw=964&t=0&ttl=35371&vis=1&rq=4&url=http://www.baidu.com

接口二:

http://data.alexa.com/data/TCaX/0+qO000fV?cli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=31472&act=00000000000&ss=1024×768&bw=639&t=0&ttl=4907&vis=1&rq=23&url=http://www.baidu.com

接口三:

http://data.alexa.com/data/ezdy01DOo100QI?cli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=16865&act=00000000000&ss=1024×768&bw=775&t=0&ttl=1125&vis=1&rq=2&url=http://www.baidu.com

接口四:

http://data.alexa.com/data/+wQ411en8000lA?cli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=12206&act=00000000000&ss=1680×1050&bw=964&t=0&ttl=35371&vis=1&rq=4&url=http://www.baidu.com

事实上,分析一下这些地址可以看到它已经将用户的浏览器信息,系统信息等发送给了服务端。

ezdy01DOo100QI是aid。
“cli=10&dat=snba&ver=7.0&cdt=alx_vw=20&”这部分是固定值。
wid是个随机数。
act数据包含了Alexa Toobar功能的被使用情况。
ss很明显是屏幕分辨率了。
bw是IE窗口的宽度。
t取值是0或1,和当前IE的window对象还有referrer有关。
ttl是当前页面打开速度,和Site Stats中的Speed有关。
vis表明IE是否显示工具条。
rq是对象计数器。

有了这些接口,我们就可以提供Alexa排名查询的服务了。

访问任意上述地址任意一个,查询baidu.com的信息,返回XML文件如下:

  1. <?xml version="1.0" encoding="UTF-8"?>
  2.  
  3. <ALEXA VER="0.9" URL="baidu.com/" HOME="0" AID="=">
  4. <RLS PREFIX="http://" more="315">
  5. <RL HREF="www.3721.com/" TITLE="3 7 2 1"/>
  6. <RL HREF="search.21cn.com/" TITLE="21CN"/>
  7. <RL HREF="itsearch.ccidnet.com/" TITLE="itsearch.ccidnet.com/"/>
  8. <RL HREF="e.pku.edu.cn/" TITLE="e.pku.edu.cn/"/>
  9. <RL HREF="21cn.com/" TITLE="21cn.Com -"/>
  10. <RL HREF="163.com/" TITLE="163.com/"/>
  11. <RL HREF="search.163.com/" TITLE="search.163.com/"/>
  12. <RL HREF="dir.sohu.com/" TITLE="dir.sohu.com/"/>
  13. <RL HREF="cn.search.yahoo.com/" TITLE="cn.search.yahoo.com/"/>
  14. <RL HREF="yahoo.com/" TITLE="Yahoo!"/>
  15. </RLS>
  16. <SD TITLE="A" FLAGS="DMOZ">
  17. <TITLE TEXT="Baidu.com"/>
  18.  
  19. <ADDR STREET="The Ideal International Bldg, 12th floor" CITY="Beijing 100080,  " STATE="" ZIP="" COUNTRY="CHINA" />
  20. <CREATED DATE="11-Oct-1999" DAY="11" MONTH="10" YEAR="1999"/>
  21. <PHONE NUMBER="+86 1082607100"/>
  22.  
  23. <OWNER NAME="Baidu.com, sillyser"/>
  24. <EMAIL ADDR="baidu_dns_master@baidu.com"/>
  25. <LANG LEX="zh-CN"/>
  26. <LINKSIN NUM="58665"/>
  27. <SPEED TEXT="1062" PCT="82"/>
  28. <POPULARITY URL="baidu.com/" TEXT="11"/>
  29. <RANK DELTA="-2"/>
  30. <CHILD SRATING="0"/>
  31. <REACH RANK="13"/>
  32. </SD>
  33.  
  34. <KEYWORDS>
  35. <KEYWORD VAL="Chinese Simplified"/>
  36. </KEYWORDS><DMOZ>
  37.  
  38. <SITE BASE="baidu.com/" TITLE="Baidu.com" DESC="The leading Chinese language search engine, provides “simple and reliableâ€? search experience, strong in Chinese language and multi-media content including MP3 music and movies, the first to offer WAP and PDA-based mobile search in China.">
  39. <CATS>
  40. <CAT ID="Top/World/Chinese_Simplified/计算机/互联网络/搜寻/搜索引擎" TITLE="搜寻/搜索引擎" CID="1005774"/>
  41. </CATS>
  42. </SITE>
  43. </DMOZ>
  44. </ALEXA>

开头包括了一些反向链接的网站,中间是网站排名等信息,下面是网站介绍,网站管理员可以向Alexa添加这些信息。如果是比较不知名的小站,如我的http://photozero.net 信息就没有那么全了。

在前面的文章里提到了,调用Neekey API servicesAlexa rank显示图片还会提升Alexa排名,实际上指的就是在调用Alexa数据时,我们是模拟Alexa工具条进行查询的,所以你的博客的Alexa排名自然就提升上去了,不信您试试?我在Firefox里装上SearchStatus插件后,每天访问自己的博客一会儿,眼睁睁看着Alexa排名从300W排名开外冲到目前的110W。

PHP中获取文件排名的方法

  1. $content = file_get_contents('$alexaURL'); //自行将URL放入,如果服务器的file函数没有开启ALLOW_URL_OPEN 选项(如Dreamhost),应该用 fsockopen 等函数替代。
  2. $pattern = '/<POPULARITY URL="\s*(.+?)" TEXT="\s*(.+?)"\/>/'; //在XML中匹配的 <populartity />项里面的数据就是Alexa排名了
  3. preg_match($pattern, $content, $match); //进行匹配搜索
  4. echo $match[2]; //$match[2] 就是排名了。
  5. //如果需要其他信息就自己写个匹配模式,从里面提取出来就行了。当然用PHP提供的XML处理函数也是可以的。

除了在服务端调用进行输出外,做个AJAX调用的查询程序也不错,还节省了服务器资源。下次抽空做个放出来。