第9部分(第2/4 页)
取得成功,而所有其他的一切都失败,那我们依然是成功的。但如果我们做好了视频、社区、地球,但放弃了搜索,那我们依然是失败的。”当时,我发现几位“产品多元派”,都在这句话的“当头棒喝”之下想通了。
做好搜索(2)
达成共识后,我汇集了大家的意见,飞到总部和CEO艾瑞克·施密特汇报。在开始我那份20多页的PPT的演讲前,我是这么说的:“Our China strategy is simply to focus on web search; attend to every detail and win over users,before working on any other products。(我们的中国战略就是专注于网页搜索,不放过任何一个细节,以此赢得用户。之后,我们才考虑其他产品。)”
艾瑞克非常赞同这个观点,他说:“搜索业务是谷歌成功的奥秘,如果搜索做不好,那么其他的业务想做好就是纸上谈兵。何况,网页搜索业务也是做好网页广告业务的基础。”
在总部认可并决定谷歌中国先做好搜索的基础上,我们开始了提高中文搜索的历程。在做中文搜索之前,我对工程师们说:“那些最酷最吸引眼球的业务,我们肯定都会去做。但不是现在去做,而是将来。在我们作出决定之前,大家可以各抒己见。而现在,一旦公司作了决定,我们希望大家都能够全力以赴,专注搜索业务!”
从那时开始,只要有任何员工想做搜索以外的产品,我都俨然成为一个Mr。No(“说不”先生)!我总是说:“做好搜索后再说!”
统一思想后,我们就开始在搜索页面的每一个细节上钻研,在每一个可能的选择上进行测试。当然,我们选择提高页面搜索质量,让谷歌“读懂中文”,也意味着谷歌中国要忍受产品很少的“批评”。面对媒体的批评,面对外在的质疑,我们只有像一个坚持己见却暂时没有票房的电影导演那样坚持自己的理想,我们就像一个沉默的剑客一样在聒噪的环境中专注修炼内功。
顶住压力,不要盲从,向来是成功者必须具备的重要素质之一。
修复中文搜索并不是一件简单的事情。其中可能有一万个细节需要工程师们一一进行认证。而这种修正不可能“跟着感觉走”,而是需要先研究中国用户的搜索习惯,然后再根据这些习惯提供用户喜欢的搜索。
在谷歌中文搜索2000年上线的时候,出现了一个严重的技术问题,谷歌中文总是把握不好“分词”的问题。有一天我看到一篇清华的分析,说在搜索引擎里面,谷歌的精确度还是不错的,甚至领先其他中文搜索网站,但是分词做得不够好,原因就在于投入不够。因为当时谷歌只有五位工作在美国的华人工程师,他们无法集中精力做好这件事情。
当系统无法准确分词时,就会闹出很多笑话。比如,用户输入“电脑”两个字,正常的情况是,页面左侧应出现“电脑”的搜索结果,右侧应该出现电脑产品广告,但因为分词的错误,可能会把“电脑”分成“电”和“脑”两个字,出现的结果和广告居然是关于“电话”和“脑白金”的,真令人啼笑皆非。
在搜索引擎领域,分词是中文特有的一个挑战,我们需要做的不是做一个符合语言学的分词,而是一个符合用户使用习惯的分词。比如说,除了要把常用词正确分开外,还应该分清最新的网上用词,比如“打酱油”、“芙蓉姐姐”等等。
而即使分词正确也仍可能造成匹配的问题。比如说,如果有一篇文章里面提到“清华大学”,但搜索“清华”,这篇文章就出不来了。但如果分词时把文章里的“清华大学”分成“清华/大学”,那么搜索“清华大学”又出不了结果了,谷歌对这个问题研究了很久。
做好搜索(3)
有一天,谷歌中国工程研究院副院长刘骏跑来兴奋地说:“开复,你的语音搜索论文可以用在分词上。如果我们把中文的字当做语音,然后用语音识别的方法和统计语言模式来识别出所有可能的分词方法,那么匹配正确时,‘清华’和‘清华大学’就可能同时出来。还有,我们有这么大的网络语料库,可以训练出一个非常巨大而精确的语言模型。”后来,他带领团队真的实现了这方面的突破。
在2006年下半年到2007年上半年,我们的工程师一一检查尝试各种领域的各种搜索词,并统计出所有不合理的搜索结果,然后再向美国的工程师学习如何在系统里进行
本章未完,点击下一页继续。