第134部分(第3/4 页)
,但是有的同学在看了一个很漂亮的网页后想介绍给别人时不得不繁琐的记下该站得网址,要知道网址要链到某个具体网页的时候有可能会非常的长,所以他忍不住想到,能不能做一个工具将网络上所有地网页都抓取下来,然后存在自己的服务器中,当人们输入一定的关键字后进行自动匹配。 从而将某个具体的资源返还给人们呢。 大学的研究还不像公司,公司开发一款产品往往会进行大量的市场
调查,然后还要考虑是否盈利,而大学生做产品往往是灵光一闪。 赵维均也是这样,做这个产品他没有告诉任何人,经过长达四个多月的编程实现,赵维均得到了一款比较满意的产品。 随后他前去美国专利局进行注册,产品名Yout。 可能注定着世界上要多一家伟大地公司。 那天龚定雨和几个公司的技术专家也去专利局去申请两项专利,由于总公司和香港分公司专利都在不断增加,给了美国分公司很大的压力,所以龚定雨是为了摆个姿态,就一起去了,结果赵维均正好排在他们后面。 得知龚定雨竟然是中国龙腾公司的人。 赵维均非常佩服,毕竟他用的很多计算机产品都是龙腾生产的,可以说龙腾是整个中国人地骄傲。
而龚定雨也不愧拥有鬼神之智,竟然一眼就瞧出了赵维均手上专利的价值,随后就隆重邀请赵维均加盟了,能加盟自己心目中的大公司,赵维均其实也非常满意,他博士也快毕业了,只剩下最后论文答辩,本来他最近就一直在犹豫要加入哪个公司。 不过当他听说龙腾还有一个创业投资基金后。 他就觉的有点心动了。 他想要创业!
开始龚定雨见他婉拒还以为是给的条件不够吸引人,所以咬咬牙一再的提高筹码。 搞得那两个技术人员都是脸一阵阵抽动。 不过当他得知赵维均是想自己创业时,失落的心情又好了一点点。
和Archie不同,由于有了互联网,赵维均的Yout拥有世界上第一个Spider程序。 Spider指自动抓取网页内容的机器人Robots,是搜索引擎用来访问Internet上网页的自动程序。 spiders根据html地语法和格式,对读取地页面进行代码过滤,收入相关的文字内容。 爬虫从一个或若干初始网页地URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列;直到满足系统的一定停止条件。 有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
可以说Yout已经具备了后世搜索引擎的一些特征了,虽然还比较毛糙,在切词计算词之间距离的方面做得还不是那么完善,但是作为世界上第一个诞生的网页搜索器,Yout仍然具备光辉的前景。
没能将这一项目握在自己手上的张国栋还有些遗憾,不过旋即又开心起来,毕竟这第一的荣誉好歹也是中国人自己的了,于是张国栋马上自己炮制了一份PageRank算法的论文寄给了英国自然杂志。
历史上PageRank(网页级别)。 取自Google地创始人LarryPage。 它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。 在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果地相关性和质量。
级别从1到10级,10级为满分。 PR值越高说明该网页越受欢迎(越重要)。 例如:一个PR值为1的网站表明这个网站不太具有流行度。 而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。 一般PR值达到4,就算是一个不错地网站了。 Google把自己的网站的PR值定到10。 这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。
PageRank是Google算法的重要内容。 2001年9月被授予美国专利,专利人是Google创始人之一拉里※#8226;佩奇(Larry Page)。 因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。 而
本章未完,点击下一页继续。