一个搜索引擎,还有比这更棒的东西么?
凯瑟琳未来自己经常登陆的网站,大多都是通过“百度一下”而知道的。凯瑟琳觉得,自己很有必要弄出一个搜索引擎来……如果要追溯的话,搜索引擎的“历史”比worldwideweb还要长。早在web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的ftp站点。
就目前而言,大多数网站都是大学的门户网,其他的网站实在是太少了,于是搜索引擎的存在意义就被淡化了。
但是未来肯定不会如此。
且不说自己想要将这网上这些蛋疼的人分开,从另一方面而言,因为和《洛杉矶时报》的合作也快要开始了,综合类型的网站总是会出现的,于是搜索引擎就会变得必要起来。
“也许这是一个不错的注意……”凯瑟琳撑着下巴,然后在思考着。
而艾尔莎看看时间,已经快到下午三点了,于是就去泡红茶了。
“什么主意?”
艾尔莎一边在拿着茶饼,一边问着。
“一个搜索引擎,一个能够让我们知道各种网站的一个好东西。”
“我们可以将自己想要的网页搜索出来?”
“对,就是这样。”
“这能办得到吗?”
“当然……”
虽然是肯定的回答,但是凯瑟琳最后的语气却变得有些奇怪。
搜索引擎依靠的是网络蜘蛛,即web-spider。
这是一个很形象的比喻,就如同网络被人称为“”一样(就是“网”的意思)。
准确一点来说,网络蜘蛛就是通过网页的链接地址来寻找网页,从网站首页开始读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。简而言之,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
未来的“百度”、“谷歌”等等网站,都是建立在这样的一个基础之上的。
可是凯瑟琳突然想到自己似乎根本就没有了解过“网络蜘蛛”这个东西,虽然知道原理,但是想要弄出来……似乎还有些麻烦。
“看来还给成立一个工作组才行。”
开始了抱着双手站了起来。
“我觉得我们公司的人才已经够紧张的了。”艾尔莎将红茶和茶饼放在了凯瑟琳的桌上。
“没关系,到了五月份,这种情况就能得到缓解。”intel与斯坦福大学的合作培养的第一批学生已经快要毕业了,有了他们的加入,公司的人才紧缺的问题必然能够得到一定程度的缓解。
“至少在未来十年内,我们公司的人才都有可能是供不应求,这是一个急速扩张的产业,和那些传统行业是不一样的。”
――直到21世纪,这些行业对于人才的渴求依然是强烈的。
当然,中国除外――因为那里的人实在是太多了,乃至于都有了“it民工”的说法。
凯瑟琳坐了下来,然后喝了一口红茶。
她一边喝着茶,一边在思考着应该如何写一个网络蜘蛛的程序出来。
评价一个网络蜘蛛的好坏,有三个方式,一个是覆盖率,网络蜘蛛的首要目标是抓取互联网上所需的信息。因此,有价值的信息是否都收录,收录的比例是网络蜘蛛的基本评价指标;第二个则是时效性,即事件发生并在互联网上传播后(以新闻、论坛、博客等各种形式),用户需要通过搜索引擎尽快能检索到相应内容。而索引的前提是收录,因此需要网络蜘蛛尽快的抓取互联网上最新出现的资源;最后则是重复率,互联网上重复的内容很多,如何尽早的发现页面重复并消除之,是网络蜘蛛需要解决的问题。除转载导致的重复外,重复总能体现为各种不同的模式,站点级重复,目录级重复,cgi级重复,参数级重复等等,及早发现这些模式并进行处理,能节省系统的存储、抓取、建库和展现资源。
第一个问题最好解决,因为美国电信的根服务器就在八零后少林方丈页的覆盖率永远都是100%。
需要解决的是第二和第三个问题。
事实上这也不是个大问题,原理很容易解决,最重要的一环在于需要一个高效率的程序。
光凭自己一个人的话,可能需要不少的时间。凯瑟琳一直梦想的是当一个甩手掌柜,这事怎么能够发生呢?――于是,找人就是必须的。
最后,凯瑟琳决定从微软的phoenix-stargate开发组抽调了三个人出来,帮助开发这个网络蜘蛛程序。
反正星门系统的开发已经差不多了,这个时候自己抽调一些人出来开发网络蜘蛛完全不是问题。
网络蜘蛛是搜索引擎的一个最核心的部分。有了这个程序之后,搜索引擎的建立就会非常简单了。
那……自己的这个网站应该叫什么名字呢?
百度?
她首先就想到了这个名字。
凯瑟琳摇了摇头,与其叫百度,还没有谷歌来得更有味道。毕竟,后者可是全球性的搜索引擎,而前者只能局限在中国大陆地区嘛……而且更重要的一员原因是,凯瑟琳对于百度的某些功能非常的有怨念,而且还不能翻墙。
在这上面,谷歌的搜索就方便多了――前提是用国外版,好孩子片什么的,很容易就可以找到。虽然这是上辈子的情感,但是凯瑟琳觉得还是谷歌稍微要好那么一点点。
最后,凯瑟琳决定将自己的这个网站命名为google,也就是谷歌。
不过凯瑟琳并不打算如同历史上的那个谷歌公司一样去涉及各种的产业,什么手机、办公都一网打尽。
自己已经有了专门的手机部门,微软也是自己的,谷歌公司所要做的事情,就是扮演好一个搜索引擎自己的角色。
这方面凯瑟琳觉得还是去参考一下百度,还是一个不错的选择。
贴吧、知道、百科,这些都是必须的。
“谷歌贴吧……谷歌知道……谷歌百科……”凯瑟琳在笔记本上将关键词一一写下。
“唔……维基百科似乎也不错……算了,还是谷歌吧。”
凯瑟琳决定不去占用“维基”的名字,看着阿桑奇如何将这些政府的丑态全部挖出来,似乎挺有趣的。
但是如果自己占用了“维基”的名字,万一以后阿桑奇做出了些什么事情,那城门失火,殃及池鱼,自己可就糟了。
“谷歌?那是什么?”
艾尔莎将茶具收走。
“搜索网站的名字。”
“哦。”
有了搜索网站,大家就能够找到和自己臭味相投的网站了,而那个时候,网络上面的火药味大概也就不会这么浓烈了。
“google……”
凯瑟琳在笔记本上写下了谷歌的几个字母。
“这就是你说的那个谷歌?”
“是的,不仅仅只有一个搜索引擎而已,这应该是一个综合性的网站……当然,这个网站的大部分内容以搜索为主。”
贴吧、知道、百科,这些都是必不可少的。
“我的这个谷歌,在除去了搜索功能之外,还应该拥有替人们解决问题的功能。例如,大家有问题了,他们就可以到我们的谷歌网站来,然后就可以找到他们的问题的解决方法。”
“听着可真不错……是为了用户的依赖度吗?”
艾尔莎似乎看出了些什么。
“对,对。用户的粘性很重要。”凯瑟琳摆出了一副“孺子可教”的表情。
“我们可以在谷歌知道让用户提问,他们遇到了难以解决的问题,就可以在这边寻求解决方案……当然,我们公司自身并不提供解决方案的办法,而是让网友们自己来,从而形成一种互动。而我们的谷歌百科,则是类似于百科全书的存在,大家想要找什么知识,只要到我们的谷歌百科来就好了。”
“那……贴吧又是什么呢?”艾尔莎注意到凯瑟琳似乎好像没有提及贴吧的功能。
“贴吧应该是和论坛差不多的功能,但是性质有些不太一样。谷歌将会成为我们未来很重要的一个产品!”
贴吧和论坛是存在很大不同的,但是凯瑟琳不知道怎么和艾尔莎说明。
“谷歌……这名字越听越觉得顺耳,真不错。”艾尔莎摸着下巴想了想。
“这是必须的。”
除了谷歌,facebook也是一个不错的东西,但是开设一个facebook的网站……这根本不可能。现在的计算机根本不可能将人脸的照片给完美的弄成图片,图像会有巨大的损失。更重要的是,现在根本没有网络摄像头。
“凯特,你似乎很重视谷歌?”
“当然,我连广告词也想好了。”
“广告词?”
“谷歌一下,你就知道。”
(未完待续)
手机站全新改版升级地址:**,数据和书签与电脑站同步,无广告清新阅读!