据国外媒体报道,google日前宣布已完成新一代的搜索引擎“咖啡因”(caffeine)的索引系统 ,咖啡因除了是google有史以来所提供规模最大的网络内容收藏外,其所提供的新讯息也比旧版索引多上50%。
咖啡因是google打造的新一代搜索引擎架构,主要目的包括加大搜索规模,以及改善索引速度、精确性与全面性等,于去年8月开始邀请开发人员进行测试。
google软件工程师carrie grimes说明了咖啡因索引系统与前一代索引系统的相异之处,指出旧版是由许多阶层所构成,某些阶层更新的速度快于其他层,但主要的阶层平均数周才更新一次,为了更新旧索引的阶层,google必须分析整个网络,因此在新资讯现身及google将其索引间存有不小的时间差。
咖啡因的索引更新则采用了全然不同的方式,google针对小部分网络进行分析,而非一次分析整个网络,而且一天24小时持续更新其全球索引,因此只要google一发现新的网页,就会直接把它加进索引中,这代表使用者比以前更容易找到更新的资讯。
grimes表示,咖啡因每秒可平行处理数十万的页面,这些页面若用纸张堆起来有3哩高,同时咖啡因占据了google资料库约1亿gb的储存空间,而且以每天数十万gb的速度增加,必须要有62.5万台最大容量的ipod才能储存等量的资料。
由于咖啡因改善了索引网络内容的速度,因此当一个新的博客甚至论坛文章出现时,使用者将可比过去更快速地通过google找到相关内容的连结。
grimes指出,咖啡因是为未来所设计的,因此它不仅资讯较新,同时也是一个供google打造更快速且更全面搜索引擎的基础,以配合网络上日益增加的资讯量,并提供更具关联性的搜索结果,未来几个月google将会持续改善该架构功能。
不过,随着新索引系统的完成,google移除了先前开放测试的网页,并表示该公司相信咖啡因已准备就绪,很快就会更广泛地启用该服务。