开始使用互联网以来,我很快就了解到了一种东西,叫做搜索引擎。
最早我们接触的搜索引擎,其实是类似于目录搜索的东西,有yahoo搜索和国内的网易搜索。那个时候,整个互联网都不大,一个网站目录网站,也就是成百上千个网站。但是已经让我们目不暇接。用目录搜索引擎,我们可以找到什么网站是跟游戏开发有关系的,什么网站是跟学习编程有关系的,什么网站可以看新闻,等等。
一开始这种搜索引擎对我们来说就已经是近乎于魔幻的产品。直到我们接触了 Google,Google 似乎包含了互联网全部的信息,不管你搜索什么都可以找到具体的内容。
从那时候,开始我就一直很好奇 Google 背后的技术到底是什么。但是那似乎是高科技,是非常高大上的东西,听起来非常神秘莫测。直到有一天,大概是2001年前后,我在车东的 Blog,看到了一篇文章,介绍 Lucene,我才开始知道全文检索技术,倒排索引技术,以及 Lucene 这个搜索引擎内核开源项目。
2009年的时候,我们的技术咨询客户,咨询我们能否用全文检索技术替代他们在网站上使用的 SQL Like 方法。我们当时应了下来,用 Lucene 为内核开发了一套方便使用的站内搜索引擎库,内部代号叫做 cypress。很快这套系统就在客户的网站上部署,并给我们带来收益。
后来,我们把这套搜索系统的名字命名为银杏搜索,并给国内很多当时知名的中型网站服务,并成立了银杏泰克公司。
很多年后,这家公司已经结束运营很久。我们做的事情,有更好的开源系统 Elasticsearch 实现了,而且应用的广泛程度已经远超于我之前的想象。
有一天,有朋友无意聊起这段历史,我才发现原来我们老的公司官网的域名已经无主久已,买下来,作为我研究搜索和 AI 技术的一个 Blog 吧。
如题。
发表回复