你是否曾想过,仅凭一堆淘汰的服务器零件,就能在自家角落打造一个功能媲美谷歌的迷你搜索系统?这听起来像是天方夜谭,但在2025年,开发者Ryan Pearce将其变为了现实。
故事的主角Ryan Pearce,没有依赖巨头公司或巨额资金,而是走上了一条“低配复刻”之路。他仅用淘来的二手硬件、一颗不到200美元的CPU,以及AI技术的加持,就在家庭洗衣房里搭建起了一个“迷你谷歌”。
凭借这些有限资源,Ryan Pearce成功推出了两个搜索引擎:
● Searcha Page —— 一个常规版搜索引擎(https://searcha.page/);
● Seek Ninja —— 更注重隐私保护,承诺不收集用户数据(https://seek.ninja/)。
这意味着,当用户在这些页面输入搜索请求时,背后的服务器正运行在Ryan Pearce家的洗衣机和烘干机旁,诠释着家庭DIY的无限可能。
回溯近30年前,谷歌搜索的起点同样朴素。它的第一台实验服务器仅40GB容量,运行于斯坦福大学宿舍,机箱甚至用大号乐高积木拼成。后来在IBM和Intel的捐助下,才升级为小型机架。
如今,谷歌搜索已庞大到遍布全球数据中心,但通过巧妙的资源调度和坚韧毅力,任何人都可以在类似“谷歌初代服务器”规模的机器上,复刻出相当现代的搜索体验——甚至将其安置在家庭洗衣房。
Ryan Pearce幽默地表示:
“现在,我洗衣房里的存储容量,竟然超过了2000年的谷歌。这想想就令人难以置信。”
从某种意义上说,他正在重走谷歌的历史路径,只不过场景从校园宿舍迁移到了家庭洗衣房。
与主流云计算项目不同,Ryan Pearce的搜索引擎几乎完全采用自托管方案:
● 上层主机:由旧服务器零件拼装而成,配备了简易风道散热系统。
● 下层电脑:为整个系统提供额外的计算支撑。
起初,这台设备放置在卧室,但因噪音和发热问题影响睡眠,在妻子的建议下,Ryan Pearce将其移至洗衣房,并通过穿墙网线连接。尽管热量问题未完全解决,但至少不再干扰日常生活:“只要不长时间关门,温度还算可控。”
这台洗衣房搜索引擎的性能如何?据Ryan Pearce介绍,早期搜索结果偶有延迟,但近期已显著优化,整体表现令人满意,结果质量甚至超预期——其背后支撑着一个高达20亿条文档的数据库。他计划在半年内扩展到40亿条。作为对比,1998年谷歌的数据库仅含2400万条网页,而2020年已增至4000亿条。虽然20亿对谷歌而言是“九牛一毛”,但对个人开发者来说,已是惊人成就。
能将“废旧服务器”提升至此规模,Ryan Pearce的关键在于大语言模型(LLM)的应用。
“我本质上仍在做传统搜索,类似谷歌20年前的方式。但我加入了一点‘调味料’——用AI进行关键词扩展和上下文理解。这其实是搜索中最具挑战的部分。”
因此,尽管Searcha Page和Seek Ninja界面极简,背后却离不开AI的助力。
许多人可能声称“只想要无AI的搜索”,但AI早已深度融入现代搜索引擎。例如,反向图片搜索依赖AI实现;谷歌早在十年前就推出RankBrain,用机器学习优化结果;微软也在2019年透露,Bing 90%的搜索结果基于机器学习。因此,当人们抱怨AI让搜索变差时,往往忽略了AI已是搜索引擎的DNA。Ryan Pearce的案例证明,即使个人开发者也能利用AI构建和扩展自己的搜索系统。
Ryan Pearce搜索引擎的核心是一颗32核AMD EPYC 7532 CPU:
● 2020年发布时,售价超过3000美元;
● 如今,在eBay上不到200美元即可购得。
为了进一步节省成本,Ryan Pearce甚至选择了“质检测试版”芯片。他补充说,同价位本可买到线程数翻倍的CPU,但因发热量过大不适合家庭环境而放弃。
此外,他还低价收购了大量性能强劲的二手服务器硬件:企业通常每三年更换设备,淘汰的旧硬件在市场上大幅贬值,但性能依然强悍。只要能接受较高能耗,就能以极低成本获得巨大算力。Ryan Pearce抓住这一点,用“白菜价”旧设备拼凑出能运行现代搜索引擎的系统,其性能甚至优于谷歌早期服务器。据了解,整套系统成本约5000美元,其中3000美元用于存储(半TB内存仍较昂贵),但这在DIY领域已属顶级配置。
值得注意的是,Ryan Pearce并非唯一的DIY搜索引擎开发者。例如,另一位极客Wilson Lin选择了截然不同的路线:其系统依赖至少9种云服务,并开发了新的数据解析技术,大幅降低了运行成本。他解释说,这比使用AWS更经济,使其“能在合理预算内推进项目”。
这两条看似迥异的路线能取得如今规模,均得益于一个关键因素:AI。尽管有人抱怨AI降低了搜索质量,但正是AI让个人开发者有机会接近“谷歌级别”的体验。围绕AI的最大争议之一是搜索引擎是否过度强调它——例如,结果页面常试图“解释”搜索内容,有人赞赏其省时,有人则反感。然而,对资源有限的个人开发者而言,LLM是快速构建和扩展数据集的必备工具。
以Ryan Pearce为例,他拥有企业软件和游戏开发背景,不排斥在编程中引入AI。当前其搜索引擎代码量超过15万行,加上迭代,实际编写量接近50万行。他利用AI的方式是:先用LLM托管某些功能,再逐步替换为传统实现——这使他能快速搭建复杂系统,然后迭代打磨。
Wilson Lin也评价道:“LLM确实降低了门槛。如今,挑战谷歌的主要障碍并非技术,而是市场。”
然而,LLM的复杂度仍超出了洗衣房服务器的承载能力。因此,Ryan Pearce将Searcha Page和Seek Ninja接入SambaNova提供的Llama 3推理服务,以低成本获得快速AI能力。此外,他还受益于Common Crawl——一个开放的网页数据仓库,这也是大模型的重要训练来源。在项目开发中,他甚至因频繁抓取一度被Common Crawl封禁。
Ryan Pearce感慨道:“我衷心感谢他们,希望未来能有所回馈。等项目壮大,我一定会减少依赖。”
当然,并非所有尝试都成功。Ryan Pearce透露,最初他想用向量数据库实现搜索,但失败了:“它确实能搜,但结果太‘艺术化’,类似LLM的幻觉问题。”
截至目前,Ryan Pearce的搜索引擎吸引了广泛关注。例如,一位中国用户联系他,希望获得能接入自有LLM代理的“无审查搜索”。但Ryan Pearce坦言,暂难支持中文,因为这需要重建数据集,成本过高。
展望未来,Ryan Pearce计划将服务器迁出家庭,可能选择托管机房或联合数据中心。为此,他已开始尝试轻量广告变现方式:“等流量增长,我会将其迁至托管环境,不会让它永远呆在洗衣房。”
https://www.fastcompany.com/91396271/searcha-page-seekninja-diy-search-engines
本文由主机测评网于2025-12-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251214021.html