芯东西最新消息,据外媒报道,一家由00后创始人创立的英国神秘AI芯片企业Olix,已成功获得2.2亿美元(约15亿元人民币)的融资,其估值已超过10亿美元(约69亿元人民币),跻身独角兽行列。
成立于2024年3月的Olix(原名Flux Computing),总部位于伦敦,由James Dacombe创立,旨在研发比英伟达GPU更快、更经济的AI芯片。
值得一提的是,年仅25岁的James Dacombe不仅是Olix的创始人,同时也是英国另一家脑监测企业CoMind的创始人兼CEO。CoMind成立于他18岁时,并已成功融资1亿美元(约7亿元人民币)。
▲James Dacombe
针对AI推理需求,Olix正致力于开发一种新型AI芯片,旨在实现高吞吐量与高交互性,以应对最严苛的推理工作负载,且不受当前AI芯片架构与供应链限制。
其光学张量处理单元(OTPU)是一款采用新型存储与互连架构的光学数字处理器。
团队坚信,将SRAM架构与光子学结合,可在每兆瓦吞吐量和总拥有成本上超越基于HBM的架构,同时在交互性与延迟方面显著优于纯硅SRAM架构。
截至目前,Olix已累计融资2.5亿美元(约17亿元人民币)。据知情人士透露,Olix计划于明年向客户交付首批产品。对于融资事宜,该公司保持沉默。
Vertex Ventures普通合伙人、前Facebook基础设施高管Jonathan Heiliger表示,AI推理需要彻底重新思考芯片制造方式,系统级架构的大规模重构极具挑战,“James及其团队的执行速度甚至超过了资源是其十倍的公司。”
当前,英国芯片公司的融资规模落后于美国。另一家英国AI芯片初创公司Fractile宣布,计划在未来三年内投资1亿英镑(约9亿元人民币),以扩大在英国的业务。
Olix在官网分享了其芯片设计理念:
现有GPU架构已逼近物理极限,当前硬件无法同时为每位用户提供快速推理。
这种权衡取舍自TPUv2和V100以来被所有主流加速器所采用——一个大型逻辑芯片置于中介层上,旁边堆叠HBM内存。
唯有通过批量处理大量用户数据,充分利用计算资源,并将模型权重通过HBM传输至大量输出token以分摊能耗,才能实现每个XPU和每兆瓦的高吞吐量。
然而,大规模处理将不可避免地增加每个用户的延迟,降低交互性,使用户面临艰难抉择。
推理性能受限于数据传输。因此,尽管逻辑效率(FLOPs/W)和吞吐量(每个封装的FLOP)持续提升带来的收益递减,但数据传输时间的缩短受到内存墙、封装互连边界长度及封装尺寸的限制。
尽管从HBM2到HBM4的过渡在能效和吞吐量密度方面取得显著提升,但要实现如此巨大的改进需时近十年,且需要更复杂、更昂贵的制造技术。
HBM性能提升带来的能效提升有限,不可避免地限制了每个token传输KV cache所需的 pJ/bit 能量,进而也限制了当前架构中token总能耗的下限。
过去十年间,这种架构扩展提升了系统整体性能,但进一步扩展无法同时实现高吞吐量与高交互性。从英伟达Hopper到Rubin Ultra,封装尺寸大约增长了四倍。再增长四倍将接近晶圆级封装的极限。
更大的封装可缩短数据传输时间并提高交互性,但无法降低固定数据传输延迟。因此,阿姆达尔定律限制了未来通过进一步增大封装尺寸来提升交互性的可能性。
数据从HBM经由中介层进入计算单元的物理路径未发生根本改变,但随着跨光罩高带宽接口的引入,其复杂性日益增加。
以每次缓存命中或未命中时间衡量的数据传输延迟已接近或达到极限,并逐渐成为每个token延迟中越来越重要的组成部分。
尽管可通过更大层的张量并行性进一步缩短每层的数据传输时间,但这将增加功耗和互连延迟。
此外,高吞吐量编码方案也会引入编码与解码延迟,进一步提高每个token的最低延迟并限制可实现的交互性。
如果可通过规模、集成或执行解决这一权衡问题,那么当前计算生态系统的核心企业将是主导者。由于预付了数十亿美元以确保获得领先的逻辑节点、HBM和先进封装能力,这类公司在软件、系统集成和供应链方面拥有巨大护城河。
每一代都加倍强化这种方法。系统规模越来越大,集成度越来越高,目标也越来越远大。绝对性能持续提升,但底层限制却始终不变,因此仍然无法同时实现高交互性和高吞吐量
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436047.html