详细简报▼ 展开
Groq, Inc.是一家总部位于加利福尼亚州山景城的私营AI基础设施公司,由Google第一代TPU首席工程师Jonathan Ross于2016年创立。Groq的创业洞察是:LLM推理——与训练不同——在本质上受内存带宽而非计算能力限制:瓶颈在于以足够快的速度将模型权重从内存移动到处理核心,以跟上逐token的顺序生成过程。Groq将LPU(语言处理单元)设计为一种软件可编程的确定性数据流处理器,通过根本不同的架构方法消除这一瓶颈。 LPU架构采用具有时序指令集架构(TISA)的脉动阵列设计——一种静态调度执行模型,编译器在编译时精确确定每条指令的执行时间,无动态调度、无缓存层次结构、无乱序执行硬件。这消除了导致GPU推理时序高度不确定性的所有来源(缓存未命中、动态内存分配、分支预测失败)。结果是一个推理处理器,无论批大小或并发用户负载如何,都能对大型模型提供完全确定性的单位数毫秒每token延迟。单块LPU芯片使用SRAM(而非HBM)实现约750 GB/s的内存带宽。 GroqCloud是Groq的公开推理API服务,2024年初展示了LLaMA 2 70B推理每用户每秒超过300 token的速度——比当时同等GPU推理服务快约4至10倍——成为AI推理速度辩论中被引用最多的基准测试之一。GroqCloud的吞吐量优势来自LPU的内存带宽架构和Groq编译器优化的模型服务管线。Groq于2024年8月完成D轮融资6.4亿美元,投资方包括三星风投、思科等,总融资额约11亿美元,估值28亿美元。 Groq的芯片由台积电制造。当前GroqChip(LPU1)采用台积电14nm工艺;后续代次计划采用更先进节点。三星风投的投资暗示三星作为未来制造替代方案的潜在战略关系,但台积电仍是Groq的主要代工合作伙伴。LPU以SRAM为核心的设计——使用分布式片上SRAM阵列而非HBM堆叠——意味着Groq不依赖SK海力士或三星提供HBM封装,与GPU推理基础设施形成差异化并消除一层供应链复杂性。 Groq的目标市场是延迟比每token成本吞吐量更重要的实时AI推理应用:语音AI、客服智能体、实时翻译、代码补全以及需要亚秒级响应时间的企业应用。公司还在追求确定性延迟是任务关键需求的国防和情报社区合同——LPU可预测的时序特性对于具有固有调度不确定性的GPU系统提供了显著优势。随着LLM推理工作负载在整体AI计算组合中增长速度超过训练工作负载,Groq专用推理架构将其定位为GPU训练基础设施的补充(而非替代)。
关键路径 — 从原料硅到部署
晶圆代工
TSMC ▲
CoWoS先进封装、N3/N2逻辑
EDA工具
Synopsys ▲
Design Compiler(综合)、PrimeTime(时序)、VCS(仿真)、IC Compiler 2
EDA工具
Cadence ▲
Virtuoso(模拟)、Genus/Innovus(数字综合)、Tempus(时序签核)
芯片设计
Groq
GroqChip LPU、GroqCloud AI推理服务