Groq

Groq, Inc.

🇺🇸

芯片设计🇺🇸 US非上市

groq.com

核心产品

GroqChip LPU、GroqCloud AI推理服务

追踪供应链 →

依赖于

TSMC Synopsys Cadence

详细简报▼ 展开

详细简报

Groq, Inc.是一家总部位于加利福尼亚州山景城的私营AI基础设施公司，由Google第一代TPU首席工程师Jonathan Ross于2016年创立。Groq的创业洞察是：LLM推理——与训练不同——在本质上受内存带宽而非计算能力限制：瓶颈在于以足够快的速度将模型权重从内存移动到处理核心，以跟上逐token的顺序生成过程。Groq将LPU（语言处理单元）设计为一种软件可编程的确定性数据流处理器，通过根本不同的架构方法消除这一瓶颈。 LPU架构采用具有时序指令集架构（TISA）的脉动阵列设计——一种静态调度执行模型，编译器在编译时精确确定每条指令的执行时间，无动态调度、无缓存层次结构、无乱序执行硬件。这消除了导致GPU推理时序高度不确定性的所有来源（缓存未命中、动态内存分配、分支预测失败）。结果是一个推理处理器，无论批大小或并发用户负载如何，都能对大型模型提供完全确定性的单位数毫秒每token延迟。单块LPU芯片使用SRAM（而非HBM）实现约750 GB/s的内存带宽。 GroqCloud是Groq的公开推理API服务，2024年初展示了LLaMA 2 70B推理每用户每秒超过300 token的速度——比当时同等GPU推理服务快约4至10倍——成为AI推理速度辩论中被引用最多的基准测试之一。GroqCloud的吞吐量优势来自LPU的内存带宽架构和Groq编译器优化的模型服务管线。Groq于2024年8月完成D轮融资6.4亿美元，投资方包括三星风投、思科等，总融资额约11亿美元，估值28亿美元。 Groq的芯片由台积电制造。当前GroqChip（LPU1）采用台积电14nm工艺；后续代次计划采用更先进节点。三星风投的投资暗示三星作为未来制造替代方案的潜在战略关系，但台积电仍是Groq的主要代工合作伙伴。LPU以SRAM为核心的设计——使用分布式片上SRAM阵列而非HBM堆叠——意味着Groq不依赖SK海力士或三星提供HBM封装，与GPU推理基础设施形成差异化并消除一层供应链复杂性。 Groq的目标市场是延迟比每token成本吞吐量更重要的实时AI推理应用：语音AI、客服智能体、实时翻译、代码补全以及需要亚秒级响应时间的企业应用。公司还在追求确定性延迟是任务关键需求的国防和情报社区合同——LPU可预测的时序特性对于具有固有调度不确定性的GPU系统提供了显著优势。随着LLM推理工作负载在整体AI计算组合中增长速度超过训练工作负载，Groq专用推理架构将其定位为GPU训练基础设施的补充（而非替代）。

关键路径 — 从原料硅到部署

晶圆代工

TSMC ▲

CoWoS先进封装、N3/N2逻辑

EDA工具

Synopsys ▲

Design Compiler（综合）、PrimeTime（时序）、VCS（仿真）、IC Compiler 2

EDA工具

Cadence ▲

Virtuoso（模拟）、Genus/Innovus（数字综合）、Tempus（时序签核）

芯片设计

Groq

GroqChip LPU、GroqCloud AI推理服务