集微网报道 (文/陈炳欣)受国外初创公司groq推出ai芯片影响,日前国内股市存储板块出现一波异动,引起人们对这一事件的广泛关注。
据悉,groq公司是一家人工智能芯片公司,成立于2016年,总部位于美国加州圣塔克拉拉山景城。今年1月其推出新型人工智能芯片 lpu(language processing unit)芯片。该产品近日在一些公开测评、客户测试中,延时(latency)、吞吐量(throughput)等指标大受好评,据称ai推理速度远超英伟达gpu。groq亚博bbin真人官网提供了两个开源模型的演示:在mixtral8x7b-32k的生成速度接近500 token/s,在llama 2 70b-4k接近300 token/s。
从技术上看,groq没有走gpu路线,而是采用了lpu方案。在设计架构上,gpu主要用于图形渲染,拥有数百个并行的处理单元。而lpu的架构旨在为 ai 计算提供确定性的性能,一种新型的端到端处理单元系统。不同于gpu使用的simd(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。因此,lpu更加擅长llm处理,可以为具备序列组件的计算密集型应用(比如llm)提供更快的推理速度。
简单来讲,lpu的核心是克服限制llm处理两个瓶颈——计算密度和内存带宽。groq的芯片采用14nm制程,搭载了230mb大sram来保证内存带宽,片上内存带宽达到了80tb/s。在算力层面,gorq芯片的整型(8位)运算速度为750tops,浮点(16位)运算速度则为188tflops。
groq芯片的推出给业界带来不小的影响。从算力端来看,一款更高性能、更低成本(单位token费用)的芯片,有望在海量推理需求中提供一个新的选择。对应用端来说,更低成本和更高效率的推理过程也有望加速搜索、创意设计、办公软件等ai生成应用的落地和普及。
不过,针对groq芯片的质疑也随之而来。许多观点认为,groq芯片看起来虽然效果惊人,但计算成本tco,并不具有经济性。同样完成llama 70b模型推理,采用int8量化,运行三年groq 需要的硬件采购成本是576卡1144 万美元,运营成本是76.2万美元或更高;h100的硬件采购成本是8卡30万美元,运营成本是7.2万美元或略低。但也有大佬称,groq芯片的确在小batch size上显示出了优势。因此,groq芯片在小模型、本地或者线上定制化推理服务等场景具有一定应用前景,却不适用在云端大规模集群推理,尤其是gpu或者大厂asic被充分优化的场景。
无论这样的讨论结论如何,都集中于技术层面。但有一个现象却需注意。也就是文前所述,有人借此炒作sram话题,导致存储板块出现异动。
sram即静态随机存取存储器,与dram同属易失性内存。sram的优点是存取速度更快,但成本高,容量小。这与dram形成鲜明对比。由于当前ai芯片的主要瓶颈之一就是存储带宽问题。前段时间火热的hbm高带宽内存,实际上就是dram的超级加强版,通过堆叠多颗dram的芯片来提供更高的存储带宽和容量。groq芯片采用sram,而非hbm获得更高ai推理速度这一点,被人转移到sram之上,借以炒作起了一波股市行情,却又无视了sram成本高、容量小等问题。
sram作为一项已经十分成熟的技术产品,其优势与劣势都已非常明显。其很难凭借一款groq芯片就能打开所谓的“上升通道”。sram未来替代hbm,更属难能。
经过近两年的“低谷”,全球存储市场都处于反弹状态。此时的存储板块酝酿出一波上涨行情并非不可能。但切忌盲目跟风炒作,反而有可能节外生枝,对整个大势造成不利影响。