美国初创公司Cerebras Systems推出了最大的芯片,该芯片集成了超过1.2万亿个晶体管,尺寸为46,225平方毫米。新的Cerebras晶圆缩放引擎(WSE)芯片针对AI进行了优化,比最大的图形处理单元大56.7倍,该图形处理单元尺寸为815平方毫米,包含211亿个晶体管。新的Cerebras晶圆缩放引擎(WSE)提供了3,000倍的高速片上存储器,并具有10,000倍的存储器带宽。更大的芯片尺寸可以确保更快地处理信息,甚至可以缩短信息洞察时间或“培训时间”,这使研究人员能够测试更多的想法,使用更多的数据并解决新问题。
Cerebras WSE专为AI设计,包含一些基础创新,可通过解决数十年来限制芯片尺寸的技术挑战(例如跨掩模版连接性,良率,电源传输和封装)来推动最先进的技术发展。 WSE可以加快计算和通信速度,从而减少培训时间。 WSE的硅面积是最大图形处理单元的56.7倍。此外,WSE可以提供更多的内核来执行更多的计算,并具有更多靠近内核的内存,因此这些内核可以高效地运行。由于所有的通信都保留在硅片上,因为它具有广泛的内核阵列,并且存储器被嵌入在单个芯片中。
Cerebras WSE芯片包含46,225mm2的硅,并容纳400,000个AI优化的,无缓存,无开销的计算内核和18 GB的本地分布式超快SRAM存储器。该芯片具有每秒9 PB的内存带宽,其中内核与细粒度,全硬件,片上网状连接的通信网络链接在一起,可提供每秒100 PB的总带宽。这意味着WSE的低延迟通信带宽非常大,这使得核心组可以以最大的效率进行协作,并且内存带宽不再是瓶颈。更多的本地内存,更多的内核和低延迟的高带宽结构结合在一起,形成了加速AI工作的最佳架构。
Cerebras WSE芯片的功能:
- 增加的内核: WSE集成了40万个AI优化的计算内核,称为SLAC(稀疏线性代数内核),它们可编程,灵活且针对稀疏线性代数进行了优化,而稀疏线性代数是所有神经网络计算的基础。 SLAC的可编程性功能确保内核可以在不断变化的机器学习领域轻松运行所有神经网络算法。 WSE核心结合了Cerebras发明的稀疏性收集技术,该技术可加快深度学习等稀疏工作负载(包含零的工作负载)的计算性能。
- 增强的内存: Cerebras WSE集成了更多的本地内存以及更多的内核,这是任何芯片所无法比拟的,它能够以更低的延迟和更少的能耗实现灵活,快速的计算。WSE带有18 GB(千兆字节)的片上存储器,其内核可在一个时钟周期内对其进行访问。核心本地内存的这种收集使WSE每秒可提供总计9 PB的内存带宽,这是10,000 X和3,000 X的更大内存带宽。