你的位置:开云·kaiyun「中国」体育官方网站 登录入口 > 新闻 > kaiyun体育网页版登录桑迪亚国度履行室的一个接头小组解释了这少许-开云·kaiyun「中国」体育官方网站 登录入口

kaiyun体育网页版登录桑迪亚国度履行室的一个接头小组解释了这少许-开云·kaiyun「中国」体育官方网站 登录入口

时间:2025-04-20 07:28 点击:62 次

kaiyun体育网页版登录桑迪亚国度履行室的一个接头小组解释了这少许-开云·kaiyun「中国」体育官方网站 登录入口

(原标题:用各人最大芯片打造超算kaiyun体育网页版登录,细节曝光)

要是您但愿不错频繁碰头,接待标星储藏哦~

开始:内容来自nextplatform,谢谢。

劳伦斯利弗莫尔国度履行室、桑迪亚国度履行室和洛斯阿拉莫斯国度履行室在 HPC 社区中被简称为“三重履行室”,但这些 HPC 中心大概不错称为“尝试履行室”,因为它们历史上尝试过简直任何新的架构,以了解它在推动好意思国能源部的职责方面可能有何远景。

桑迪亚国度履行室是时尚权术测试新架构的方位,当今它带着 Cerebras Systems 的第三代晶圆级系统再次转头,但愿在一台确实想象用于运行 AI 观测和推理的机器上冲破传统 HPC 代码的性能落魄。

两年前,桑迪亚从 Cerebras 收购了数目省略的 CS-2 系统,每个系统齐有一个 CPU 主机和一个 WSE-2 晶圆级处理器,经营是将一些矩阵密集的 HPC 辩论卸载到 WSE-2 引擎上的 16 位浮点中枢上。

为什么桑迪亚甚而会探求将其 64 位或 32 位神志的辩论精度裁减四倍或两倍?因为这些 WSE-2 引擎(正如咱们在 2022 年 3 月详备先容的那样)将 850,000 个内核和 40 GB 的片上 SRAM 内存(蚀刻在 2.6 万亿个晶体管中)塞进一个餐盘大小的方形硅片中,具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的寥落矩阵。

咱们的思法是,关于某些类型的行状负载,要是问题相宜内存,或者不错瓦解为跨越这些中枢的部分,那么在单个大型开发上进行辩论不错使 HPC 模拟运行得更快。

本年早些时候,桑迪亚国度履行室的一个接头小组解释了这少许,单个 CS-2 系统在某种分子能源学模拟中打败了橡树岭国度履行室的“Frontier”超等辩论机。

更大的 Frontier 机器领有 37,632 个 AMD “Aldebaran” MI250X GPU 加快器,不错模拟晶格中的广宽原子,但由于这些 GPU 集群的推广性较弱,它无法模拟万古候舞动的原子。节点之间的延伸使这成为不成能。

然则,使用调动的 LAMMPS 分子能源学模拟,桑迪亚诞生了一个测试,其中钨、铜和钽晶格由静态原子数构成——801,792,足以让一个 WSE-2 中枢保存一个原子的数据——然后模拟这些晶格受到辐照冲击。与雄伟的 Frontier 系统中的 GPU 比拟,桑迪亚在一台 WSE-2 辩论引擎上进行的 LAMMPS 模拟中每秒可处理的时候步数关于铜高 109 倍,关于钨高 96 倍,关于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的时候,正如咱们其时指出的那样,有富余的时候来实质不雅察当你用能量戳晶格时晶格会发生什么。

在 Frontier 机器上,该诈欺智商的推广在 32 个 GPU 时渐渐草率,这令东谈主失望,而况标明关于某些类型的诈欺智商来说,很难在单个辩论开发以外进行推广。

其时,咱们推测,要是 Sandia 升级到本年 3 月推出的 CS-3 系统中的 WSE-3 辩论引擎,它就不错赢得更多时候(即模拟时候) 。借助 WSE-3 引擎,Cerebras 将晶体管缩小到 5 纳米(WSE-2 为 7 纳米),并将中枢数目增多到 900,000 个,但漂流到 8 宽 FP16 SIMD 单位,是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单位宽度的两倍。咱们以为 WSE-3 的时钟速率提高了约 5%,当你将时钟速率、中枢超过和 SIMD 进步相乘时,这便是 WSE-3 的性能是 WSE-2 的 2 倍的原因。

咱们算计,通过从 WSE-2 移至 WSE-3,这种性能进步可能会将钽晶格辐照的模拟窗口从 40 毫秒增多到 80 毫秒。比拟之下,Frontier 机器上的这些节点模拟时候约为 200 纳秒。

嗯,看起来桑迪亚国度履行室的东谈主们思要得回一些 WSE-3 辩论引擎并一探究竟。咱们还热烈怀疑他们思弄明晰是否不错将模拟推广到多个晶圆上并冲破 1 秒模拟落魄。

也许是为了这个经营,也为了其他经营,桑迪亚国度履行室和 Cerebras 照旧运行构建一个诨名为“Kingfisher”的系统,该系统将以四个 CS-3 系统运行,并将在畴昔某个时候推广到八个系统。Kingfisher 集群将在传统的 HPC 模拟行状和 AI 行状上加倍起劲——诚然是生成式 AI,但不一定仅限于此——这不错增强三履行室在国度核安全局的相沿下进行的处理,该局资助三履行室处罚好意思国军方的核兵器库存。具体来说,Kingfisher 是由核威慑高等模拟和辩论东谈主工智能权术资助的。

桑迪亚接头东谈主员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 阁下。

在文告 Kingfisher 系统的声明中,一直指导桑迪亚 CS-2 系统行状的接头东谈主员之一 James Laros 暗示,履行室正在探索使用畴昔版块的 WSE 辩论引擎“用于 Mod-Sim 和 AI 行状负载的组合”的可行性。咱们往日曾与 Cerebras 勾搭首创东谈主兼首席实施官 Andrew Feldman 开打趣说,寰球确实需要的是一个领有 64 位 SIMD 引擎的 WSE,该引擎不错推广到 FP64 精度,甚而不错裁减到 FP4 精度,而况不错动态实施,可能是在晶圆上的不同块中,也可能是在代码运行时动态实施,因此表面上 HPC 中心的任何代码齐不错在 Cerebras 硬件上运行。

要是有富余多的东谈主这样说,而况有富余多的东谈主为此提供资金,也许这就会结束。对咱们来说,这些齐不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。

Kingfisher 系统的资本尚未公布,但咱们知谈,按照标价(不管 HPC 畛域的标价是若干),客岁 G42 运行与 Cerebras 调解,基于 CS-2 机器构建“Condor Galaxy”集群时,配备单个 WSE-2 的 CS-2 系统的资本约为 160 万好意思元。也许这意味着要得回 CS-3,价钱要上升 1.5 倍,或者可能上升 2 倍。在一个条目每一代齐天值地值的寰球里,230 万好意思元到 250 万好意思元可能是合理的。在一个需要更高性能且摄取很少的寰球里,320 万好意思元的 CS-3 节点资本是合理的。不管何如,咱们以为桑迪亚不会为机器支付接近标价的价钱,但同期但愿匡助资助那些可能匡助其更好地运行模拟的公司。咱们不错细目地告诉你的是,Frontier 的 32 GPU 部分仅破耗约 425,000 好意思元,但它只可推广到这样大。

那么,增多原子数目和增多模拟时候对 NNSA 来说有什么价值呢?可能价值很大。

咱们期待进一步了解 Kingfisher 所作念的事情以及它是何如作念到的。

终末一件事:桑迪亚团队在 Cerbras 晶圆级系统上进行的分子能源学接头将角逐本年的戈登贝尔奖。咱们但愿他们能获奖,这样 GPU 供应商们就得工夫保抓警惕了。

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

半导体极品公众号保举

专注半导体畛域更多原创内容

温雅各人半导体产业动向与趋势

*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或相沿,要是有任何异议,接待相关半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3949期内容,接待温雅。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”共享给小伙伴哦kaiyun体育网页版登录

www.wnwheels.com
官方网站
关注我们
新闻国际科技园897号
公司地址

Powered by 开云·kaiyun「中国」体育官方网站 登录入口 RSS地图 HTML地图


开云·kaiyun「中国」体育官方网站 登录入口-kaiyun体育网页版登录桑迪亚国度履行室的一个接头小组解释了这少许-开云·kaiyun「中国」体育官方网站 登录入口