当地时间周二,Alphabet旗下的谷歌公布了其用于训练人工智能模型的超级计算机的最新细节。该公司表示,这些系统的速度和能效都高于NVIDIA的同类系统。
谷歌已经独立定制了TPU芯片,其90%以上的人工智能训练任务都是通过这些芯片完成的。人工智能训练是指将数据输入模型,使其具有类似人类的文本聊天和图像生成能力。谷歌TPU目前是第四代产品。该公司周二发布了一篇论文,详细介绍了如何使用其定制的光开关将4000多个芯片组合成一台超级计算机,将单个机器连接在一起。提高这些连接的有效性已成为科技公司开发人工智能超级计算机的重要竞争点,由于GoogleBard和OpenAI的ChatGPT使用的大型语言模型的快速扩展,无法使用单个芯片完成。这些模型必须分配到数千个芯片上运行,这些芯片协同工作数周甚至更长时间来训练模型。PaLM是谷歌迄今为止公开披露的最大的语言模型,它需要分配给两台超级计算机,每台计算机包含4000个芯片,训练时间超过50天。谷歌表示,其超级计算机可以在运行过程中轻松重新配置芯片之间的连接,有助于避免问题并调整性能。电路切换可以轻松绕过故障组件,谷歌院士NormJoupi和谷歌杰出工程师DavidPattersonPatterson在他的博客文章中写道,“这种灵活性甚至可以让我们改变超级计算机的互连拓扑,从而加速机器学习模型的性能。尽管谷歌刚刚发布了其超级计算机的技术细节,自2020年以来,该系统已应用于该公司位于俄克拉荷马州的数据中心。谷歌表示,初创公司Midjournal使用该系统来训练其模型,他们开发的工具只需简单的文本就可以生成全新的图像。谷歌在其论文中表示,与英伟达A100芯片相比,其芯片速度是A100的1.7倍,英伟达A100芯片与第四代TPU同期推出,其能效是A100的1.9倍。NVIDIA发言人拒绝对此发表评论。谷歌表示,他们没有将第四代TPU与英伟达现有的H100旗舰芯片进行比较,因为后者发布较晚,并采用了更新的技术。谷歌暗示,他们可能正在开发一种新一代TPU,可以与英伟达H100竞争,但没有透露任何细节。在一次采访中,乔皮表示,谷歌拥有“未来芯片的健康管道”。