新培训技术释放超级计算机的力量

研究人员在橡树岭国家实验室利用世界上最强大的超级计算机Frontier的力量，以1万亿个参数训练了一个大型语言模型（LLM）。通过利用张量并行、流水线并行和数据并行的组合，他们能够实现不同尺寸模型的更快训练时间和峰值吞吐量。然而，研究人员尚未透露训练LLM的具体时间范围。

通常不会使用超级计算机来训练LLM，因为它们需要更专业的服务器和大量的GPU。相比之下，众所周知的语言模型ChatGPT是在超过20,000个GPU上训练的。然而，橡树岭国家实验室的研究人员希望探索在超级计算机上训练LLM的潜力，并确定是否可以提高效率。

他们面临的一个挑战是每个GPU的有限VRAM。为了克服这个问题，研究人员将多个GPU分组，并优化组件之间的并行通信。这样，在LLM的尺寸增大时，可以更好地利用资源。

采用新方法，研究人员取得了令人瞩目的成果。对于他们训练的不同参数规模的模型，他们实现了从31.96%到38.38%的峰值吞吐量。他们还展示了100%的弱可伸缩性和87.05%到89.93%的强可伸缩性性能，适用于更大的模型。

尽管研究人员公开分享了所使用的计算资源和采用的技术的信息，但他们尚未提供有关训练时间范围的具体细节。这引发了一个悬而未决的问题，即在超级计算机上训练LLM相对传统方法而言可以更快多少。

这项研究为更高效地训练大型语言模型开辟了新的可能性。专业技术的结合和超级计算机的巨大计算能力为自然语言处理和人工智能的进一步发展提供了有希望的途径。随着更多研究人员探索这些新的培训技术，我们可以期待未来会出现更令人印象深刻的语言模型。

The source of the article is from the blog xn--campiahoy-p6a.es