Nvidia将软件黑客从AI帽子中拉出来免费将H100GPU的性能提高一倍

2024-02-08 10:20:03
导读 Nvidia正在与一系列技术合作伙伴联合开发一款改变游戏规则的软件,该软件将使其旗舰产品H100TensorCoreGPU的性能提高一倍。开源TensorRT-LL...

Nvidia正在与一系列技术合作伙伴联合开发一款改变游戏规则的软件,该软件将使其旗舰产品H100TensorCoreGPU的性能提高一倍。

开源TensorRT-LLM更新将于未来几周内发布,最新系统的性能比A100好八倍,而H100s之前的性能仅比A100高四倍。这是在GPT-J6B上进行了测试,该模型用于总结CNN和《每日邮报》的文章。

在Meta的Llama2LLM上进行测试时,由TensorRT-LLM驱动的H100的性能比A100高4.6倍,而更新前为2.6倍。

大型语言模型(LLM)的多功能性和动态性可能会导致批量请求和并行执行变得困难,这意味着某些请求比其他请求完成得早得多。

为了解决这个问题,Nvidia及其合作伙伴在TensorRT-LLM中嵌入了一种更强大的调度技术,称为动态批处理。这利用了文本生成可以分解为多个子任务的事实。

简而言之,系统可以继续并行处理来自不同请求的新批次任务,而不是等待一个请求中的整批任务完成后再继续处理下一个请求。

TensorRT-LLM包含TensorRT深度学习编译器,包括优化的内核、预处理和后处理步骤,以及多GPU和多节点通信原语。

结果?NvidiaGPU的突破性性能为新的大型语言模型实验、快速定制和峰值性能铺平了道路。

该软件使用张量并行性,其中各个权重矩阵在设备之间分割,从而允许大规模的高效推理;每个模型在多个GPU和多个服务器上并行运行。

TensorRT-LLM还包括流行LLM的完全优化和可读取运行版本,包括Llama2、GPT-2和GPT-3以及Falcon、MosaicMPT、BLOOM等数十个。这些可以通过PythonAPI访问。

该更新现已推出抢先体验版,并将很快集成到NvidiaNeMo框架中,该框架是NvidiaAIEnterprise的一部分。研究人员可以通过NeMo框架、NGC门户或GitHub上的源存储库访问此内容。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。