Новые достижения NVIDIA в MLPerf benchmarks подчеркивают ее продолжающееся превосходство в области генеративного искусственного интеллекта. С использованием архитектуры Hopper GPUs, оснащенных TensorRT-LLM, NVIDIA достигла заметного увеличения производительности в 3 раза на GPT-J LLM по сравнению с результатами шести месяцев назад. Эти улучшения демонстрируют приверженность NVIDIA оптимизации моделей и укреплению своего положения на рынке.
Что такое TensorRT-LLM?
TensorRT-LLM — это специализированный инструмент, разработанный NVIDIA для оптимизации задач вывода для крупных языковых моделей (LLM). Он упрощает развертывание платформы вывода NVIDIA и обеспечивает компаниям непревзойденную эффективность и гибкость. Путем использования TensorRT-LLM компании могут оптимизировать свои модели и добиться впечатляющего прироста производительности.
В чем значение GPU H200?
GPU H200 от NVIDIA предлагают впечатляющую полосу пропускания памяти и производительность, делая их отлично подходящими для память-интенсивных задач в генеративном искусственном интеллекте и машинном обучении.
Что представляют собой бенчмарки MLPerf?
Бенчмарки MLPerf — это набор стандартных отраслевых бенчмарков, используемых для оценки производительности систем машинного обучения и моделей в различных областях и задачах.
Что такое структурированная разреженность?
Структурированная разреженность — это техника, используемая для снижения вычислений в моделях искусственного интеллекта путем выявления и использования шаблонов разреженности в данных. Она помогает улучшить эффективность и скорость задач вывода.
Источник:
NVIDIA Официальный веб-сайт: www.nvidia.com
Последние бенчмарки MLPerf также продемонстрировали возможности последних GPU Tensor Core H200 от NVIDIA при работе с TensorRT-LLM. Эти GPU достигли исключительной производительности, генерируя до 31 000 токенов в секунду в бенчмарке Llama 2 70В. Память-улучшенные GPU H200 демонстрируют приверженность NVIDIA к поставке высокопроизводительного оборудования для приложений в области генеративного искусственного интеллекта.
Помимо увеличения производительности, NVIDIA также сделала значительные шаги в управлении теплом с использованием своих H200 GPU. Настройки по индивидуальной тепловой обработке способствуют увеличению производительности до 14%. Креативные воплощения дизайнов NVIDIA MGX со стороны системных интеграторов дополнительно улучшают производительные возможности GPU Hopper.
NVIDIA уже начала поставку GPU H200 почти 20 крупным системным интеграторам и облачным поставщикам услуг. С полосой пропускания памяти почти 5 ТБ/сек, эти GPU обеспечивают исключительную производительность, особенно в память-интенсивных оценках MLPerf, таких как рекомендательные системы.
Политика NVIDIA в области разработки эффективных и высокопроизводительных решений в области искусственного интеллекта очевидна в ее применении техник, таких как структурированная разреженность. Используя структурированную разреженность для снижения вычислений, инженеры NVIDIA добились прироста скорости до 33% на выводе с помощью Llama 2. Это демонстрирует приверженность компании к продвижению границ технологий искусственного интеллекта.
Проглядывая в будущее, основатель и генеральный директор компании NVIDIA, Дженсен Хуанг, рассказал в ходе недавней конференции GTC, что предстоящие GPU архитектуры NVIDIA Blackwell обеспечат еще более высокий уровень производительности. Эти GPU будут специально разработаны для удовлетворения растущих потребностей крупных языковых моделей, обеспечивая обучение и вывод многотриллионных параметров ИИ моделей.
Для дополнительной информации о достижениях NVIDIA в области генеративного искусственного интеллекта и ее бенчмарках MLPerf, посетите [официальный веб-сайт NVIDIA](https://www.nvidia.com).
The source of the article is from the blog mgz.com.tw