Новые горизонты: статья о революции в области Генеративного ИИ

Новые достижения NVIDIA в MLPerf benchmarks подчеркивают ее продолжающееся превосходство в области генеративного искусственного интеллекта. С использованием архитектуры Hopper GPUs, оснащенных TensorRT-LLM, NVIDIA достигла заметного увеличения производительности в 3 раза на GPT-J LLM по сравнению с результатами шести месяцев назад. Эти улучшения демонстрируют приверженность NVIDIA оптимизации моделей и укреплению своего положения на рынке.

Что такое TensorRT-LLM?
TensorRT-LLM — это специализированный инструмент, разработанный NVIDIA для оптимизации задач вывода для крупных языковых моделей (LLM). Он упрощает развертывание платформы вывода NVIDIA и обеспечивает компаниям непревзойденную эффективность и гибкость. Путем использования TensorRT-LLM компании могут оптимизировать свои модели и добиться впечатляющего прироста производительности.

В чем значение GPU H200?
GPU H200 от NVIDIA предлагают впечатляющую полосу пропускания памяти и производительность, делая их отлично подходящими для память-интенсивных задач в генеративном искусственном интеллекте и машинном обучении.

Что представляют собой бенчмарки MLPerf?
Бенчмарки MLPerf — это набор стандартных отраслевых бенчмарков, используемых для оценки производительности систем машинного обучения и моделей в различных областях и задачах.

Что такое структурированная разреженность?
Структурированная разреженность — это техника, используемая для снижения вычислений в моделях искусственного интеллекта путем выявления и использования шаблонов разреженности в данных. Она помогает улучшить эффективность и скорость задач вывода.

Источник:
NVIDIA Официальный веб-сайт: www.nvidia.com

Последние бенчмарки MLPerf также продемонстрировали возможности последних GPU Tensor Core H200 от NVIDIA при работе с TensorRT-LLM. Эти GPU достигли исключительной производительности, генерируя до 31 000 токенов в секунду в бенчмарке Llama 2 70В. Память-улучшенные GPU H200 демонстрируют приверженность NVIDIA к поставке высокопроизводительного оборудования для приложений в области генеративного искусственного интеллекта.

Помимо увеличения производительности, NVIDIA также сделала значительные шаги в управлении теплом с использованием своих H200 GPU. Настройки по индивидуальной тепловой обработке способствуют увеличению производительности до 14%. Креативные воплощения дизайнов NVIDIA MGX со стороны системных интеграторов дополнительно улучшают производительные возможности GPU Hopper.

NVIDIA уже начала поставку GPU H200 почти 20 крупным системным интеграторам и облачным поставщикам услуг. С полосой пропускания памяти почти 5 ТБ/сек, эти GPU обеспечивают исключительную производительность, особенно в память-интенсивных оценках MLPerf, таких как рекомендательные системы.

Политика NVIDIA в области разработки эффективных и высокопроизводительных решений в области искусственного интеллекта очевидна в ее применении техник, таких как структурированная разреженность. Используя структурированную разреженность для снижения вычислений, инженеры NVIDIA добились прироста скорости до 33% на выводе с помощью Llama 2. Это демонстрирует приверженность компании к продвижению границ технологий искусственного интеллекта.

Проглядывая в будущее, основатель и генеральный директор компании NVIDIA, Дженсен Хуанг, рассказал в ходе недавней конференции GTC, что предстоящие GPU архитектуры NVIDIA Blackwell обеспечат еще более высокий уровень производительности. Эти GPU будут специально разработаны для удовлетворения растущих потребностей крупных языковых моделей, обеспечивая обучение и вывод многотриллионных параметров ИИ моделей.

Для дополнительной информации о достижениях NVIDIA в области генеративного искусственного интеллекта и ее бенчмарках MLPerf, посетите [официальный веб-сайт NVIDIA](https://www.nvidia.com).

The source of the article is from the blog mgz.com.tw