NVIDIA H100 GPU 성능으로 모델 훈련에 대한 머신 러닝 벤치마크를 깨뜨립니다.

엔비디아

NVIDIA의 Hopper H100 Tensor Core GPU는 올해 초 MLPerf Inference 2.1에서 처음으로 벤치마킹에 등장했습니다. H100과 그 이전 모델인 A100이 모든 추론 워크로드를 지배했다는 사실에 누구도 놀라지 않았습니다. H100은 이들 모두에서 세계 기록을 세웠으며 NVIDIA는 모든 MLPerf 라운드의 모든 워크로드를 제출한 유일한 회사입니다.

몇 주 전, 새로운 MLCommons 교육 결과 세트가 공개되었습니다. 이번에는 NVIDIA H100 및 A100도 지배적인 MLPerf 2.1 교육에 대한 것입니다.

안타깝게도 추론 및 교육을 위한 MLPerf 벤치마킹 제품군에 대한 NVIDIA의 지배력으로 인해 많은 중요한 AI 회사의 제출 및 보고서가 편향되었습니다.

CPU와 같은 다른 부문에서 보았듯이 업계는 더 많은 조직의 참여로 이익을 얻을 것이며 경쟁과 혁신을 촉진할 것입니다. 머신러닝이 기하급수적으로 성장하고 있기 때문에 벤치마킹 제품군에 폭넓게 참여하는 것이 중요합니다. 거의 모든 산업 부문에서는 광범위한 애플리케이션에 기계 학습을 사용합니다. 사용량이 증가함에 따라 모델 크기도 증가합니다. 2018년부터 MLCommons는 MLPerf 훈련과 MLPerf 추론 테스트 라운드를 번갈아 진행하는 테스트 라운드를 개최해 왔습니다.

2018년 첫 번째 MLPerf 테스트부터 올해 결과까지 4년 동안 기계 학습 모델 크기는 5배나 증가했습니다. 모델 크기가 증가하고 데이터 세트가 커짐에 따라 MLPerf Training 및 MLPerf Inference와 같은 표준화된 도구가 그 어느 때보다 중요해졌습니다. 기계 학습 모델 성능을 개선하기 전에 먼저 측정해야 합니다.

MLPerf 2.1 교육 벤치마크

MLPerf Training v2.1에 사용된 벤치마크 요약 ... [+]

MLPerf 훈련 및 MLPerf 추론은 위 그래픽에 표시된 것과 동일한 8개의 워크로드를 사용합니다. Mini Go는 강화 학습을 평가하는 데만 사용되므로 예외입니다. 각 벤치마크 테스트는 고유한 특정 데이터 세트와 품질 목표에 따라 정의됩니다. 핵심은 지정된 품질 목표와 함께 지정된 데이터 세트를 사용하여 모델을 훈련하는 데 걸리는 시간입니다.

MLPerf는 모델 교육 및 추론에 대한 유효한 비교를 제공하는 동료 검토 결과가 포함된 업계 표준 벤치마크이기 때문에 AI 및 기계 학습에 필수적입니다. Amazon, Arm, Baidu, Google, Harvard University, Intel, Meta, Microsoft, Stanford University 및 Toronto University에서 지원됩니다.

여러 단일 모델이 고성능, 여러 모델을 형성합니다.

실제 AI 애플리케이션은 여러 모델을 사용합니다.

단일 입력을 충족하기 위해 여러 AI 모델을 함께 연결하는 것이 일반적입니다. 다중 모달 네트워크의 예는 위 그래픽의 구두 요청입니다. 질문에 답하려면 10개의 기계 학습 모델이 필요합니다. 여러 모델이 순차적으로 작동해야 할 뿐만 아니라 실시간 솔루션도 제공해야 합니다.

일부 클라우드 서비스는 여러 네트워크를 사용하여 NVIDIA GPU로 가속화된 서비스를 제공하기도 합니다. NVIDIA의 모든 네트워크 및 애플리케이션 프레임워크는 MLPerf 저장소, NGC(NVIDIA의 온라인 컨테이너 저장소) 및 GitHub 저장소에서 사용할 수 있습니다.

A100 및 H100 벤치마크 교육 성능

MLPerf 교육 v2.1 성능

MLPerf Training 2.1 성능 차트에서 볼 수 있듯이 H100은 2019년 첫 번째 MLPerf 제출에서 A100이 수행한 성능과 비교하여 BERT 벤치마크에 대해 최대 6.7배 더 많은 성능을 제공했습니다.

A100은 최대 2.5배 향상된 성능으로 여전히 기록적인 결과와 고성능을 생산하고 있습니다. 이 이득은 소프트웨어 최적화의 결과입니다. 꽤 오랫동안 NVIDIA 제품이 될 것 같습니다.

BERT NLP 모델에서 H100의 우수한 성능은 Transformer 엔진에 기인합니다. A100에는 훈련용 엔진이 없습니다. NVIDIA Hopper FP8 Tensor 코어와 결합된 새로운 엔진은 A100보다 대규모 언어 모델에서 최대 9배 빠른 AI 훈련과 30배 빠른 AI 추론 속도 향상을 제공합니다. H100은 Hopper 아키텍처를 기반으로 하며 4세대 텐서 코어를 사용합니다.

블로그

NVIDIA H100 GPU 성능으로 모델 훈련에 대한 머신 러닝 벤치마크를 깨뜨립니다.