Contents
- 1 MLPerf 1.0-resultaten
- 2 Optimalisaties achter de resultaten
- 3 Triton
- 4 MIG wordt groot
- 5 MLPerf Inference stimuleert innovatie MLPerf Inference stimuleert innovatie MLPerf Inference stimuleert innovatie MLPerf Inference stimuleert innovatie MLPerf Inference stimuleert innovatie MLPerf Inference stimuleert innovatie
Inferentie is waar we interactie hebben met AI. Chatbots, digitale assistenten, aanbevelingsengines, fraudebeschermingsservices en andere applicaties die u elke dag gebruikt, worden allemaal aangedreven door AI. Die geïmplementeerde applicaties gebruiken inferentie om je de informatie te geven die je nodig hebt.
Gezien het brede scala aan toepassingen voor AI-inferentie, stelt het evalueren van prestaties tal van uitdagingen voor ontwikkelaars en infrastructuurbeheerders. Industriestandaard benchmarks hebben lange tijd een cruciale rol gespeeld in dat evaluatieproces. Voor AI-inferentie op datacenter-, edge- en mobiele platforms meet MLPerf Inference 1.0 de prestaties van computervisie, medische beeldvorming, natuurlijke taal en aanbevelingssystemen. Deze benchmarks zijn ontwikkeld door een consortium van leiders in de AI-industrie. Ze bieden de meest uitgebreide set prestatiegegevens die momenteel beschikbaar zijn, zowel voor AI-training als voor gevolgtrekking.
Versie 1.0 van MLPerf Inference introduceert enkele incrementele maar belangrijke nieuwe functies. Deze omvatten tests om het vermogen en de energie-efficiëntie te meten en het verlengen van de testduur van 1 minuut naar 10 om het te testen apparaat beter te trainen.
Om goed te presteren op de brede testreeks in deze benchmark, is een full-stack platform nodig met geweldige ecosysteemondersteuning, zowel voor frameworks als netwerken. NVIDIA was het enige bedrijf dat inzendingen deed voor alle datacenter- en edge-tests en de beste prestaties leverde. Een van de geweldige bijproducten van dit werk is dat veel van deze optimalisaties hun weg vonden naar hulpprogramma's voor het maken van inferenties, zoals TensorRT en Triton.
In dit bericht bespreken we enkele van deze optimalisaties, waaronder het gebruik van Triton Inference Server en de A100 Multi-Instance GPU (MIG)-functie.
MLPerf 1.0-resultaten
Deze ronde van MLPerf Inference zag het debuut van twee nieuwe GPU's van NVIDIA: A10 en A30. Deze mainstream GPU's voegen zich bij het vlaggenschip NVIDIA A100 GPU, en elk heeft een specifieke rol te spelen in de portfolio. A10 is ontworpen voor AI en visual computing en A30 is ontworpen voor AI en compute-workloads. De volgende grafiek toont de inzendingen van het Data Center-scenario:
Figuur 1. MLPerf Inference 1.0 Data Center-scenarioprestaties.
In het Edge-scenario leverde NVIDIA opnieuw leiderschapsprestaties over de hele linie.
Afbeelding 2. MLPerf Inference 1.0 Edge-scenarioprestaties.
Optimalisaties achter de resultaten
AI-training vereist over het algemeen precisies zoals FP32, TF32 of gemengde precisie (FP16/FP32). Inferentie kan echter vaak verminderde precisie gebruiken om betere prestaties en lagere latentie te bereiken, terwijl de vereiste nauwkeurigheid behouden blijft. Bijna alle NVIDIA-inzendingen gebruikten INT8-nauwkeurigheid. In het geval van het RNN-T spraak-naar-tekstmodel hebben we de encoder LSTM-cel geconverteerd naar INT8. Eerder, in v0.7, gebruikten we FP16. We hebben ook verschillende andere optimalisaties doorgevoerd om optimaal gebruik te maken van de IMMA-instructies (INT8 met behulp van Tensor Cores) voor verschillende werkbelastingen.
Laagfusie is een andere optimalisatietechniek waarbij de wiskundige bewerkingen van meerdere netwerklagen worden gecombineerd om de rekenbelasting te verminderen om hetzelfde of betere resultaat te bereiken. We hebben laagfusie gebruikt om de prestaties van de 3D-UNet medische beeldvormingsworkload te verbeteren, door deconvolutie- en concatenatiebewerkingen te combineren in een enkele kernel.
Triton
Net als bij de vorige ronde hebben we veel inzendingen gedaan met behulp van Triton Inference Server, wat de implementatie van AI-modellen op grote schaal in productie vereenvoudigt. Met deze open source software voor inferentieservice kunt u getrainde AI-modellen implementeren vanuit elk framework op elke GPU- of CPU-gebaseerde infrastructuur: cloud, datacenter of edge. U kunt verschillende mogelijke inferentie-backends gebruiken, waaronder TensorRT voor NVIDIA GPU en OpenVINO voor Intel CPU.
In deze ronde heeft het team verschillende optimalisaties gemaakt die beschikbaar zijn via de triton-inference-server GitHub-repo. Deze omvatten een multithreaded verzamelkernel om de invoer voor te bereiden op gevolgtrekking en het gebruik van vastgemaakt CPU-geheugen voor I/O-buffers om gegevensverplaatsing naar de GPU te versnellen. Met behulp van de geïntegreerde Triton-ondersteuning voor auto-batching behaalden de op Triton gebaseerde GPU-inzendingen gemiddeld 95% van de prestaties van de serverscenario-inzendingen, met behulp van aangepaste auto-batching-code.
Een andere geweldige Triton-functie is dat het CPU-gebaseerde inferentie kan uitvoeren. Om die mogelijkheden te demonstreren, hebben we verschillende CPU-inzendingen gedaan met Triton. Bij datacenter-inzendingen in de offline- en serverscenario's behaalden Triton's CPU-inzendingen gemiddeld 99% van de prestaties van de vergelijkbare CPU-indiening. U kunt dezelfde inference-serving-software gebruiken om zowel GPU- als CPU-gebaseerde applicaties te hosten. Wanneer u applicaties overschakelt van CPU naar GPU, kunt u op hetzelfde softwareplatform blijven, met slechts een paar wijzigingen in een configuratiebestand om de wijziging te voltooien.
MIG wordt groot
Voor deze ronde heeft het team twee nieuwe inzendingen ingediend om de MIG-prestaties en veelzijdigheid aan te tonen. Een belangrijke maatstaf voor infrastructuurbeheer is het algehele servergebruik, inclusief de versnellers. Een typische doelwaarde is ongeveer 80%, wat het meeste uit elke server haalt, terwijl er enige ruimte is om pieken in de rekenvraag aan te kunnen. A100 GPU's hebben vaak veel meer rekencapaciteit dan een enkele inferentie-workload vereist. Met de MIG-functie om de GPU op te delen in instanties van de juiste grootte, kunt u meerdere netwerken hosten op één enkele GPU.
Afbeelding 3. Een enkele A100 met MIG voert alle MLPerf-tests tegelijkertijd uit, met 98% prestaties van een enkele MIG-instantie.
Het team bouwde een MIG-inzending waarin de prestaties van een netwerk werden gemeten in een enkele MIG-instantie. Tegelijkertijd werden de andere MLPerf Data Center-workloads uitgevoerd in de andere zes MIG-instanties. Met andere woorden, een enkele A100 draaide tegelijkertijd de hele benchmarksuite van het datacenter. Het team herhaalde dit voor alle zes datacenternetwerken. Voor het netwerk dat werd gemeten, bleek uit de inzending dat het geteste netwerk gemiddeld 98% van de prestaties van die ene MIG-instantie behaalde als de andere zes instanties inactief waren.
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
Veel van de optimalisaties die zijn gebruikt om de winnende resultaten te behalen, zijn vandaag beschikbaar in TensorRT, Triton Inference Server en de MLPerf Inference GitHub-repo. Deze testronde debuteerde met twee nieuwe GPU's: de NVIDIA A10 en A30. Het demonstreerde verder de geweldige mogelijkheden van Triton en de MIG-functie. Hiermee kunt u eenvoudig getrainde netwerken op GPU's en CPU's implementeren. Tegelijkertijd levert u de juiste hoeveelheid AI-versnelling voor een bepaalde toepassing en maximaliseert u het nut van elke datacenterprocessor.
Naast de directe inzendingen van NVIDIA, hebben acht partners, waaronder Alibaba, Dell EMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo en Supermicro, ook ingediend met behulp van NVIDIA GPU-versnelde platforms, voor meer dan de helft van de totale inzendingen. Alle software die wordt gebruikt voor NVIDIA-inzendingen is beschikbaar via de MLPerf-repo, NVIDIA GitHub-repo en NGC, de NVIDIA-hub voor GPU-geoptimaliseerde software voor deep learning, machine learning en high-performance computing.
Deze MLPerf Inference 1.0-resultaten leveren tot 46% meer prestaties op dan de vorige MLPerf 0.7-inzending zes maanden geleden. Ze versterken het NVIDIA AI-platform verder als niet alleen de duidelijke prestatieleider, maar ook het meest veelzijdige platform voor het runnen van elk soort netwerk: on-premises, in de cloud of aan de rand. Nu netwerken en datasets snel blijven groeien en realtime services AI blijven gebruiken, is inferentieversnelling een must-have geworden voor applicaties om hun volledige potentieel te realiseren.
Dave Salvator
Senior Manager voor productmarketing, Accelerated Computing Group, NVIDIA
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
Veel van de optimalisaties die zijn gebruikt om de winnende resultaten te behalen, zijn vandaag beschikbaar in TensorRT, Triton Inference Server en de MLPerf Inference GitHub-repo. Deze testronde debuteerde met twee nieuwe GPU's: de NVIDIA A10 en A30. Het demonstreerde verder de geweldige mogelijkheden van Triton en de MIG-functie. Hiermee kunt u eenvoudig getrainde netwerken op GPU's en CPU's implementeren. Tegelijkertijd levert u de juiste hoeveelheid AI-versnelling voor een bepaalde toepassing en maximaliseert u het nut van elke datacenterprocessor.
Naast de directe inzendingen van NVIDIA, hebben acht partners, waaronder Alibaba, Dell EMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo en Supermicro, ook ingediend met behulp van NVIDIA GPU-versnelde platforms, voor meer dan de helft van de totale inzendingen. Alle software die wordt gebruikt voor NVIDIA-inzendingen is beschikbaar via de MLPerf-repo, NVIDIA GitHub-repo en NGC, de NVIDIA-hub voor GPU-geoptimaliseerde software voor deep learning, machine learning en high-performance computing.
Deze MLPerf Inference 1.0-resultaten leveren tot 46% meer prestaties op dan de vorige MLPerf 0.7-inzending zes maanden geleden. Ze versterken het NVIDIA AI-platform verder als niet alleen de duidelijke prestatieleider, maar ook het meest veelzijdige platform voor het runnen van elk soort netwerk: on-premises, in de cloud of aan de rand. Nu netwerken en datasets snel blijven groeien en realtime services AI blijven gebruiken, is inferentieversnelling een must-have geworden voor applicaties om hun volledige potentieel te realiseren.
Dave Salvator
Senior Manager voor productmarketing, Accelerated Computing Group, NVIDIA
MLPerf Inference stimuleert innovatie
MLPerf Inference stimuleert innovatie
Veel van de optimalisaties die zijn gebruikt om de winnende resultaten te behalen, zijn vandaag beschikbaar in TensorRT, Triton Inference Server en de MLPerf Inference GitHub-repo. Deze testronde debuteerde met twee nieuwe GPU's: de NVIDIA A10 en A30. Het demonstreerde verder de geweldige mogelijkheden van Triton en de MIG-functie. Hiermee kunt u eenvoudig getrainde netwerken op GPU's en CPU's implementeren. Tegelijkertijd levert u de juiste hoeveelheid AI-versnelling voor een bepaalde toepassing en maximaliseert u het nut van elke datacenterprocessor.
Naast de directe inzendingen van NVIDIA, hebben acht partners, waaronder Alibaba, Dell EMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo en Supermicro, ook ingediend met behulp van NVIDIA GPU-versnelde platforms, voor meer dan de helft van de totale inzendingen. Alle software die wordt gebruikt voor NVIDIA-inzendingen is beschikbaar via de MLPerf-repo, NVIDIA GitHub-repo en NGC, de NVIDIA-hub voor GPU-geoptimaliseerde software voor deep learning, machine learning en high-performance computing.
Deze MLPerf Inference 1.0-resultaten leveren tot 46% meer prestaties op dan de vorige MLPerf 0.7-inzending zes maanden geleden. Ze versterken het NVIDIA AI-platform verder als niet alleen de duidelijke prestatieleider, maar ook het meest veelzijdige platform voor het runnen van elk soort netwerk: on-premises, in de cloud of aan de rand. Nu netwerken en datasets snel blijven groeien en realtime services AI blijven gebruiken, is inferentieversnelling een must-have geworden voor applicaties om hun volledige potentieel te realiseren.
Dave Salvator
Senior Manager voor productmarketing, Accelerated Computing Group, NVIDIA
Senior Manager voor productmarketing, Accelerated Computing Group, NVIDIA