Contents
Op AI gebaseerde compressie heeft overtuigende voordelen voor zowel video als spraak.
De wereld gaat digitaal. Met de toegenomen vraag naar multimedia en de stijgende trends van AI, IOT en 5G, wordt een enorme hoeveelheid gegevens geproduceerd die moeten worden gecomprimeerd voor efficiënte communicatie. De omvang van video- en spraakgegevens die worden gemaakt en gebruikt, is bijvoorbeeld enorm. In totaal wordt er per dag 15 miljard minuten aan gesprekken via WhatsApp besteed en er wordt voorspeld dat in 20221 82% van al het internetverkeer van consumenten online video zal zijn. Om dit mogelijk te maken, zijn de technieken voor datacompressie enorm toegenomen. de jaren als gevolg van technische innovatie, zoals de ongeveer 1000x reductie in videobestandsgrootte met VVC-compressie versus een onbewerkt bestand. De vraag naar meer gegevens stopt echter niet snel, dus de noodzaak om de compressietechnologie te verbeteren is vandaag net zo belangrijk als ooit. In deze blogpost worden enkele van onze nieuwste op AI gebaseerde compressieonderzoeken voor video en spraak besproken.
Waarom AI voor compressie
Je vraagt je misschien af hoe AI past in compressie. We hebben diepgaand generatief modelonderzoek gedaan voor niet-gesuperviseerd leren, een krachtige AI-techniek die ongelabelde trainingsgegevens gebruikt en nieuwe voorbeelden genereert uit dezelfde distributie. Deze techniek is breed toepasbaar op veel gebruikssituaties, maar kan worden gebruikt voor compressie- en decompressietoepassingen, aangezien het model zelf een functierepresentatie met een lage dimensie van de invoergegevens extraheert en leert. We hebben ontdekt dat compressie op basis van AI veel overtuigende voordelen biedt ten opzichte van conventionele codecs.
Op AI gebaseerde compressie heeft veel overtuigende voordelen ten opzichte van traditionele technieken.
Op AI gebaseerde compressie kan bijvoorbeeld een betere verhouding tussen snelheid en vervorming bieden, wat betekent dat het voor video hetzelfde niveau van visuele kwaliteit kan bieden met minder bits. Dit is een belangrijke statistiek waarop codecs worden geëvalueerd, aangezien het uiteindelijke doel is om de gegevens zo veel mogelijk te verkleinen en tegelijkertijd te kunnen decoderen naar de oorspronkelijke staat. Een ander voordeel is dat het gemakkelijker is om nieuwe AI-codecs te upgraden, standaardiseren en implementeren, aangezien het nieuwste en best geleerde model in relatief korte tijd wordt getraind en geen speciale hardware vereist, behalve AI-versnelling voor implementatie. Bovendien zijn neurale codecs gemakkelijker te ontwikkelen voor nieuwe modaliteiten zoals puntenwolken, omnidirectionele video en opstellingen met meerdere camera's.
Ons nieuwste AI-compressieonderzoek voor spraak
We hebben diepe generatieve modellen toegepast om state-of-the-art spraakcompressie te bereiken. In ons onderzoek hebben we een terugkerende variabele auto-encoder met feedback gebruikt voor end-to-end spraakcompressie om een lagere bitsnelheid te bereiken dan conventionele codecs. Een resultaat waar we echt trots op zijn, is dat we met onze AI-oplossing een verbetering van 2,6x in bitsnelheid bereiken ten opzichte van de EVS-spraakcodec, die spraak al aanzienlijk comprimeert.
We bereiken 2,6x de bitsnelheidscompressie bij dezelfde spraakkwaliteit met AI versus EVS-spraakcompressie.
Ons nieuwste AI-compressieonderzoek voor video
We hebben diepe generatieve modellen toegepast om ook state-of-the-art videocompressie te bereiken. In plaats van door mensen ontworpen algoritmen te gebruiken die proberen de aanzienlijke hoeveelheden ruimtelijke en temporele redundantie in nabijgelegen stilstaande beeldframes van een video te comprimeren, gebruiken we end-to-end deep learning. We hebben verschillende verbeteringen doorgevoerd in AI-compressie voor zowel afbeeldingen als video, zoals:
- Neurale B-frame-codering: Een B-frame of bidirectioneel frame codeert veranderingen in de video op basis van vorige en volgende frames. Dit vereist meer complexe berekening en coördinatie, maar verbetert de compressiesnelheid. Bestaande AI-onderzoeksmethoden hebben gebreken bij het implementeren van een B-frame codec, maar onze nieuwe oplossing stelt de codec in staat om gewichten te delen en efficiënter te zijn, terwijl het ultramoderne snelheidsvervormingsresultaten levert.
- Overfitting door instantie-adaptieve videocompressie: Er zijn scenario's waarin het type afbeeldingen in een video dat naar verwachting wordt gezien vrij smal is, dus het is mogelijk om de AI-codec te overpassen en een nog meer gecomprimeerde gecodeerde bitstream te bieden. Stel je het voordeel voor van het hebben van een neurale codec voor een populaire Netflix-serie die kan worden gestreamd met een aanzienlijk lagere bitsnelheid. Ons onderzoek leverde ultramoderne resultaten op, waaronder een besparing van 24% op de BD-snelheid ten opzichte van de toonaangevende neurale codec van Google. Belangrijk is dat onze oplossing mobielvriendelijk is, aangezien de decoderingscomplexiteit met 72% kan worden verminderd terwijl de SOTA-resultaten behouden blijven.
- Variabele bitrate-beeldcompressie: Vanwege beperkingen in hardware- of netwerkomstandigheden worden video's en afbeeldingen vaak gecodeerd met verschillende bitsnelheden. Variabele bitrate-beeldcompressie biedt een eenvoudigere implementatie. Er zijn verschillende oplossingen om variabele bitrates te bereiken, maar uiteindelijk willen we dat één model een enkele bitstream produceert waarin alle bitrates zijn ingesloten. Onze oplossing voor progressieve neurale beeldcompressie met variabele bitrate bereikt vergelijkbare prestaties als HEVC Intra, maar gebruikt slechts een enkel model en een enkele bitstream.
- Semantisch-bewuste beeldcompressie: Voor interessegebieden in een afbeelding willen we meer bits toewijzen om de visuele kwaliteit te verhogen. Semantisch-bewuste beeldcompressie verbetert de beeldkwaliteit door precies dat te doen. Onze oplossing biedt state-of-the-art resultaten voor de verhouding tussen snelheid en vervorming van afbeeldingen, en onze volgende stap is om deze techniek uit te breiden naar video.
- GAN-gebaseerde codecs: Om een goede beeldcodec te creëren, optimaliseren we voor de laagste bitsnelheid, terwijl we de beeldvervorming verminderen en de perceptuele kwaliteit verhogen. Hoewel dit vaak tot veel afwegingen leidt, kunnen generatieve adversariële netwerken (GAN's) betere afbeeldingen produceren in vergelijking met traditionele codecs, omdat de GAN iets visueel aantrekkelijks zal creëren, zelfs als er heel weinig informatie is. Onze resultaten zijn behoorlijk overtuigend, zoals te zien is in de onderstaande afbeelding.
Bekijk mijn webinar waar ik veel meer inga op detail over ons onderzoek naar deze op AI gebaseerde beeld- en videocompressietechnieken.
Real-time neurale decoderdemo op het apparaat
AI-onderzoek van het laboratorium naar real-life scenario's brengen is vaak niet eenvoudig, en in dit geval is de praktische inzet van neurale videocodecs een uitdaging. Op CVPR 2021 demonstreerde Qualcomm AI Research 's werelds eerste neurale HD-videodecoder die in realtime op een commerciële smartphone draait, waarbij ook gebruik werd gemaakt van andere belangrijke innovaties, zoals de AI Model Efficiency Toolkit (AIMET) om modellen te kwantificeren voor lage latentie en hoge energie-efficiëntie . Hoewel er nog meer onderzoek in het verschiet ligt, geeft het feit dat we deze prestatie kunnen bereiken ons veel vertrouwen in de toekomst van neurale codecs en ons vermogen om uitdagingen voor massa-implementatie te overwinnen. En terwijl we een pad blijven banen in deze ruimte, willen we bijdragen aan het leiderschap dat Qualcomm Technologies al lang heeft opgebouwd in zowel video- als spraakcompressie, inclusief aanzienlijke IP- en technologiebijdragen van verschillende generaties. We zijn erg enthousiast over de vooruitzichten van op AI gebaseerde codecs en hoe ze zullen inspelen op de groeiende vraag naar meer datacompressie.
1: Cisco Annual Internet Report, 2018-2023, en WhatsApp blog 4/28 /20
Taco Cohen
Stafingenieur, Qualcomm Technologies