IOLA, Sprach­erkennung revolutioniert… Automatische Auswahl des optimalen ASR-Modells basierend auf dem Kontext

TechubNews

Das KI-Startup aiOla hat eine neue Lösung vorgestellt, die die Spracherkennungsgenauigkeit revolutioniert. Das Unternehmen veröffentlichte ein “Sprachintelligenz-Gateway”-System, das die Nutzerstimme in Echtzeit analysiert und sich automatisch mit dem am besten geeigneten Spracherkennungsmodell verbindet. Das System bewertet komplexe Sprachmerkmale dynamisch und wählt das Modell aus, das die beste Genauigkeit für die Verarbeitung erzielt.

aiOlas “DRAX”, das letztes Jahr vorgestellt wurde, ist ein Sprach-KI-Modell, das die Grenzen der traditionellen Spracherkennung durch Parallel-Stream-Lerntechnologie überwindet. DRAX kann alle Aussagen gleichzeitig verarbeiten und zeigt eine starke Leistung angesichts verschiedener Realitätsvariablen wie Umgebungsgeräuschen und Intonation. Basierend auf dieser Technologie wählt die neue Technologie “QUASAR” automatisch das am besten geeignete Modell aus einer Vielzahl automatischer Spracherkennungs-Engines aus, indem sie Informationen wie Spracheigenschaften, Sprecherintonation, Rauschpräsenz und Kontext analysiert.

Obwohl viele ASR-Dienstleister im aktuellen Markt für Sprach-KI im Bereich Rauschumgebung oder Tonoptimierung konkurrieren, darunter OpenAIs Whisper, Amazons Transcribe, Alibabas Qwen2 und Deepgram, verwenden die meisten Unternehmen immer noch nur ein einziges Modell, das in der Standardanalyse am besten abschneidet. Dies führte zu häufigen Identifikationsfehlern in realen Nutzungsumgebungen und anhaltender Kritik an einer deutlichen Verschlechterung der Benutzererfahrung.

aiOla-Mitbegründer und Präsident Amir Haramathi weist auf die aktuelle Situation hin, in der Unternehmen gezwungen sind, die Fehler bestimmter ASR-Modelle zu ertragen: "Einige Modelle sind im Umgang mit amerikanischem Englisch hervorragend, sind aber oft hilflos in britischer Intonation oder lauten Umgebungen. “QUASAR ist das erste System, das Spracherkennung als dynamisches Problem und nicht als statische Technologie behandelt”, betonte er. "

aiOla hat das System auf eine Vielzahl von realen Tönen, Hintergrundgeräuschen und professionellen Inhaltsumgebungen in internen Benchmarks angewendet. Die Ergebnisse zeigen, dass die optimale ASR-Engine dynamisch ausgewählt werden kann, um die Genauigkeit bei 88,8 % der Antwortanfragen zu verbessern. Diese Technologie soll das Verständnis des Mensch-Computer-Dialogs in Bereichen wie Kundensupport, Sitzungsprotokollen und automatisierten Anrufsystemen erheblich verbessern.

“Da Spracherkennung allmählich zur grundlegenden Schnittstelle zwischen Menschen und KI wird, sind Erkennungsfehler inakzeptabel geworden”, sagte Haramati. Er nannte QUASAR “die Technologie, die ASR in lebendige Infrastruktur verwandelt” und fügte hinzu: “Dies ist nicht nur ein technologischer Durchbruch, sondern eine Revolution, die alle betreffen kann – von globalen Callcentern, die Milliarden an Anrufdaten verarbeiten, bis hin zu unabhängigen Entwicklern, die Untertitelfähigkeiten entwickeln.” "

aiOla plant, durch diese Technologie die Praktikabilität und Zuverlässigkeit von Sprach-KI-Schnittstellen erheblich zu verbessern und so einen strukturellen Wendepunkt für das gesamte KI-Sprach-Ökosystem zu schaffen.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare