Orpheus: Open-Source-Sprach-LLM für hochwertige Sprachgenerierung
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Canopy Labs.
Orpheus: Open-Source-Sprach-LLM für hochwertige Sprachgenerierung
Bisher konnten Open-Source-Modelle für Text-to-Speech (TTS) nicht mit proprietären Lösungen mithalten. Auch die Fähigkeit, Empathie auszudrücken – ein Merkmal menschlicher emotionaler Intelligenz – fehlte. Nun wird Orpheus vorgestellt, eine Familie hochmoderner Sprach-LLMs, die eine Sprachgenerierung auf menschlichem Niveau ermöglichen soll.
Leistungsstarke Sprachgenerierung durch Open Source
Die Modelle, die auf der Llama-Architektur basieren, sind in verschiedenen Größen verfügbar. Sie demonstrieren eine bemerkenswert hohe Qualität und eine ästhetisch ansprechende Sprachgenerierung, selbst bei sehr kleinen Modellgrößen. Finetuned-Modelle, die auf eine Auswahl von Stimmen trainiert wurden, können direkt in der Produktion eingesetzt werden. Zusätzlich werden Basemodelle zusammen mit Beispielen für Finetuning-Skripte angeboten, die für Zero-Shot-Voice-Cloning oder eigenes Finetuning verwendet werden können.
Echtzeit-Streaming und Emergent Capabilities
Ein Python-Paket ermöglicht das Echtzeit-Streaming, das selbst auf einer A100 40GB GPU für das 3-Milliarden-Parameter-Modell schneller als die Wiedergabe ist. Das vortrainierte Modell basiert auf Llama-3b und wurde mit über 100.000 Stunden englischer Sprachdaten und Milliarden von Text-Tokens trainiert. Durch das Training mit Text-Tokens wird die Leistung bei TTS-Aufgaben verbessert, da das Modell ein umfassendes Sprachverständnis behält.
Natürliches Zero-Shot-Voice-Cloning
Obwohl das vortrainierte Modell nicht speziell auf Voice-Cloning trainiert wurde, kann Zero-Shot-Voice-Cloning aufgrund der großen Menge an Pretraining-Daten entstehen. Das Modell wählt eine natürliche Intonation und Emotion, die mit führenden Modellen mithalten oder diese sogar übertreffen. Es ist bemerkenswert, dass das Modell die Stimme während des Trainings nicht gesehen hat – sie wird erst durch den Prompt eingeführt.
Emotionale Sprachausgabe
Das Basismodell kann mit wenigen Dutzend hochwertiger Finetuning-Beispiele trainiert werden, um mit einer bestimmten Emotion zu sprechen. Durch die Verwendung von Text-Sprach-Paaren, einschließlich manuell erstellter Emotion-Tags, lassen sich unterschiedliche emotionale Zustände simulieren.
Echtzeit-Anwendungen und niedrige Latenz
Die Modelle sind hochgenau, ausdrucksstark und anpassbar, was auf die LLM-Architektur zurückzuführen ist. Die breite Unterstützung für Llama-Modelle und die riesigen Mengen an Audio- und Textdaten, die verwendet wurden, erweitern die Möglichkeiten zusätzlich. Die Echtzeitnutzung ermöglicht Konversationsanwendungen mit sehr geringer Latenz von etwa 200 ms. Durch die Eingabe von Text in den KV-Cache des Modells kann die Latenz sogar auf 25-50 ms reduziert werden.
Abschließend lässt sich sagen, dass Orpheus vielversprechende Fortschritte im Bereich der Open-Source-Sprachgenerierung bietet und neue Möglichkeiten für realistische, ausdrucksstarke und anpassbare Sprachausgabe eröffnet.