Die Stimme von K.I.T.T

RezaScript

Bekanntes Mitglied
Hallo,

ich beziehe meine Frage auf dieses Thema: https://www.java-forum.org/thema/kitt-lernt-sprechen.185133

Kaum habe ich mit der Software-Entwicklung angefangen, schon stosse ich zur ersten Herausforderung:
Ich könnte entweder Alexa Voice Service oder Speech-to-Text von Google verwenden aber die Frage ist wie bekomme ich es hin, damit die Stimme an Original so nah wie möglich ran kommt? Ich habe mit Deep Fake von https://app.resemble.ai/ meine eigene Stimme getestet um zu schauen wie es mit der Qualität aussieht. Ich habe ca. 30 mal laut und sehr deutlich gesprochen. Am Schluss konnte die Applikation mit meiner Stimme ein Text lesen. Die Stimme war aber nur zu 75 % genau wie meine Originalstimme. Nun denke ich, wenn sogar meine Stimme es höchstens auf 75 % hinbekommt, wie sollte es denn die Stimme von Kitt höher schaffen? Die Stimme könnte vielleicht öfters als nur 30 mal aufgenommen werden aber die Problematik an der ganzen Szene ist, dass dabei fast immer Hintergrundgeräusche zu hören sind. Diese würden die Qualität natürlich sogar noch mehr verschlechtern.

Ich finde, dass wenn die Audioqualität tiefer als 75 % sein wird, ist es den Aufwand nicht wert. Wie seht ihr das? Aufgeben oder seht ihr irgendwo eine mögliche Lösung?
 

Neue Themen


Oben