direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Page Content

PhD Thesis

Signalaufbereitung in digitalen Sprachübertragungssystemen
Citation key 0953Neto1987
Author Benedito Aguiar Neto
Year 1987
School Technische Universität Berlin
Abstract Durch Störungen in Sprachübertragungssytemen können die empfangenen Signale ungewünschte Komponenten enthalten, die die Sprachqualität und die Sprachverständlichkeit stark beeinträchtigen. Störungen können in der Umgebung des sprechenden Teilnehmers sowie im Übertragunskanal entstehen. In der Umgebung des Teilnehmers treten häufig rauschartige Störungen auf in Form von akustischen Geräuschen , die dem Sprachsignal überlagert sind. Bei dieser Störungsart wird die Verständlichkeit der gestörten Sprache stark beeinträchtigt, da die energiearmen stimmlosen Sprachsegmente häufig vom Störsignal verdeckt werden. Im digitalen Übertragungskanal bewirken die eingetretenen Störungen impulsartige Amplitudenverfälschungen im empfangenen Sprachsignal, die als unangenehm störende "Knack"-Geräusche empfunden werden. Diese Störungsart vermindert die Sprachqualität erheblich. In dieser Arbeit wurden die akustischen Störungen in der Umgebung des sprechenden Teilnehmers durch eine sendeseitige Signalaufbereitung mittels Rauschunterdrückungsverfahren reduziert, die auf der Optimalfiltertheorie und der Theorie von Kurzzeit-Spektral-Schätzungen beruhen. Bei diesen Verfahren wrden die erforderlichen statistischen Informationen über das Störsignal bzw. das Sprachsignal aus Kurzzeit-Analysen des gestörten Sprachsignals gewonnen. Die auf der Optimalfiltertheorie basierenden Verfahren sind einige im Zeit- bzw. Frequenzbereich durchgeführte Varianten der Wiener-Kolmogoroff-Filterung. Die optimale Impulsantwort dieses Filters wird nach dem Kriterium des minimalen mittleren quadratischen Fehlers bestimmt. Hierbei wird vorausgesetzt, daß das Sprachsignal mit dem Störsignal nicht korreliert ist. Im Frequenzbereich wird die Wiener-Kolmogoroff-Filterung über Schätzungen von Kurzzeit-Spektren durchgeführt. Die Filterung erfolgt durch Gewichtung des Kurzzeit-Amplitudenspektrums des gestörten Sprachsignals in Abhängigkeit von einer Schätzung des Kurzzeit-Leistungsspektrums des Störsignals, die in den Sprachpausen durchgeführt wird. Neben den untersuchten Varianten der Wiener-Komogoroff-Filterung wurden noch zwei Verfahren mit spektraler Gewichtung untersucht, die auf Verfahren der spektralen Subtraktion basieren. Bei dem einen Verfahren erfolgt die Gewichtung nach Schätzungen von Kurzzeit-Amplitudenspektren und bei dem anderen nach Schätzungen von Kurzzeit-Leistungsspektren. Die nach objektiven und subjektiven Beurteilungen beste Rauschunterdrückung wurde nicht bei den auf der Optimalfiltertheorie beruhenden Verfahren, sondern bei einem auf einer spektralen Subtraktion der Schätzungen von Kurzzeit-Spektren basierenden Verfahren festgestellt. Mit diesem Verfahren wurden im Mittel über mehrere Sprecher Gewinne des Signal-Rausch-Abstands von z. B. 7,5 dB und des Segment-Signal-Rausch-Abstands von 14 dB bei der Unterdrückung von Fahrzeuggeräusch erreicht. Der Erfolg der Rauschunterdrückung ist von einer einwandfreien Sprachpausendetektion abhängig, da die Adaption des Rauschunterdrückungsalgorithmus nur in den Sprachpausen durch Aktualisierung der spektralen Schätzwerte des Störsignals vorgenommen wird. Welche Verbesserung der gestörten Sprache erreicht werden kann, hängt wesentlich von der Stationarität des Störsignals ab. Ist das Störsignal stark instationär, so ist die Wirkung des Rauschunterdrückungssystems bei Sprachaktivität gering, da in diesem Zeitintervall des Sprachsignals keine Aktualisierung der Schätzung des Sprektrums des Störsignals möglich ist. Die durch Übertragungsfehler entstehende Verschlechterung der Eigenschaften eines PCM-Übertragungssystems wurde durch Anwendung von empfangsseitigen Verfahren zur Erkennung und Korrektur digitaler Fehler (EKDF) bedeutend reduziert. Diese Verfahren nutzen zur Erkennung und Korrektur der Übertragungsfehler die natürliche Redundanz der Sprachsignale, die es erlaubt, den wahrscheinlichen Wertebereich für das Auftreten eines Abtastwertes aus der Umgebung dieses Abtastwertes abzuleiten. Die Fehlerabfrage eines beobachteten Abtastwertes erfolgt durch Vergleich eines für diesen Abtastwert gewonnenen Schätzwertes mit einer signalabhängigen Referenzgröße. Die Korrektur erfolgt als Substitution der erkannten fehlerhaften Abtastwerte durch Schätzwerte. Die Schätzwerte wurden durch Extrapolations- und Interpolationsverfahren oder Kombination dieser beiden Schätzverfahren gewonnen. Bei Anwendung dser empfangsseitigen EKDF-Verfahren in einer gestörten PCM-Übesrtragung ergab sich für Bitfehlerraten bis p = 0,5 % eine annehmbare Sprachqualität, die ungefähr der Qualität eines PCM-Systems ohne Fehlerkorrektur bis p = 0,1 % entspricht. Bei sehr niedrigen Bitfehlerraten p < 0,01 % ergibt sich jedoch keine Verbesserung. In dieser Arbeit wurden aus Aufwandsgründen keine subjektiven Bewertungsmaßstäbe, z. B. des MOS (Mean Opinion Score), bei der Optimierung der Aufbereitungsverfahren verwendet. In ersten Hörversuchen wurden jedoch subjektive Verbesserungen der Qualität und Verständlichkeit der Sprache bei den untersuchten Rauschunterdrückungs- und EKDF-Verfahren festgestellt, die zumindest qualitativ den objektiven Ergebnissen entsprechen.
Download Bibtex entry

Zusatzinformationen / Extras

Quick Access:

Schnellnavigation zur Seite über Nummerneingabe

Auxiliary Functions