Effekte variabler spektraler Maskierungskurven auf die Musikwahrnehmung
im cochleär geschädigten und normalen Gehör

 

Bernhard Laback, Forschungsstelle für Schallforschung der Österr. Akad. der Wissenschaften
email:
bernhard.laback@oeaw.ac.at

 

1. Einleitung

Wurden die negativen Auswirkungen reduzierter Frequenzselektivität als Folge cochleärer Hörschäden auf die Wahrnehmung von Sprache und Kompensierungsmöglichkeiten durch Signalverarbeitung bereits in mehreren Arbeiten untersucht, so sind die Folgen für die Perzeption von Musiksignalen bislang nicht erforscht worden. Reduktion der Frequenzselektivität, die durch relative Verbreiterung der auditorischen Filter hervorgerufen wird, hat nach Moore et al. (1992) folgende Auswirkungen auf die Perzeption komplexer Schallsignale wie Sprache oder Musik: 1) Das Signalspektrum wird intern in einer geglätteten bzw. "verschwommenen" Version abgebildet, wodurch die Wahrnehmung spektraler Kontraste und damit die Detektion von Formanten reduziert wird. 2) Durch verstärkte Simultanmaskierung fallen amplitudenschwächere Spektralkomponenten zunehmend unter die Mithörschwellen der Peaks, und werden dadurch - im Gegensatz zum normalen Gehör - perzeptiv nicht aufgelöst. In bisherigen Ansätzen zur Simulation und Kompensierung reduzierter Frequenzselektivität (z. B. ter Keurs et al., Baer et al., ) wurde nur die erste der beiden Folgen berücksichtigt. Die vorliegende Arbeit untersucht die perzeptive Auswirkung erhöhter Simultanmaskierung bei Musiksignalen in Bezug auf die beiden Parameter Klangqualität und Verständlichkeit musikalischer Inhalte mittels gezielter Signalmanipulation in der spektralen Ebene.


2. Signalverarbeitung

Das eingesetzte Verfahren zur Anhebung und Absenkung der in Relation zu den Peaks pegelschwachen Spektralkomponenten baut auf dem Modell der Irrelevanzschwelle und der davon abgeleiteten Übermaskierung auf (Deutsch et al. 1992), das mit Hilfe einer modifizierten Version des Phasenvocoders implementiert wurde. Im ersten Schritt wird vom Originalsignal (So) durch die Definition einer flachen Mithörschwelle ein übermaskiertes Signal (Sover) berechnet, das nur mehr die spektralen Peaks des Originals bzw. im Durchschnitt ein Drittel der Gesamtzahl an Spektralkomponenten beinhaltet. Durch die Kalkulation des spektralen Differenzsignals (Sdiff = So - Sover), dessen anschliessender Multiplikation mit Faktoren F<1 oder F>1, und schliesslich dessen spektraler Addition mit dem übermaskierten Signal, werden Testsignale mit kontinuierlicher Pegelreduktion (Übermaskierung) oder -Anhebung (Kompensierung) der pegelschwächeren Spektralkomponenten erzeugt: SD slope = Sover + (Sdiff * FD ).


3. Experimente

3.1 Die Breite der auditorischen Filter von 9 normalhörenden (NH) und 7 cochleär geschädigten (HI) Versuchspersonen wurde mit der Methode der Psychoacoustical Tuning Curves (PTCs) bei 500 und 4000 Hz gemessen. Die Kurven wurden an 6 Maskiererfrequenzen in einer adaptiven 3IFC-Methode ermittelt. Fig. 1 zeigt die jeweils über die beiden Versuchspersonengruppen normalhörend (NH) und cochleär geschädigt (HI) gemittelten Kurven mit ihrer Standardabweichung. Die gemittelte Kurvensteilheit der PTCs der HIs bei 1 und 4 kHz ist 19 bzw. 29 dB/oct geringer als die der NHs.

FIG. 1: PTCs bei 1 und 4 kHz Testtonhöhe. Die vertikalen Balken geben die Standardabweichung innerhalb der VP-Gruppe an. Die Testtonpegel liegen 10 dB über ihrer absoluten Hörschwelle.

3.2 In einem Paarvergleichs-Experiment wurde die Wirkung der beschriebenen Signalverarbeitung auf die Klangqualität von verschiedenen Typen von Musikignalen getestet. Für jeden Testklang wählten die Versuchspersonen von 7 Verarbeitungsbedingungen bei allen möglichen Paarkombinationen von "stark übermaskiert" über "unbearbeitet" bis "stark kompensiert" jeweils die subjektiv bevorzugte Version aus. Fig. 2 zeigt die Preference Scores (Summe der positiven minus Summe der negativen Ratings) für ausgewählte Stimuli als Funktion der Verarbeitungsbedingungen jeweils über die beiden Versuchspersonengruppen gemittelt. Die NH-Gruppe zeigt bei allen Stimuli Präferenz für die unbearbeiteten Klänge mit Tendenz zur Bevorzugung der kompensierten Signale gegenüber den übermaskierten. HIs bevorzugen - von Klang zu Klang variierend - entweder die kompensierten oder die unbearbeiteten Versionen.

FIG. 2: Preference Scores für die 7 Bearbeitungsbedingungen von stark übermaskiert (over3) über unbearbeitet (original) bis stark kompensiert (comp3). Für die HIs sind die Klänge auf zwei Gruppen aufgeteilt (sounds1 und 2), die sich hinsichtlich ihrer gemittelten Scores unterscheiden.

3.3 Die Verständlichkeit musikalischer Inhalte wurde mittels der Erkennungsrate von eingeführten musikalischen Fehlern in einem mittels eines Midi-Soundmoduls generierten, kurzen musikalischen Fragments ermittelt. Die Fehler lagen jeweils in einer der Kategorien Melodie, Harmonie oder Bass, und waren so gestaltet, dass ihre Erkennung keinerlei Musikalität voraussetzt. In 7 Testblöcken wurde jeweils für eine der 7 Signalverarbeitungsbedingungen (wie in Exp.2) in einer 1IFC-Methode die Fehler-Erkennungsrate ermittelt, die den Prozentsatz an richtig erkannten Fehlern angibt. Bei Unsicherheit konnten die VPs jederzeit auf Knopfdruck zum Vergleich das Original hören. Fig.3 zeigt die für die beiden VP-Gruppen gemittelten Recognition Scores in den drei Fehlerkategorien als Funktion der Verarbeitungsbedingungen. Der allgemeine Reliabilitätskoeffizient r zwischen Test und Wiederholung betrug 0.86. Die HI-Gruppe zeigt für alle Bedingungen signifikant niedrigere Fehlererkennungsraten als die NH-Gruppe. In Übereinstimmung mit der Erwartung bewirkt Übermaskierung generell eine Erhöhung der Melodieverständlichkeit. Auf die Harmonie- und Bassverständlichkeit wirkt sie sich bei NHs verschlechternd, hingegen bei HIs - entgegen der Erwartung - verbessernd aus. Kompensierung hat keinen Einfluss auf die Melodieverständlichkeit, und erhöht bei höherem Bearbeitungsgrad leicht die Harmonie- und Bassfehlererkennung bei NHs. Bei HIs bringt Kompensierung zuerst eine Verbesserung, aber mit zunehmendem Bearbeitungsgrad eine Verschlecherung in allen drei Fehlerkategorien.

FIG. 3: Recognition Scores für die 3 Fehlerkategorien als Funktion der Signalverarbeitung (siehe Exp. 2) mit Stand.Abw. für NHs (links) und HIs (rechts).

Die Ergebnisse der PTCs wurden mit den Daten des Paarvergleich-Experiments korreliert, wobei aus zweiterem "Preference Values" berechnet wurden, die die individuell am stärksten bevorzugten Verarbeitungsbedingungen angeben. Der Korrelationskoeffizient für den in Fig. 4 gezeigten Klang Streichquartett mit der oberen Flanke der 4 kHz PTC beträgt r = - 0.61 ( p < 0.01 ). Ebenfalls mit den PTC-Daten korreliert wurden die Recognition-Scores für die unbearbeiteten Stimuli aus Experiment 3 (Fig. 5), wobei r für die verschiedenen Flanken Werte zwischen 0.77 und 0.79 (p < 0.01) erreichte.

FIG. 4: Zusammenhang zwischen der Steilheit der 4 kHz PTC (obere Flanke) und der individuell am stärksten bevorzugten Signalverarbeitung (neg. Werte = Übermask., 0 = Orig., und pos. Werte = Kompensierung); r = - 0.61 (p < 0.01)

 

FIG. 5: Zusammenhang zwischen der Steilheit der 1 kHz PTC (obere Flanke) und der musikalischen Verständlichkeit (Recognition Score); r = 0.79 (p < 0.01)


4. Diskussion und Ausblick

Die Pegelanhebung amplitudenschwächerer Spektralkomponenten führte bei HIs bei einem Teil der Musikklänge zu einer Verbesserung der Klangqualität gegenüber dem Originalsignal, und scheint damit die verstärkte Simultanmaskierung im Gehör cochleär geschädigter VPs zu kompensieren. Offensichtlich besteht ein Zusammenhang zwischen Klangqualität und der Anzahl an hörbaren Spektralkomponenten. In weiteren Untersuchungen soll die Abhängigkeit des subjektiv bevorzugten Pegels der amplitudenschächeren Spektralkomponenten von der Steilheit der auditorischen Filter in Bezug auf die Spektralcharakteristik verschiedener Testklänge genauer untersucht werden. Die Ergebnisse für die Auswirkung der Signalverarbeitung auf die musikalische Verständlichkeit stimmen im Falle der NHs mit der Annahme überein, dass Melodie primär in spektralen Peaks, und Harmonie und Bass vermehrt in spektralen Tälern repräsentiert ist. Bei HIs trat der unerwartete Effekt auf, dass Übermaskierung die Harmonieerkennung signifikant erhöht. Die Ergebnisse, dass sowohl Übermaskierung als auch Kompensierung die Verständlichkeit und Kompensierung teilweise auch die Klangqualität bei HIs erhöht, erfordern weitere eingehende Forschungsarbeit, und stellen mögliche zukünftige Anwendungen für die Signalverarbeitung von Musik in Hörgeräten in Aussicht.

[Die Arbeit wurde von der Österreichischen Akademie der Wissenschaften unterstützt.]


5. Literatur

Baer, T., Moore, B.J.C. Gatehouse S. (1993). "Spectral contrastenhancement of speech in noise for listeners with sensorineural hearing impairment: effects on intelligibility, quality, and response times," in: Journal of Rehabilitation Research and Development, Vol. 30, Nr. 1, 49-72.

Deutsch, W., et al. (1992). "The perception of audio signals reduced by overmasking to the most prominent spectral amplitudes (peaks)," AES-Preprint 3331 [3PS1.08].

Deutsch, W. (1990). "Verständlichkeit spektral hochreduzierter Sprachsignale," in: Fortschritte der Akustik, DAGA'96.

Laback, B. (1998). "Effekte der Simultanmaskierung auf die Musikperzeption bei sensorineuralen Hörschäden und ihre Anwendung für Signalverarbeitungsalgorithmen in Högeräten," Dissertation, Universität Wien (in press).

Moore, B. J. C., Glasberg, B., Simpson, A. (1992). "Evaluation of a method of simulating reduced frequency selectivity," JASA 91, 3402-3423.

ter Keurs, M., Festen, J., Plomp, R. (1992). "Effect of spectral envelope smearing on speech reception I.," JASA 91 (5), 2872-2880.