Werner A. Deutsch & Sylvia Moosmüller: Institut für Schallforschung der Österrreichischen Akademie der Wissenschaften This email address is being protected from spambots. You need JavaScript enabled to view it.

Although English is our primary working language, this document has been written in German and we cannot provide an English translation yet. We apologize for the inconvenience.

Einleitung

Lautsprachliche Kommunikation ist die wichtigste Verständigungsform des Menschen. Sie erlaubt es Informationen mit hoher Geschwindigkeit zu übertragen. In ihrer Vollkommenheit ist sie beim Menschen einzigartig, wenn auch andere Lebewesen sprachähnliche Kommunikation betreiben können. Die Sprache steht in komplexen Wechselbeziehungen zu den Individuen und der Gemeinschaft, die sich ihrer bedienen, sie prägt die Gedanken, die Begriffsbildung und das Denken mannigfaltig. Als wichtigste auditorische Funktion ist sie an fast allen Aspekten der menschlichen Existenz maßgeblich beteiligt.

Akustisch gesehen besteht das Sprachsignal aus Schallwellen. Das sind im Normalfall periodische (sich wiederholende) oder nichtperiodische Bewegungen des Mediums Luft. Schall ist verbunden mit zeitlichen und räumlichen Schwankungen des Druckes, der Dichte, der Temperatur des Mediums, sowie der Geschwindigkeit der Teilchen in einem elastischen Medium, um die ohne Schall vorhandenen Mitelwerte. Die akustischen Druckwellen entstehen durch willentliche Bewegungen der Sprechorgane (Abb. 1). Die solcherart in Luft abgestrahlten Sprachschälle treffen auf das Außenohr, bewegen das Trommelfell, den Mittelohrapparat sowie die im flüssigkeitsgefüllten Innenohr schwingungsfähigen Teile der Schnecke, auf denen die auf Scherkräfte reagierenden Nervenzellen (Haarzellen) sitzen. Diese Sinneszellen wandeln die mechanischen Bewegungen in elektrisch-chemische Nervenaktionen um. Die auf diese Weise kodierten Sprachsignale werden sodann über zahlreiche neuronale Schaltstellen geleitet, weiterverarbeitet und gelangen schließlich in die Hirnrinde (Cortex) wo ihre Integration in das Erleben (Bewusstsein) vorgenommen wird. Alles in allem ein komplizierter, bisher nur in Ansätzen bekannter Wahrnehmungsprozess.

Ebenso ist verwunderlich, dass¸ trotz der enormen Variabilität der Sprachsignale (Invarianzproblem), wie sie durch die große Anzahl von verschiedenen Sprechern, verschiedenen Alters, Geschlechts, mit doch erheblich unterschiedlichen Dialekten gegeben ist, im Alltag kaum Verständigungsschwierigkeiten auftreten. Dabei ist die Verständlichkeit der Sprachschälle bemerkenswert robust gegenüber einer erheblichen Anzahl unvermeidbarer Interferenzen, etwa dem Umweltlärm, oder gegenüber einer Reihe von physikalischen Transformationen, solange diese nicht bestimmte Grenzwerte überschreiten. Es zeugt von einer außerordentlichen Leistungsfähigkeit des Gehörs, dass wir z.B. leicht in der Lage sind zwei gleichzeitig mit gleicher Lautstärke sprechende Quellen unterscheiden zu können oder trotz erheblicher Umweltlärmbelastung doch noch die an uns gerichteten Botschaften verstehen. Das sind Leistungen, die bis heute trotz des mit großem Aufwand getätigten Einsatzes modernster Computer, nur sehr mangelhaft technisch simuliert werden konnen.

Das akustische Modell der Sprachproduktion (Fant, 1970) besteht aus der Kraftquelle Lunge - Brustkorb - Zwerchfell, der Schallquelle in Form der Glottis (Stimmritze), die bei stimmhaften Lauten durch regelmäßige Öffnungs- und Schließbewegungen periodische Druckpulse mit f0 = 1/T erzeugt. Das Quellenspektrum ist obertonreich und fällt mit etwa -12 dB/Oktave ab. Über der Glottis liegt das sogenannte Ansatzrohr mit den akustisch als Resonatoren wirkenden Vokaltrakthöhlen. Man unterschiedet vier Hauptresonanzen, deren Maxima (Pole) mit F1, F2, F3 und F4 als 1., 2., 3. und 4. Formant bezeichnet werden. Durch die Bewegung der Artikulatoren (Kiefer, Zunge, Lippen und Gaumensegel) wird Form und Größe, der Querschnitt des Ansatzrohres variiert. Infolge der Lippenabstrahlung wird das Amplitudenspektrum wieder um 6 dB/Oktave angehoben. Die abgestrahlte Wellenform kann durch ein Quelle-Filtermodell synthetisiert werden. In der einfachen Form des Modells wird angenommen, dass der akustische Nebenweg zur Nasenhöhle durch das angehobene Gaumensegel verschlossen ist. Bei Absenken des Gaumensegels öffnet sich dieser Nebenweg und zusätzliche Resonanz- aber auch Dämpfungsglieder (Nullstellen) müssen eingeführt werden. Weitere Modellverbesserungen ergeben sich in einer genaueren Simulation der Glottisaktivität.

Vokaltrakt_Physio_384px

Lunge

Der zum Sprechen erforderliche Luftdruck entsteht durch die Aktivität der Brustmuskulatur (Intercostales) und des Zwerchfells. Je nach Geschwindigkeit und Stärke des Ein- und Ausatmens treten die internen und externen Intercostalmuskel in Abstimmung mit dem Gewicht des Brustkorbes und dem Zwerchfell in Aktion. Wegen der Elastizität des Lungengewebes und der Dehnbarkeit der Thoraxwand können die Drücke insgesamt zwischen den Werten 5 cm Wassersäule bei ruhigem Atmen und 30 cm Wassersäule und mehr bei maximalem Einatmen variieren Draper et al. (1959). Während des Sprechens wird ein wesentlich geringerer subglottaler Druck, dieser jedoch konstant während der gesamten Phonation aufrechterhalten. Laufende Druckveränderungen hätten störende Lautstärke- und Klangfarbenwechsel zur Folge. Nach dem Einatmen reicht die Rückstellkraft der elastischen Teile des Atemapparates für die Erhaltung eines konstanten subglottalen Druckes völlig aus. In dem Ausmaß als diese Rückstellkraft während des Sprechaktes nachlässt, sorgen in der Folge die für das Ausatmen verantwortlichen inneren Intercostalmuskel für den erforderlichen Luftdruck.

Kehlkopf (Larynx)

Am oberen Ende der Luftröhre (Trachea), unmittelbar unterhalb des Zungengrundes, befindet sich der Kehlkopf. Er ist das Organ für die Stimmbildung und den Verschluß der Luftröhre. Mit seinen 5 Knorpeln, den entsprechenden Gelenken, Fortsätzen, Bändern und einer großen Anzahl von willentlich bewegbaren Muskeln bildet er ein relativ kompliziertes mechanisches System, welches optimal für die Kontrolle der äußerst fein abstufbaren Einstellungen und Spannungen der Stimmbänder geeignet ist. Beim Pressen kann z.B. die Stimmritze so fest verschlossen werden, dass keinerlei Luft aus den Lungen entweicht. Bei Phonation hingegen werden die Stimmbänder bloß lose aneinander- gelegt, sodass sie der aus den Lungen kommende Luftstrom auseinanderdrückt und die Luft stoßartig entweichen kann. Dadurch wird die Stimmritze abwechselnd geöffnet und geschlossen. Genauer betrachtet sind die "Vibrationen" der Stimmbänder äußerst komplex, insbesondere bei tiefen Frequenzen. Es liegen dann große Oberflächen der Stimmbänder während der Schließphase aneinander (Abb. 2). Nota bene: Stimmbänder schwingen nicht - die Stimmlippen öffnen und schließen die Stimmritze. Das Verhältnis der Dauer von Öffnungs- und Schließphase bestimmt den Obertongehalt des Quellenklanges bei gleicher Periodenlänge. Generell gilt, je steiler die Öffnungs- und Schließphase desto obertonreicher wir der Klang.

Eine Öffnungs- und Schließphase wird Vibrationszyklus genannt. Er dauert bei Männerstimmen etwa 8 ms, das entspricht einer Grundfrequenz von 125 Hz, und variiert mit der gesprochenen Tonhöhe. Frauenstimmen liegen bis zu eine Oktave hoher und haben daher einen entsprechend verkürzten Vibrationszyklus. Das Verhältnis zwischen der Dauer der Öffnungs- und Schließphase (duty cycle) ändert sich mit der Tonhöhe; es beträgt ca.0.66 zu 0.33 bei tiefen Frequenzen) bei hohen Frequenzen werden die Stimmänder gedehnt und damit dünner, womit sich die Öfffnungsphase innerhalb des Vibrationszyklus verlängert. Die Vibrationen der Stimmbänder verändern sich auch in Abhängigkeit von der gewählten Sprechweise, bei lauter Stimmgebung etwa verdicken sie sich, sie haben größere Kontaktflächen und benötigen daher längere Zeit bevor sie sich offnen. Die Schließphase dauert in diesem Fall länger, bis zu 1/2 Vibrationszyklus, damit veändert sich auch die Form des abgegebenen Druckpulses. Die Öffnungs- und Schließflanken versteilen sich, wodurch das Spektrum des Druckpulses (Quellenspektrum) mit harmonischen Teiltönen höherer Ordnung angereichert wird, ein Umstand, der für die gute Ausprägung von Fornanten von Bedeutung ist (Abb.3).

Glottis_spectrum_384px

Rachen (Pharynx)

Der Rachen besteht aus einer ca. 15cm langen Muskelröhre, dessen obere Begrenzung leicht gewölbt ist und durch die etwas schief gesetzte Schädelbasis geformt wird. Der Ausdehnung nach erstreckt sich der Rachen von der Schädelbasis bis nahe an den 6. Cervicalwirbel, wo er sich dann in der Speiseröhre (Oesophagus) fortsetzt. Bis auf Schluckbewegungen ausgenommen bleibt der Durchgang zwischen Pharynx und Speiseröhre durch den Schließmuskel Circopharyngeus verschlossen. Somit verbindet der Rachen die Nasen- und Mundhöhle ihrerseits mit dem Larynx andererseits. Die Rückwand des Rachen ist starr an der Wirbelsäule befestigt, während die Seiten- und Vorderwände sehr beweglich sind. Zwei Klappensysteme befinden sich im Rachen: ein oberes, die velopharyngale Klappe (Velum = Gaumensegel) und ein unteres, der Kehldeckel (Epiglottis). Die velopharyngale Klappe hat für die Sprachproduktion sehr große Bedeutung, sie besteht aus dem weichen Gaumen mit dem Zäpfchen (Uvula) und kann bei Anhebung den oberen Pharynx, den Nasenrachen (Nasopharynx) vom mittleren Teil, den Mundrachen (Osopharynx) abtrennen. Beim Verschluß des Nasenrachens presst der weiche Gaumen gegen die hintere Rachenwand und bildet somit eine direkte horizontale Verlängerung des harten Gaumens. Die Öffnung des Verschlusses durch das Absenken des weichen Gaumens bedeutet, dass die Schallwellen durch die Nasenhöhlen nebengeleitet werden, wodurch die Sprache „nasal" klingt. Die zweite Klappe sorgt für den vollkommenen Verschluß des Kehlkopfes beim Schlucken; der Verschluß wird erreicht, indem die Zungenwurzel auf den Kehldeckel drückt, während gleichzeitig der gesamte Kehlkopf gehoben wird. Die Rachenwände selbst bestehen aus diversen Muskeln und Bindegewebsmembranen. Mit ihrer Hilfe kann das Volumen und die Form des Rachens beträchtlich verändert werden. Akustisch gesehen, haben wir es dadurch mit einem stark variierbaren Resonator zu tun, dessen geometrische Form von großer Bedeutung für die Formantbildung ist.

Mundhöhle (Cavum Oris)

Die Mundhöhle bildet zusammen mit der Nasenhöhle den Ausgang des Vokaltrakts. Ihre Begrenzung nach außen ist durch die hufeisenförmigen Zahnfächer (Alveolen) des Ober- und Unterkiefers und durch die Zähne selbst gegeben. Den Raum zwischen den Zähnen und den Lippen bezeichnet man mit Vestibulum Oris. Den Boden der Mundhöhle bildet der Unterkiefermuskel (Mylohyoidmuskel), darauf ist die Zunge (Lingua) aufgebaut. Sie ist reichlich mit Muskeln versorgt und daher äußerst beweglich. Mit ihrer Hilfe kann die Resonanz der Rachen- und Mundhöhle stark veändert werden. In der Phonetik werden je nach Zungenstellung verschiedene Artikulationen unterschieden je nachdem welcher Teil der Zunge an den Gaumen, die Zähne, an die Alveolen usw. angepresst wird, spricht man von „apikalen" (Apex = Zungen-spitze), „koronalen" (Zungenblatt), „dorsalen" (Zungenrücken) oder "lateralen" (Zungenseite) Lauten. Wegen der in einem Bogen geformten oberen Begrenzung der Mundhöhle (harter Gaumen) hat die Zunge sehr viel Bewegungsmöglichkeit, so kann die Zungenspitze auch nach rückwärts gelegt werden. Laute in dieser Artikulationsstellung werden „retroflex" bezeichnet. Auf die Funktion des weichen Gaumens wurde bereits bei der Besprechung des Rachens hingewiesen. Hier soll zusätzlich vermerkt werden, dass die Hebung und Senkung des weichen Gaumens, also der Verschluß und die Öffnung der Nasenhöhle zum Rachen, durch die Aktivität zweier Muskelsysteme erfolgt.

Lippen

Der äußere Teil der Lippen ist mit Haut bedeckt, die dann im roten Teil in die innere Schleimhaut übergeht. Die Lippen sind ebenso reichlich mit Muskeln versorgt, wovon grob drei Hauptgruppen zu unterscheiden sind a) der Schließmuskel, er dient zum Verschluss des Mundes, bewegt darüber hinaus die Lippen nach außen (Schmollmund) und nach innen, wenn sie an die Zahnreihen angepresst werden; b) der Levator des Mundwinkels, er hebt den Mundwinkel und die Lippen und c) der Depressor des Mundwinkels, er senkt sie. Die Lippen- und Mundwinkelstellung verändert die Form und Resonanz der Mundhöhle und beeinflußt und unterstützt die Bildung von Vokalen, etwa durch Rundung, Öffnung, usw.; ferner können mit den Lippen zahlreiche Verschluss- und Reibelaute gebildet werden.

Nasenhöhle

Der Nase fällt beim Sprechvorgang eine äußerst wichtige Resonatorfunktion zu. Sie ist einerseits zum Rachen offen, wenn der weiche Gaumen gesenkt wird, andrerseits steht sie mit diversen Knochen-Nebenhöhlen in Verbindung, deren Gesamtvolumen ihr eigenes übersteigt und somit ebenfalls die Resonanzeigenschaften des Systems beeinflußt. Das Septum teilt die Nasenhöhle in zwei nicht immer streng symmetrische Teile. Nach Fujimura und Lindquist (1964) kann sogar diese Asymmetrie einen Einfluss¸ auf das Formantspektrum nasalierter Vokale haben. Entzündungen der Nasenschleimhäute lassen diese anschwellen und bei Sinusitis kann sich entsprechend viel Flüssigkeit ansammeln. Diese Veränderungen werden in der Sprache hörbar weil das akustisch wirksame Volumen der Nase reduziert wird.

Vokaltrakt_model_384px

Einige technische Daten des Stimmapparats

Der Vokaltrakt kann als akustisches Rohr mit verschiedenen Querschnitten betrachtet werden (Flanagan, 1972) . Beim männlichen Erwachsenen hat er eine Länge von ca. 17cm, gemessen von den Lippen bis zur Glottis. Die Querschnittsveränderungen werden durch die Bewegung der Artikulatoren, nämlich Lippen, Zunge, Kinn, Gaumensegel hervorgerufen. Im vorderen Teil kann das einen Bereich von 0 cm2 , das ist ein totaler Verschluss, bis zu einer maximalen Öffnung von 20  cm2  umfassen. Die Nasenhöhle hat, gemessen vom Gaumensegel bis zu den Nasenflügeln eine Ausdehnung von ca. 12 cm. Das Volumen beträgt etwa 60  cm3 . Die akustische Kopplung zum Vokaltrakt erfolgt über die velopharyngale Klappe, deren Öffnungsbereich beim männlichen Erwachsenen sich von 0  cm2  bis 5  cm2  erstreckt. Die Stimmgrundfrequenzen liegen im Normalfall zwischen 50Hz und 400 Hz, der Hautptenergieanteil des abgestrahlten stimmhaften Sprachsignals liegt grob geschätzt zwischen 50Hz und 4000 Hz mit einer Lautstärke von etwa 30 bis 80dB(SPL). Das Quellenspektrum an der Glottis weist  einen Abfall von -12 dB pro Oktave auf, relativ zur Amplitude der Grundfrequenz.

Bei stimmhaften Lauten strömt die Luft aus den Lungen durch die Luftröhre an den Larynx und versetzt die Stimmbänder (-lippen) in der beschriebenen Weise in Vibration. Die daraus resultierenden quasiperiodischen Luftpulse haben etwa Dreieckform und regen das akustische System über den Stimmbändern an.

Eine weitere Möglichkeit den Vokaltrakt akustisch anzuregen ist durch die Erzeugung einer Strömung an einer Verengung im Trakt gegeben. Das solcherart produzierte Signal hat ein breites Freguenzspektrum. Die dem Ort der Entstehung der Turbulenz nachfolgenden Resonanzräume formen das Spektrum.

Formanten_a_e_384px

Die dritte Möglichkeit den Vokaltrakt akustisch anzuregen besteht in der Bildung eines Überdrucks durch einen Verschluss des Vokaltrakts. Der Verschluss kann vorne beginnend mit den Lippen, an verschiedenen Orten stattfinden, er wird dann z.B. labial, dental, palatal usw. genannt. Das Aufreissen des Verschlusses bewirkt eine plötzliche Anregung des Vokaltrakts. Solche Verschlüsse können mit oder ohne gleichzeitige Aktion der Stimmbänder gebildet werden, mit dem Resultat stimmhafter oder stimmloser Plosive.

Schließlich entsteht Flüstersprache, wenn anstelle der vibrierenden Stimmbänder eine Strömung durch eine Verengung, etwa durch die teilweise geschlossene Glottis als Schallquelle aktiviert wird.

Akustisches Modell der Sprachproduktion

Auf der Grundlage des in der vorhergehenden Abschnitten dargerstellten Sachverhalte kann folgendes einfaches funktionales Analogon des Vokaltrakts erstellt werden (Abb.4). Abb.5 zeigt ein einfaches elektrisches Analogon zur Darstellung des Sprachsignals (Green, 1976) . Zwei Energiequellen kommen zum Einsatz. Eine Rauschquelle produziert stimmlose Laute, vergleichbar mit derLuftströmung wie sie bei Verengung des Vokaltrakts erhalten werden kann. Die zweite Quelle, eine Pulskette, liefert ein sehr obertonreiches periodisches Signal, vergleichbar mit dem Glottispuls für stimmhafte Laute. Die jeweilige Quelle, Rauschen oder Pulskette, regt eine Serie von Filtern an, das jedes für sich einen Resonator simuliert. Diese Filter entsprechen den Hauptresonatoren des Vokaltrakts Rachenhöhle, Mundhöhle und Nase. Sie filtern die spektrale Energie, die von der Quelle (Glottis) abgestrahlt wird. Der Output der einzelnen Filter wird aufsummiert und ergibt das abgestrahlte Sprachsignal. Die Mittenfrequenzen der Filter sind so abgestimmt, dass sie den Mittenfrequenzen der ersten 3 Formanten F1, F2, F3 entsprechen. Als weitere Parameter gehen in dieses Modell die Bandbreiten der Filter ein. Ein auf dieses Modell aufbauender Synthesizer könnte mit einer Mindestanzahl von Parametern, nämlich 3 Formantfrequenzen, 3 Formantbreiten, 1 Grundfrequenz und 1 Amplitudenwert eine relativ gute Sprachsynthese für das jeweiligen Datenset liefern. Kontinuierliche Sprachsynthese wäre nur dann zufriedenstellend, wenn die Übergänge zwischen den einzelnen stationären Teilen entsprechend gut gestaltet werden können. Abb.6 zeigt die Funktion des Modells anhand der Wirkung der einzelnen Komponenten im Zeit- und Frequenzbereich:

Vocoder_384px

Methoden der Sprachanalyse

Frequenzanalyse mittels Fast Fourier Transformation

Die Entwicklung der Fast Fourier Transformation durch Cooley und Tukey (1965) hat einen bedeutenden Fortschritt in der digitalen Analyse des Sprachsignals gebracht. War es doch von da an möglich mittels der immer schneller werdenden Hardware große Datenmengen in Echtzeit zu verarbeiten. Der Stand heute liegt bei Rechengeschwindigkeiten, die eine Fourier Transformation weit über Echtzeit ermöglichen. Input ist die digitalisierte Zeitfunktion, Output ist das Amplituden- und Phasenspektrum. Abb. 7 zeigt ein Blockdiagramm.

Das Frequenzspektrum stimmhafter Laute zeigt wie im obigen Beispiel die Amplituden der einzelnen Teiltöne an. Die Enveloppe des Amplitudenspektrums enthält die Resonanzfunktion des Vokaltrakts. Abb.8 (oben) gibt ein praktisches Beispiel für den Vokal „a". Das nicht synchronisierte Fourierspektrum hat den Vorteil, dass nicht für jede Transformation die Grundperiode des Signals definiert werden muss. Um jedoch Diskontinuitäten zwischen den Signalen auf-einanderfolgender Analyseperioden nicht wirksam werden zu lassen, wird im Zeitbereich ein „weich" schaltendes Fenster eingeführt (z.B. Hamming Fenster). Diese Maßnahme ist notwendig weil sonst die steilen Flanken der Signalschnitte das Frequenzspektrum beeinträchtigen würden.

Tonhöhensynchrone Fast Fourier Transformation

Dem Vorteil der nichtsynchronen Transformation steht der Nachteil gegenüber, dass für nicht stabile, sich verändernde Signale eine genaue Synchronisierung zur Zeitfunktion nicht mehr möglich wird, weil über die Dauer des Zeitfensters (20 - 30 ms typisch) gemittelt wird. Das kann für viele Anwendungen, insbesondere für den genauen Vergleich verschiedener Sprachproben mit unterschiedlicher Länge, zu ungenau sein. Aus diesen Grund und um die Impulsantwort des Vokaltrakts (= Resonanz des Vokaltrakts auf einen Glottispuls) zu erhalten, werden Beginn und Ende jeder Grundperiode des Sprachsignals markiert und die FFT für jede Periode gesondert berechnet. Die Vorgangsweise dafür ist in Abb. 9 (unten) darsgestellt:

Cepstrumanalyse

Noll (1964) stellte das erste Mal eine Analysemethode vor, mit deren Hilfe die Grundfrequenz des Sprachsignals extrahiert werden konnte, auch dann wenn sie als Teilton physikalisch im Signal nicht enthalten war (z.B. Telefon). Die Methode ist besonders deshalb interessant, weil sie die Trennung der periodischen Anteile des Sprachsignals (die Grundfrequenz und ihr zugehörige Obertöne) von den aperiodischen (der Enveloppe des Frequenzspektrums = Vokaltraktcharakteristik), ermöglicht. Ferner stößt die Bestimmung von Formantfrequenzen aus dem Kurzzeitspektrum deshalb auf Schwierigkeiten, weil nur im Falle der exakten Übereinstimmung einer Teiltonfrequenz mit der Mittenfrequenz des Formanten das Amplitudenmaximum des zugrundeliegenden Resonators identifiziert werden kann (Abb.10). Die Ceptrumanalyse übernimmt die im Sprachmodell eingeführte Annahme, dass das abgestrahlte Frequenzspektrum ein Produkt aus dem Quellenspektrum und der Resonanzcharakteristik des Vokaltrakts darstellt (Abb.12). Nimmt man nun den Logarithmus des Amplitudenspektrums, so stellt sich dieses Produkt als algebraische Summe dar. Es besteht nun das Problem, die im Log-Sprach-Spektrum additiv verknüpften Prozesse zu trennen. Dazu ein Beispiel: nimmt man ein künstliches Signal an, welches aus zwei Sinustönen verschiedener Frequenz besteht, so sind die beiden Teiltone in der zusammengesetzten Zeitfunktion nicht erkennbar. Nach einer FFT erhält man ein Frequenzspektrum mit zwei Spektralinien an den entsprechenden Frequenzpunkten mit ihren Amplituden. Das selbe Prinzip kann auf unser vorliegendes Problem angewendet werden: fasst man das Log-Frequenzspektrum des Sprachsignals als „Zeitfunktion" auf und führt man es wieder einer FFT (formal einer IFT) zu, so erhält man die FFT einer FFT. Das Spektrum des Log-Spektrums ist eine neue Größe und wird CEPSTRUM genannt (aus SPEC -nach rückwärts gelesen). Die horizontale Achse wird QUEFRENZ (aus: FREQUENZ) genannt, die Einheit ist Zeit (ms). Das Cepstrum liefert bei stimmhaften Signalen eine markante Spitze, die dem „periodischen" Anteil des Frequenzspektrums entspricht (dem regelmäßigen Abstand harmonischer Teiltone) und einen „niederquefrenten" Anteil, der die Resonanzfunktion enthält. Reduziert man das Cepstrum auf diesen „niederfrequenten" Teil (vgl. Abb. 11, digitaler Tiefpass) durch Anwendung eines digitalen Filters und berechnet man von dem verbleibenden Rest die Inverse FT (formal eine FFT), so erhält man den Frequenzgang des Vokaltrakts, das sogenannte „geglättete Spektrum". Daraus können die Formantfrequenzen und -breiten abgelesen werden (Siehe Beilage: Tonhöhensynchrone Ceptrumanalyse).

Literatur

[COO 01] Cooley,J. W. and Tukey, J.W. (1965): An Algorithm for the Machine Calcilation of Complex Fourier Series; Mathematics of Computers, 19, 297.

[DEU 01] Deutsch, Werner A. 1996: Klangfarbe. in: Die Musik in Geschichte und Gegenwart. Allgemeine Enzyklopädie der Musik. Sachteil, Band 5. Kassel et al.: Bärenreiter, pp.138-151.

[DRA 01] Draper, Ladefoged and Witteridge (1959): Respiratory Muscles in Speech; J. Speech & Hearing Research; 2, 16.

[FAN 01] Fant, G. (1970): Acoustic Theory of Speech Production. 2nd printing, Mouton, The Hague, Paris.

[FLA 01] Flanagan, J. L. (1972): Speech analysis, Synthesis and Perception; 2nd. edition, Springer-Verlag, Berlin.

[FUJ 01] Fujimura,O. and Lindquist, J.(1964): The Sinewave Response on the Vocal Tract. Speech Transmission Lab., Quart. Progr. Status Report, No.1, 5-10, Royal Inst. Technology, Stockholm.

[GRE 01] Green, D. H.(1976): An Introduction to Hearing; Lawrence Erlbaum Assoc. Hillsdale, New Jersey.

[NOL 01] Noll, A. M. (1964): Short-time Spectrum and Cepstrum Techniques for Vocal Pitch Detection; Journal of the Acoust. Soc. Am.) 36, 296-302.

[SON 01] Sonesson, B. (1974): The Functional Anatomy of the Speech Organs; in Manual of Phonetics; Malmberg, B. Ed, ist edition, 3rd printing; North-Holland Publishing Comp., Amsterdam