STx Application Notes

This Section provides information on how to use STx:

Der Real Time Analyser analysiert in Echtzeit Soundinputs, die entweder über das Mikrophon oder direkt von gespeicherten Sounddateien bzw. Radio etc. eingespielt werden können.

http://www.kfs.oeaw.ac.at/img/STx/STx-RTA_4.png

Einstieg:

1) Kontrolle der Einstellungen der Soundkarte im eigenen Betriebssystem:

Der RTA läuft mit dem Mixer: lokale Soundkarte

Alle Lautstärkenregler anzeigen, um zu kontrollieren, ob der Ton aktiviert ist.

2) Öffnen des RTA

Wenn ein Signal läuft auf Stop gehen dann Settings öffnen und auf Signal I/O

Auswählen in Record Device Settings zw.:

Microsoft Soundmapper

Lokaler Soundkarte

Dann auf Ok

Settings mit Ok schließen und auf Start drücken.


Variation der Darstellung im RTA:

3 Analysemethoden:

Spectrum: Grafische Darstellung des Ergebnisses der Zerlegung eines akustischen Signals, in die den einzelne Teilfrequenzen zugeordneten Anteile. Horizontalachse: Frequenz in Hz, kHz, Bark; Vertikalachse: frequenzabhängige Schallintensität in dB.

Spektrogramm: Darstellung der Zusammensetzung eines Signals (Klang, Geräusch, Sprache) aus einzelnen Frequenzen im zeitlichen Verlauf. Die Schallintensität wird durch die Farbabstufung vermittelt. Horizontalachse: Zeitachse in Sek.; Vertikalachse: Frequenz in Hz, kHz, Bark.

Waterfall (Wasserfall): 3-dimensionale Darstellung. Horizontalachse: Frequenz in Hz, kHz, Bark; Vertikalachse: Schallintensität in dB; Z-Achse: Zeitachse in Sek.

http://www.kfs.oeaw.ac.at/img/STx/STx-RTA_5_parameter_dialog.png

Frame Length / Overlap:

Je höher die Frame Length, umso langsamer bewegt sich das Bild.

Input Mode:

Channel A, Channel B, Mono, Stereo, Reverse

Run for: Der Real Time Analyser wird nach der entsprechenden Zeit gestoppt, wenn das Kästchen markiert ist (nur im Stop-Modus möglich). Der Wert 0 bedeutet permanenter Durchlauf.

Der Button Default setzt die Durchlaufzeit (Run for) auf die Fensterlänge des RTA fest.

Exp. Average: exponentieller Durchschnittswert. Werte von 0 bis 99% sind möglich. Je höher der Prozentsatz umso langsamer läuft das Bild ab.

Frequency: zu wählende Einheiten: Hz, kHz, Bark

Min/Max: Die zu darstellende minimalen und maximalen Frequenzwerte können ausgewählt werden.

Range: Der Amplitudenbereich kann ausgewählt werden.

Floor: Das unterste Ende des Amplitudenbereiches.

Variationen: Floor (gewählte dB ist die „Nulllinie“) /Range = soviel dB ab der Floorlinie ist der angezeigte Bereich

Bsp: Floor -75db – Range: 60 dB Amplitudenbereich von -75dB bis -15dB


Settings: In den Settings kann die Farbeinstellung der Wiedergabe variiert werden, bzw. die Anzahl der Frames.

Nach Änderungen auf Apply gehen und dann mittels Ok schließen.

Optimale Einstellung: 

  http://www.kfs.oeaw.ac.at/img/STx/STx-RTA_6_settings_dialog.png

The STx-FindFile Tool supports the user to find soundfiles on local and network disk drives. FindFile additionally performs a validity check of the soundfiles found. The result of the search is addet to the workspace of the STx workspace and integrated into the current STx project (DataSet).

Zooming into part of a signal in a viewer is now possible without reanalysing the signal.

The Recorder Setup show PPM bars pecifies the basic parameters, such as sampling frequency, mono/stereo, word length, maximum signal duration etc. in the left section of the dialog. Read more: Extended Recorder Setup for Online Signal Segmentation. 

S_TOOLS-STx provides a 2-channel Real Time Analyser to be called either as a stand alone application  in MS Windows NT/2000 and additionally in combination with the STx-Recorder in MS Windows XP and Vista/7. The STx RTA offers the following functions:

  • FFT-Amplitude Spectrum (STFT), Waterfall display and Spectrogram
  • Linear Prediction Coding (LPC) - smoothed  spectrum,  Waterfall display and Spectrogram
  • Cepstrum smoothed spectrum , Waterfall display and Spectrogram
  • Display amplitude spectrum minus Cepstrum smoothed spectrum (cp & sp.-cp).  
  • Display amplitude spectrum channel A and channel A-B
  • Linear and BARK frequency scaling
  • Selection of FFT-frame length (frequency resolution) and overlap (hopsize) over large ranges
  • Linear and Exponential Spectrum Averaging
  • Waveform display.

STx provides a Spectrogram and Signal Parameter viewer for frequency analysis, signal parameter extraction, visualization, labelling and annotation of sound data in the frequency domain, narrow segmentation (phonetic transcription, Unicode) and sound segment audio reproduction. For Segmentation in the time domain domain see also Waveform Display.

STx provides a waveform viewer Waveform Plot and Segmentation, for visualization, labelling and annotation of sound data in the time domain, narrow segmentation (phonetic transcription, Unicode) and sound segment audio reproduction. For Segmentation in the frequency domain see also Spectrogram.

Sound segments are defined by a SegmentName (ID), SegmentStartAddress and Segment Duration within a soundfile. The SegmentStartAddress is relative to the beginning of the soundfile, and the SegmentDuration begins at the SegmentStartAddress. Alternatively the SegmentEndAddress can be specified.

Assuming, you want to concatenate arbitrary sound segments from one or more soundfiles in consecutive order into one or more already existing soundfiles:

  • Open the sound segment list of the source file by selecting the file from the filelist of the STx-Workspace.
  • Just copy and paste (Ctrl+C/Ctrl+V) the selected sound segment(s) from the segment list into the segment list of the destination soundfile. Multiple selections from the STx segment list of a source soundfile are possible.

Note: The destination soundfile must already exist in the STx-soundfile list. Sampling rate and sample word length of source files(s) and destination soundfile(s) have to be compatible. Channels have to be specified.

  • Copied sound segments will automatically be appended at the end of the destination soundfile.

Note: Segment annotations are taken over from the segment list of the source file(s). 

For further options of signal and segment manipulation see STx Sequencer

Several software products, such as MS Power Point, accept *.wav files to be reproduced in presentations. In order to make STx sound segments available for that purpose the Export to Soundfile function is provided. Select the appropriate sound segment and open the pop up dialog by right mouse click and select Export→Export to Soundfile.

Export Metadata (Ctrl+M) saves the metadata for the selected file to disk.

Note that you can use the export.sts toolbox to export multiple segments to disk in the format <soundfile>.<segment>.wav 

Upcoming Events

Improving speech technology with the open source VOiCES dataset

ARI guest talk by Michael R. Lomnitz

19. September 2019

14.30

Seminar Room, Wohllebengasse 12-14 / Ground Floor

Read more ...
 

SSW10

The 10th ISCA Speech Synthesis Workshop

20. - 22. September 2019

Vienna, Austria

 

News