Multimediale Werkzeuge, Audio: Formate, Tools

Transcrição

Multimediale Werkzeuge, Audio: Formate, Tools
Multimediale Werkzeuge, Audio: Formate, Tools
-Sound/Audio Objekte
Formate, Beispiele:
- Mp3 (Kurz für MPEG1/2 Layer 3)
- PCM (z.B. Wave Datei), übliche Formate:
CD: 44100 HZ Abtastrate, 16 Bits/Abtastwert.
-> Maximale Frequenz des Audio-Signals < 22050 Hz
praktisch: < ca. 20-21 kHz wegen begrenzter
Flankensteilheit der Rekonstruktions-Tiefpass Filter.
-> Signal-to-Noise Ratio = Signal/Noise
(hier : Max. Signal / Noise). Schätzung: SNR = 6 dB/bit,
also SNR = 16 * 6 dB= 96 dB
d.h.: ist unabhäng von der Wahl von
Leistung oder Spannung für Signal oder Noise.
Beispiel: Umrechnung der 96 dB in Spannungsverhältnis:
weitere gebräuchliche Formate:
Abtastfrequenzen: 32000 Hz, 22050 Hz, ca. 11000 Hz (Apple),
8000 Hz (Sprache, < 3.5 khz Audio), 48 kHz, 96kHz. 192 kHz (High
quality Audio)
Anzahl der Bits/Abtastwert: 8bit, 20 bit, 24 bit, 32 bit
|
Sprache
Für Sprache gebräuchlich: mu-Law: Ungleichförmiger
Quantisierer, um das SNR bei kleinen Signalen zu verbessern:
Feine Schritte bei kleiner Amplituden, gröbere Schritte bei großen
Amplituden.
-> SNR sinkt nicht mehr wesentlich bei kleinen Amplituden.
Z.B. mu-Law bei 8 KHz und 8 bit / Abtastwert
|
wichtig wegen geringem SNR
-> Verwendung z.B. in ISDN Telefonen
D.h. Bitrate (Bits/Sekunde):
Bitrate CD Signal:
Bitrate
Kompressionsrate von MP3: Bitrate für einen
Monokanal: Z.B. 64 Kb/s
Also: Kompressionsrate =
Dh. wir bekommen auch erhebliche Kompression bei
MP3 (nicht nur ein Format!)
Mehr Audio Formate, Tools wie Adobe Audition
PCM:
Signal, z.B. vom Mikrofon
quantisierte
Abtastwerte,
z.B. CD: 44 100 Abtastwerte (AW) pro Sekunde
16 bit -> 2 byte
-> 2 Möglichkeiten, diese 16 bit/ 2 byte pro AW darzustellen!
Es gibt verschiedene Rechnerarchitekturen, die intern
16 bit mit zuerst dem höherwertigen byte oder
dem niederwertigen byte darstellen.
Entsprechend gibt es 2 Darstellungen für PCM
Audio-Formate:
- sog." Little Endian": Das 2. byte ist das niederwertige
- sog." Big Endian": Das 2. byte ist das höherwertige.
Diese Information muß der Nutzer kennnen wenn das
Audio-Signal im sog. "raw" Format vorliegt, d.h.
wenn das File nur die AW des Signals enthält.
-> Für diese Information sind die sog. "Header"
in Audio-Formaten nützlich, wie z.B. in:
.au, .snd (SUN), .aif (Apple), wav...
Information in Header, u.a.: Little-Endian oder
Big-Endian, Abtastrate, Bits pro AW,
Lineare ode mu-Law Kennlinie, Verwendung von
Kompression, wie z.B. ADPCM...
Weiter: einfache Kommentare zum Inhalt.
ADPCM: Adaptive Differential Pulse Code Modulation.
-Prinzip: Benachbarte AW sind meist sehr ähnlich, d.h. wir können
Bits bei der Darstellung sparen, wenn wir nur die Differenz zum
vorherigen Abtastwert übertragen oder speichern (daher "Differential")
-Nächster Schritt:
Wenn die AW z.B. auf einer Kurve Liegen, die durch eine Grade
angenähert werden kann, können wir den nächsten Abtastwert
ungefähr
vorausberechnen oder schätzen ( Extrapolation der Graden),
und die Differenz zum vorausberechneten Wert übertragen.
Der Empfänger führt die gleiche Vorausberechnung durch, und addiert
diese Differenz darauf.
Das Verfahren kann erweitert werden auf Kurven, auch höherer
Ordnung. Dafür werden nur mehr AW aus der Vergangenheit benötigt,
um diese Kurven extrapolieren zu können.
Dieses Verfahren der Extrapolation wird
"Prädiktion" genannt.
ADPCM Prinzipstruktur
Encoder
Audio
Verzögerungsglied
für 1 AW, d.h. Prädiktor
"sieht" nur vergangene AW!
Decoder
Prädiktionsfehler
Prädizierter
Wert
wird an das
Signal adaptiert
Üblicher Kompressionsfaktor von ADPCM: Ca. 2
Stereo, Multikanal
Mikrofone
Lautsprecher
Woher bestimmt das menschliche Gehirn die Richtung
eines Schallereignisses?
Antwort:
-Laufzeitunterschiede/Phasendifferenzen zwischen
den Ohren, bei Frequenzen unterhalb ca. 1 kHz.
-Pegelunterschiede zwischen den Ohren
(Paning), intensity stereo.
Intensity Stereo ist weit verbreitet, weil es für
die Produktion einfach ist (Lautstärkeunterschiede
durch Regler), und weil es für die Übertragung
vorteilhaft ist: keine Phasenunterschiede, d.h.
Differenzen werden gering.
- Simples verfahren, z.B. in MP3 verwendet:
statt Links/Rechts wird Summe (Mitte) und
Differenz (Seite) übertragen, wenn es vorteilhaft ist,
ansonsten wird Links/Rechts getrennt übertragen.
- Verfeinerung: Anwendung dieses Verfahrens auf
sog. Teilbänder, also versch. Frequenzbereiche.
(Z.B. in MPEG2/4 AAC)
Neuere Kompressionsformate
-MPEG2/4 AAC (Advanced Audio Coding)
gedacht als Nachfolger von MP3.
Kompressionsrate ca. 1.5..2 größer als MP3
Verwendung z.B. in Apple iTunes, Handys...
-MPEG4: Lossless Audio Coding,
Verlustlose Komprimierung, d.h. die Original
AW werden nach der Decodierung
wieder hergestellt.
Dies ist anders als bei der verlustbehafteten
Codierung (MP3, AAC), wo das rekonstruierte
Signal gleich klingt, aber andere AW hat.
(unperfektheitenen des Ohres, Psycho akustik)
Kompressionsfaktoren von Lossless Compression
sind abhängig vom Signal, meist um Faktor 2.
-MPEG 4 Scalable Lossles: Deckt Bereich von
Lossless bis Perceptual Coding (AAC) ab,
also Kompressionsraten von Ca. 2 bis über 10!
Anwendungen: Archivierung, Studios mit
Bearbeitung des Signals und mehreren
Codier/Decodier Schritten.
(Tandem Coding Problem des Perceptual Coding,
mit jedem Codier/Decodier-Schritt verschlechtert sich
die Qualität)
Durch höhere Bitrate bekommen wir "Reserve".
Bearbeitung (z.B. Adobe Audition, Audacity)
Filter, Equalizer,
ändern der Abspiel-Geschwindigkeit ohne Tonhöhenänderung
(Verwendung sog. Filterbänke)
N Frequenzbereiche
x(n)
y(n)
Eingang
Ausgang
Inputsantworten der Filter
Verringerung der Abtastrate
um Faktor r, also schnelleres Abspielen
->Tonhöhe bleibt durch die Teilband-Zerlegung konstant.
-Weitere Möglichkeit der Verarbeitung:
statt Downsampler wird ein Verstärkungs- oder Dämpfungs-Faktor
eingebaut.
-> Wir bekommen einfach wählbare Filter oder Equalizer

Documentos relacionados