artigo de divulgação sobre mp3 - Multimedia Signal Processing

Transcrição

artigo de divulgação sobre mp3 - Multimedia Signal Processing
MP3: UMA HISTÓRIA DE SUCESSO
João Araújo (N.º 52443), Tiago Rebelo (N.º 52152) e Walid Karam (N.º 52174)
Instituto Superior Técnico
Av. Rovisco Pais, 1049-001 Lisboa, Portugal
E-mail: [email protected], [email protected], [email protected]
tecnologia. Assim, parece uma opção óbvia a escolha desta
ferramenta de compressão áudio como tema deste artigo,
realizado no âmbito da disciplina de Comunicação de Áudio
e Vídeo, leccionada no Instituto Superior Técnico sob
regência do Professor Fernando Pereira.
O MP3 (ou MPEG1, Audio Layer 3) é a parte de áudio
da norma de compressão de vídeo definida pelo Moving
Pictures Experts Group (MPEG). Desenvolvida na
Alemanha, esta norma permite comprimir ficheiros de áudio
com uma muito reduzida perda em termos de qualidade [2].
Neste artigo, após se fazer um breve resumo histórico,
tenta-se explicar, de forma sucinta mas completa, as
questões técnicas por detrás do MP3. Seguidamente, abordase o porquê do sucesso, rápida implementação e impacto
sociológico desta tecnologia, sem fugir às complexas
questões legais que levantou. Finalmente, mostram-se
algumas das muitas hipóteses de reprodução do MP3 e
lançam-se algumas pistas relativamente ao seu futuro.
RESUMO
Este artigo tem como objectivo abordar o MP3 de uma
forma que, embora sucinta, consiga não só explicar as
questões técnicas mais relevantes, como fazer perceber o
caminho que o MP3 percorreu até se tornar na norma de
compressão de áudio digital mais conhecida, além de dar
uma ideia do impacto que tem na sociedade.
Começada ser desenvolvida em 1987, na Alemanha, a
norma MPEG1, Audio Layer 3 só em 1999 atingiu a
“velocidade cruzeiro” que lhe permitiu granjear o sucesso
que hoje todos lhe reconhecem.
O processo de codificação do MP3 transforma áudio
PCM em áudio com elevada qualidade, mas com tamanho
significativamente menor. O processo de descodificação faz,
obviamente, o contrário: pega na sequência de bits
codificada para apresentar na saída áudio PCM.
Não obstante o enorme sucesso e impacto social, o
MP3 levantou – e continua a levantar – algumas questões
legais, como o facto de ser o formato preferido para a
distribuição e download ilegal de música.
Actualmente, encontram-se inúmeros leitores de MP3 à
venda, a preços variados, garantindo que o MP3 ainda terá
uns anos de sucesso à sua frente, apesar de já ter
concorrência de normas tecnologicamente superiores.
2. HISTÓRIA
Em 1987, o centro de investigação Fraunhofer Institut
Integrierte Schaltungen, em Erlangen, Alemanha, começou
a investigar a codificação de áudio de alta qualidade a baixo
débito binário, num projecto denominado “EUREKA Project
EU147, Digital Audio Broadcasting” [3]. Dois anos depois,
o instituto Fraunhofer recebeu uma patente alemã para o
MP3 e, em 1992, foi integrado na norma MPEG1. Mais
tarde, a 7 de Julho de 1994, a Fraunhofer Society lançou o
primeiro software de codificação MP3 denominado l3enc.
Em Julho de 1995 a extensão .mp3 foi aprovada pela equipa
do Fraunhofer Institut, que antes utilizava a extensão .bit
[4]. Em 1996, foi a vez dos Estados Unidos emitirem uma
patente para o MP3.
Esta pequena resenha histórica não está completa sem
se referir três momentos determinantes para o sucesso do
MP3: primeiro, em 1997, um investigador da Advanced
Multimedia Products, Tomislav Vzelac, criou o “AMP MP3
Playback Engine”, que é considerado o primeiro reprodutor
de MP3 de sucesso; pouco tempo depois, Justin Frankel e
Dmitry Boldyrev pegaram no AMP Engine, adicionaram-lhe
uma interface tipo Windows e chamaram-lhe Winamp; em
1998, este software foi disponibilizado gratuitamente, sendo
um dos responsáveis pela massificação do MP3 [5]. Em
1999 surgiu o Napster, que permitiu que qualquer pessoa
Index Terms — MP3, MPEG, Compressão, Áudio,
Fraunhofer
1. INTRODUÇÃO
Hoje em dia, a maioria das pessoas está ciente que a Internet
está a introduzir grandes mudanças na indústria
discográfica, no sentido em que proporciona, facilmente e a
muito baixo custo, a possibilidade de distribuição e
download de áudio.
No entanto, a distribuição, via Internet, de áudio com
toda a qualidade que o CD oferece, coloca um conjunto de
problemas, uma vez que requer o processamento de uma
grande quantidade de dados a uma frequência de
amostragem de 44.1 kHz [1]. É aqui que a tecnologia de
compressão de áudio ganha uma importância assinalável. O
MP3, pela sua sólida implementação a nível global e quase
omnipresença na sociedade, é o principal representante desta
1
com acesso à Internet pudesse encontrar e descarregar
qualquer tipo de música que desejasse. Também em 1999
apareceram os primeiros leitores de MP3 portáteis. Estava
em curso a grande revolução criada pelo MP3 que permitiu
a qualquer um obter ficheiros neste formato de forma
simples e poder reproduzi-los, seja em casa, no trabalho ou
mesmo fora de portas, graças aos leitores portáteis, entre
vários outros locais possíveis e imagináveis. De facto, a
revolução foi de tal ordem, que em poucos anos de
existência este formato já se encontrava presente em
milhões de computadores em todo o mundo. Com tamanha
popularidade, o formato MP3 passou a constituir uma
ameaça ao monopólio das indústrias discográficas que se
insurgiram contra aqueles que faziam a codificação e
disponibilização de músicas neste formato.
No algoritmo MP3 ISO (International Organization for
Standardization), o quantificador é não uniforme. A fórmula
(1) faz o pré - ênfase do frame a ser descodificado de modo
a aumentar o SNR (ao minimizar a atenuação e saturação), e
a fórmula (2) a sua amplificação,
x' f . g (i) = x f . g (i ) × 2
x' ' f . g (i) = x' f . g (i) × 2
(1+ z )× P ( bi )
(1+ z )×C ( bi )
(1)
(2)
em que g representa o grânulo, f é o frame a ser
quantificado, bi o factor de escala na banda da i-ésima linha
espectral, z determina se os factores de escala são
quantificados de modo logarítmico com um passo de 2 ou
2 , P(bi) é a tabela de pré – ênfase definida em (3), como
se mostra de seguida, e C(bi) obtém o factor de escala da
banda bi.
Então, xf.g(i) é quantificado pelo seguinte quantizador
não-uniforme:
3. IMPLEMENTAÇÃO TÉCNICA
3.1. Codificação
A figura 1 representa um diagrama de blocos do processo de
codificação do formato MP3. A entrada de áudio é
transformada frame por frame em componentes espectrais
através do mapeamento tempo - frequência. No bloco de
transformação híbrido, o MP3 emprega um filtro polifásico
seguido pelo DCT modificado, de modo a aumentar a
resolução espectral e as componentes são agrupadas em
bandas de diferentes factores de escala. Simultaneamente, o
sinal de áudio entra no Modelo Psicoacústico II (PAM II)
para determinar o limiar de rácio de energia de sinal com o
intuito de fazer um mascaramento de cada banda de factor
de escala.
y f . g (i ) = n int{(
| x' ' f . g (i ) |
2(δ +q ) / 4
) 07.5 − 0.0946}
(3)
em que nint é uma função que faz um arredondamento, q é o
limite inferior do parâmetro de quantização e δ é uma
variável incremental.
A Figura 2 representa o ciclo de controlo de débito
(também denominado por ciclo de iteração interna).
Figura 1 – Bloco de codificação de MPEG [6].
A codificação da sequência de bits é comandada pelo
controlador de débito, que varia o quantificador de forma
ordenada, quantifica os valores espectrais e conta o número
de bits do código de Huffman necessário para codificar os
valores. A codificação de Huffman é escolhida como a
ferramenta codificadora sem perdas, recorrendo às tabelas
pré - definidas. O MP3 também adapta os factores de escala
para amplificar a energia da banda espectral, no caso em que
o ruído de quantificação excede o limiar de mascaramento.
O controlo de distorção ajusta os factores de escala de modo
a comandar a qualidade e, por fim, a informação pedida pelo
descodificador é unida com o áudio comprimido para
resultar num conteúdo de MP3 válido.
Figura 2 – Controlo de débito no ciclo iterativo [6].
Este ciclo atribui bits a cada linha espectral, através de uma
quantificação de informação de áudio, explícito em (3). O
desafio é encontrar um parâmetro quantificador óptimo
(também denominado por ganho global), bem como
escolher uma tabela de Huffman apropriada. Uma técnica
iterativa é aplicada de modo a obter os parâmetros
optimizados para um valor inicial, determinado pela medida
2
A redução dos blocos de aliasing 2 põe mais
componentes nos coeficientes desquantificados, de forma a
obter uma reconstrução correcta da análise do filtro de subbanda. Logo, a DCT Inversa Modificada transforma os
coeficientes em sinais de sub-banda no domínio do tempo.
Aplica-se a inversão de frequência para compensar a
redução do número de amostras usado na análise do filtro de
sub-banda. Depois, um filtro de sub-banda sintetizado é
aplicado aos sinais para resultar na saída de áudio PCM.
de spectral flatness 1 . São testadas muitas iterações no
processo de quantificação de modo a assegurar uma saída
dentro dos limiares da codificação de Huffman.
3.2. Descodificação
O processo de descodificação de MP3 consiste em três
fases: descodificação de sequência de bits, desquantificação
e mapeamento frequência – tempo, como está ilustrado de
seguida, na figura 3.
4. O PORQUÊ DO SUCESSO E O IMPACTO
SOCIOLÓGICO
O MP3 tem tido o sucesso que se conhece em grande parte
graças à distribuição online de música: os consumidores
passaram a pensar no MP3 como “CDs na Internet” ou, em
muitos casos, “CDs grátis na Internet” [7].
Depois surgiram os primeiros leitores portáteis de MP3,
o que levou a que qualquer pessoa pudesse escolher entre
um grande número de músicas sem ter que transportar os
CDs consigo. Isto criou um ciclo: mais produtores de
conteúdos criam conteúdos em MP3, o que conduz a uma
procura de software e hardware MP3 cada vez maior.
Além disso, o MP3 tinha uma grande vantagem em
relação a outras normas concorrentes (que, em alguns casos,
até eram mais eficientes): os detentores originais da patente
permitiram, durante algum tempo, que qualquer pessoa
desenvolvesse
um
descodificador
ou
reprodutor
gratuitamente.
O fenómeno MP3 tornou-se revolucionário não só
devido às suas características específicas como ao impacto
sociológico (e económico) que teve. Quem é que hoje em
dia não tem um leitor de MP3, por mais simples ou
complexo que este seja? Quem nunca viu alguém no metro,
no autocarro, ou mesmo a fazer jogging, enquanto ouve
música de um leitor MP3? O impacto tecnológico que o
MP3 teve na sociedade pode-se assemelhar ao impacto que
o telemóvel, a televisão ou mesmo o próprio rádio tiveram
em tempos anteriores. Poder-se fazer o download de um
modo completamente simples, e “construir” a sua biblioteca
musical em formato digital de um modo extremamente
simples seria impensável antes da existência do formato
MP3, que abriu as portas a um mundo novo, com a
intervenção directa dos utilizadores.
Figura 3 – Bloco de descodificação de MPEG/3ª Camada [6].
A primeira fase sincroniza a sequência de bits
codificado e outras informações acerca de cada frame. A
figura 4 apresenta o diagrama de blocos detalhado.
Figura 4 – Descodificação de bitstream [6].
A segunda fase, ou processo de desquantificação,
reconstrói os coeficientes de frequência gerados pelos
blocos de DCT modificado durante a codificação. O cálculo
de desquantificação é baseado na saída de descodificação de
Huffman e na informação do factor de escala, em que S(i)
representa o sinal do bit de yf.g(i), wi é o short-block window
da i-ésima linha espectral correspondente e Δs(wi) é o seu
ganho, como se apresenta em (4).
Δ f . g −8 Δ s ( wi )
x f . g (i ) = (−1) s ( i ) × y f . g (i ) 4 / 3 ×
2
2
4
(1+ z )( C ( bi ) + P ( bi ))
5. QUESTÕES LEGAIS
(4)
5.1. O download ilegal
A última fase é constituída por uma série de operações
invertidas do DCT Modificado e da análise do filtro de subbanda no codificador. O mapeamento frequência – tempo
resulta na saída de áudio PCM a partir dos coeficientes
desquantificados.
O formato MP3 surgiu na década em que um meio de
comunicação de enorme potencial e em ascensão se estava a
propagar por todo o mundo, denominado Internet. As duas
potencialidades aliadas constituíram, a partir de meados da
2
Aliasing – sinais diferentes contínuos tornam-se indistinguíveis
ao serem amostrados a frequências diferentes.
1
Spectral Flatness – Medida utilizada para caracterizar o espectro
de audição. Se for elevada, a potência é semelhante em todas as
bandas, caso contrário, concentra-se num número inferior.
3
década de 90 (1995), uma enorme revolução no mundo da
música, uma vez que se tornava possível a troca de ficheiros
áudio com tamanhos muito reduzidos em relação ao formato
CD e com uma qualidade muito semelhante. Essas
características potenciaram ao aparecimento de programas
cuja função era a partilha e distribuição de ficheiros de
música no formato MP3, tais como o Napster, imesh,
Kazaa, Limewire, Bearshare, Gnutella, Audiogalaxy entre
outros. O movimento de ficheiros MP3 através da Internet
teve um aumento exponencial muito devido aos programas
anteriormente referidos, tendo assim passado a ser
extremamente fácil reproduzir, criar, partilhar e obter
ficheiros de música. Tudo isto decorria um pouco à margem
da lei, uma vez que não existia legislação adequada para tal.
Algo que viria a ser alterado, fruto da pressão de alguns
músicos e da indústria discográfica, devido à violação dos
direitos de autor, uma vez que enquanto que o download de
ficheiros não é ilegal, a distribuição de ficheiros de música
sem autorização constitui uma infracção à lei. Foram
desencadeadas várias acções sobre os programas de partilha
de ficheiros MP3, resultando no encerramento de muitos
sites de partilha, sendo que, aquele que foi mais mediatizado
foi o caso Napster, tendo-se visto obrigado a encerrar, e a
alterar o seu formato de partilha. No entanto, a indústria
discográfica sabia que estava a enfrentar uma batalha
perdida. No caso americano, a Recording Industry
Association of America (RIAA) procurou soluções para se
adaptar à revolução que se estava a dar no meio musical,
tendo para tal criado um grupo de trabalho, em finais de
1998, denominado Secure Digital Music Initiative (SDMI)
de modo a explorar alternativas tecnológicas ao formato
MP3 para a protecção contra a duplicação de ficheiros e
distribuição em massa. No entanto, essa alternativa revelouse um fracasso tendo a iniciativa cessado funções em 2001.
Actualmente existem distribuidores de música em
formato digital, tais como o iTunes, que têm ficheiros que
suportam DRM (Digital Rights Management), ferramenta
que permite controlar as infracções aos direitos de autor,
havendo no entanto métodos que podem ultrapassar essas
protecções. Existem também, pela Internet, distribuidores de
ficheiros MP3 em que o download de ficheiros é feito
mediante o pagamento individual de cada ficheiro,
tornando-se mais prático para os consumidores e
beneficiando os artistas, uma vez que o custo de colocar
online os ficheiros MP3 é muito mais reduzido do que
recorrendo a uma companhia discográfica.
codificadores, e que os produtos não licenciados infringiam
os direitos sobre a patente do Instituto Fraunhofer e da
Thomson Consumer Electronics (entidade que controla o
licenciamento da patente do MPEG-1/2 Layer 3 em alguns
dos países que reconhecem patentes de software, tais como
Estados Unidos da América, Japão, Canadá e alguns países
da União Europeia), pelo que seria necessário obter uma
licença de modo a poder produzir, vender e/ou distribuir
produtos utilizando o padrão MPEG-1/2 Audio Layer 3.
Tal iniciativa veio provocar um abrandamento do
desenvolvimento da tecnologia do MP3 sem licenciamento,
levando à necessidade de promover novos formatos
realmente livres, tais como o WMA e o Ogg Vorbis.
Apesar das restrições colocadas, o formato MP3
continua a ser o preferido por diversas razões:
• Familiaridade com o formato;
• A enorme quantidade de ficheiros de música
disponível em formato MP3;
• A grande variedade existente de software e
hardware que tem como base o formato MP3;
• Fraca restrição por parte do DRM, o que torna fácil
a edição, cópia e distribuição dos ficheiros.
7. LEITORES DE MP3
Inicialmente os ficheiros MP3 apenas podiam ser lidos
através de programas instalados no computador como o
Winamp (ver figura 5), o FreeAmp, MusicMatch Jukebox,
QuickTime, entre outros. Com a sua proliferação pela
Internet, tornou-se necessário produzir leitores portáteis que
suportassem o formato do MP3, dadas as enormes vantagens
que isso poderia trazer: o facto de poder transportar uma
maior quantidade de músicas, com qualidade semelhante
num espaço físico mais reduzido que os leitores de cassetes
ou de CDs que dominavam o mercado do género. Os
primeiros leitores surgiram em finais dos anos 90, com o
MPMan F10 da Eiger Labs, o Rio da Diamond Multimedia e
o Nomad da Creative. O seu aparecimento não foi de todo
pacífico, uma vez que surgiram pressões por parte da
indústria discográfica para que não fossem lançados no
mercado.
5.2. Licenças e Patentes
Figura 5 – Leitor MP3 Winamp.
Outra questão pertinente que foi levantada teve a ver com os
direitos de utilização da tecnologia MP3. Em Setembro do
ano de 1998, o Instituto Fraunhofer, a casa mãe do MP3,
enviou comunicados a diversos criadores de programas
MP3, exigindo a cobrança de royalties por essa patente. O
comunicado informava que o licenciamento era necessário
para a distribuição e/ou venda de descodificadores e/ou
Hoje em dia os aparelhos portáteis de leitura do formato
MP3 estão perfeitamente integrados no mercado, havendo
um variado leque de escolhas. Desde o aspecto visual até à
capacidade do próprio leitor, tendo maior ou menor espaço
de armazenamento e autonomia, entre outras opções, tais
4
como a de receptor de rádio. Os leitores mais populares são
o iPod (ver figura 6) da Apple (que pode ser adquirido a um
preço que vai dos 80€ aos 380€, aproximadamente) o Zen da
Creative (que podem ser encontrados a preços que rondam
os 70€ até aos 220€, dependendo do modelo), a nova versão
Walkman MP3 da Sony (entre os 50€ e os 170€, dependendo
do modelo) entre outros que podem ser encontrados a preços
inferiores, dependendo das possibilidades de cada um.
Actualmente os leitores portáteis não se limitam apenas a
poder reproduzir os ficheiros de música em formato MP3,
tendo outras funcionalidades, tais como a visualização de
vídeo, imagem e armazenamento de dados.
9. REFERÊNCIAS
[1] S.H. Oh, W.J. Yoon, Y.H. Cho, K.S. Park, “A new spectral
enhancement algorithm in MP3 audio”, IEEE, pp. 285-286,
2006.
[2] M. McCandless, “The MP3 Revolution” IEEE Intelligent
Systems, pp. 8–9, May/June 1999.
[3] http://inventors.about.com/od/mstartinventions/a/mpthree.htm
[4] Wikipedia - http://en.wikipedia.org/wiki/Mp3
[5] http://www.webmonkey.com/00/31/index3a.html
[6] C.H. Yen, Y.S. Lin, B.F. Wu, “A low-complexity MP3
algorithm that uses a new rate control and a fast
dequantization”, IEEE Transactions on Consumer Electronics
Vol. 51 Nº2, pp. 571-579, May 2005
[7] B. Ponce, “The Impact of MP3 and the Future of Digital
Entertainment Products”, IEEE Communications Magazine,
pp 68-70, Sept 1999.
Figura 6 – Leitor MP3 iPod.
8. FUTURO
Neste momento já há vários formatos tecnologicamente
superiores ao MP3. Tanto o AAC como o Ogg Vorbis
conseguem qualidade superior ao MP3 quando comparados
a idêntico débito binário. Inclusivamente, o AAC (que foi
desenvolvido com a cooperação de companhias como
Dolby, Fraunhofer, AT&T, Sony e Nokia e já foi
reconhecido pelo MPEG como uma norma internacional) já
começa a estar bem implementado em alguns meios: é
usado, por exemplo, no iTunes e iPod da Apple e é a norma
padrão usada na Playstation 3 da Sony. No entanto, para a
grande maioria do público-alvo desta tecnologia, nem AAC
nem Ogg Vorbis devem ser expressões que tenham,
actualmente, muita notoriedade, ao contrário de MP3, que,
provavelmente, todos conhecem.
A explicação para isto reside no facto de, quando as
pessoas se habituam a determinada tecnologia,
especialmente com a penetração que o MP3 conseguiu, só
mudam se surgir uma nova oferta com um grande valor
acrescentado [7]. Caso contrário, os consumidores resistem
à mudança.
Talvez por isso, ainda hoje se encontram artigos de
investigação que propõem não alternativas ao MP3, mas
antes formas de melhorar esta tecnologia [1, 6].
5

Documentos relacionados

Author Guidelines for 8 - Multimedia Signal Processing Group, IT-Lx

Author Guidelines for 8 - Multimedia Signal Processing Group, IT-Lx algo diferente dos anteriores. Depois de realizada a MDCT, o sinal é decomposto em 2 componentes a fim de calcular o erro a introduzir (Figura 7). Depois de cada bloco de dados ser comprimido, vai ...

Leia mais