artigo de divulgação sobre mp3 - Multimedia Signal Processing
Transcrição
artigo de divulgação sobre mp3 - Multimedia Signal Processing
MP3: UMA HISTÓRIA DE SUCESSO João Araújo (N.º 52443), Tiago Rebelo (N.º 52152) e Walid Karam (N.º 52174) Instituto Superior Técnico Av. Rovisco Pais, 1049-001 Lisboa, Portugal E-mail: [email protected], [email protected], [email protected] tecnologia. Assim, parece uma opção óbvia a escolha desta ferramenta de compressão áudio como tema deste artigo, realizado no âmbito da disciplina de Comunicação de Áudio e Vídeo, leccionada no Instituto Superior Técnico sob regência do Professor Fernando Pereira. O MP3 (ou MPEG1, Audio Layer 3) é a parte de áudio da norma de compressão de vídeo definida pelo Moving Pictures Experts Group (MPEG). Desenvolvida na Alemanha, esta norma permite comprimir ficheiros de áudio com uma muito reduzida perda em termos de qualidade [2]. Neste artigo, após se fazer um breve resumo histórico, tenta-se explicar, de forma sucinta mas completa, as questões técnicas por detrás do MP3. Seguidamente, abordase o porquê do sucesso, rápida implementação e impacto sociológico desta tecnologia, sem fugir às complexas questões legais que levantou. Finalmente, mostram-se algumas das muitas hipóteses de reprodução do MP3 e lançam-se algumas pistas relativamente ao seu futuro. RESUMO Este artigo tem como objectivo abordar o MP3 de uma forma que, embora sucinta, consiga não só explicar as questões técnicas mais relevantes, como fazer perceber o caminho que o MP3 percorreu até se tornar na norma de compressão de áudio digital mais conhecida, além de dar uma ideia do impacto que tem na sociedade. Começada ser desenvolvida em 1987, na Alemanha, a norma MPEG1, Audio Layer 3 só em 1999 atingiu a “velocidade cruzeiro” que lhe permitiu granjear o sucesso que hoje todos lhe reconhecem. O processo de codificação do MP3 transforma áudio PCM em áudio com elevada qualidade, mas com tamanho significativamente menor. O processo de descodificação faz, obviamente, o contrário: pega na sequência de bits codificada para apresentar na saída áudio PCM. Não obstante o enorme sucesso e impacto social, o MP3 levantou – e continua a levantar – algumas questões legais, como o facto de ser o formato preferido para a distribuição e download ilegal de música. Actualmente, encontram-se inúmeros leitores de MP3 à venda, a preços variados, garantindo que o MP3 ainda terá uns anos de sucesso à sua frente, apesar de já ter concorrência de normas tecnologicamente superiores. 2. HISTÓRIA Em 1987, o centro de investigação Fraunhofer Institut Integrierte Schaltungen, em Erlangen, Alemanha, começou a investigar a codificação de áudio de alta qualidade a baixo débito binário, num projecto denominado “EUREKA Project EU147, Digital Audio Broadcasting” [3]. Dois anos depois, o instituto Fraunhofer recebeu uma patente alemã para o MP3 e, em 1992, foi integrado na norma MPEG1. Mais tarde, a 7 de Julho de 1994, a Fraunhofer Society lançou o primeiro software de codificação MP3 denominado l3enc. Em Julho de 1995 a extensão .mp3 foi aprovada pela equipa do Fraunhofer Institut, que antes utilizava a extensão .bit [4]. Em 1996, foi a vez dos Estados Unidos emitirem uma patente para o MP3. Esta pequena resenha histórica não está completa sem se referir três momentos determinantes para o sucesso do MP3: primeiro, em 1997, um investigador da Advanced Multimedia Products, Tomislav Vzelac, criou o “AMP MP3 Playback Engine”, que é considerado o primeiro reprodutor de MP3 de sucesso; pouco tempo depois, Justin Frankel e Dmitry Boldyrev pegaram no AMP Engine, adicionaram-lhe uma interface tipo Windows e chamaram-lhe Winamp; em 1998, este software foi disponibilizado gratuitamente, sendo um dos responsáveis pela massificação do MP3 [5]. Em 1999 surgiu o Napster, que permitiu que qualquer pessoa Index Terms — MP3, MPEG, Compressão, Áudio, Fraunhofer 1. INTRODUÇÃO Hoje em dia, a maioria das pessoas está ciente que a Internet está a introduzir grandes mudanças na indústria discográfica, no sentido em que proporciona, facilmente e a muito baixo custo, a possibilidade de distribuição e download de áudio. No entanto, a distribuição, via Internet, de áudio com toda a qualidade que o CD oferece, coloca um conjunto de problemas, uma vez que requer o processamento de uma grande quantidade de dados a uma frequência de amostragem de 44.1 kHz [1]. É aqui que a tecnologia de compressão de áudio ganha uma importância assinalável. O MP3, pela sua sólida implementação a nível global e quase omnipresença na sociedade, é o principal representante desta 1 com acesso à Internet pudesse encontrar e descarregar qualquer tipo de música que desejasse. Também em 1999 apareceram os primeiros leitores de MP3 portáteis. Estava em curso a grande revolução criada pelo MP3 que permitiu a qualquer um obter ficheiros neste formato de forma simples e poder reproduzi-los, seja em casa, no trabalho ou mesmo fora de portas, graças aos leitores portáteis, entre vários outros locais possíveis e imagináveis. De facto, a revolução foi de tal ordem, que em poucos anos de existência este formato já se encontrava presente em milhões de computadores em todo o mundo. Com tamanha popularidade, o formato MP3 passou a constituir uma ameaça ao monopólio das indústrias discográficas que se insurgiram contra aqueles que faziam a codificação e disponibilização de músicas neste formato. No algoritmo MP3 ISO (International Organization for Standardization), o quantificador é não uniforme. A fórmula (1) faz o pré - ênfase do frame a ser descodificado de modo a aumentar o SNR (ao minimizar a atenuação e saturação), e a fórmula (2) a sua amplificação, x' f . g (i) = x f . g (i ) × 2 x' ' f . g (i) = x' f . g (i) × 2 (1+ z )× P ( bi ) (1+ z )×C ( bi ) (1) (2) em que g representa o grânulo, f é o frame a ser quantificado, bi o factor de escala na banda da i-ésima linha espectral, z determina se os factores de escala são quantificados de modo logarítmico com um passo de 2 ou 2 , P(bi) é a tabela de pré – ênfase definida em (3), como se mostra de seguida, e C(bi) obtém o factor de escala da banda bi. Então, xf.g(i) é quantificado pelo seguinte quantizador não-uniforme: 3. IMPLEMENTAÇÃO TÉCNICA 3.1. Codificação A figura 1 representa um diagrama de blocos do processo de codificação do formato MP3. A entrada de áudio é transformada frame por frame em componentes espectrais através do mapeamento tempo - frequência. No bloco de transformação híbrido, o MP3 emprega um filtro polifásico seguido pelo DCT modificado, de modo a aumentar a resolução espectral e as componentes são agrupadas em bandas de diferentes factores de escala. Simultaneamente, o sinal de áudio entra no Modelo Psicoacústico II (PAM II) para determinar o limiar de rácio de energia de sinal com o intuito de fazer um mascaramento de cada banda de factor de escala. y f . g (i ) = n int{( | x' ' f . g (i ) | 2(δ +q ) / 4 ) 07.5 − 0.0946} (3) em que nint é uma função que faz um arredondamento, q é o limite inferior do parâmetro de quantização e δ é uma variável incremental. A Figura 2 representa o ciclo de controlo de débito (também denominado por ciclo de iteração interna). Figura 1 – Bloco de codificação de MPEG [6]. A codificação da sequência de bits é comandada pelo controlador de débito, que varia o quantificador de forma ordenada, quantifica os valores espectrais e conta o número de bits do código de Huffman necessário para codificar os valores. A codificação de Huffman é escolhida como a ferramenta codificadora sem perdas, recorrendo às tabelas pré - definidas. O MP3 também adapta os factores de escala para amplificar a energia da banda espectral, no caso em que o ruído de quantificação excede o limiar de mascaramento. O controlo de distorção ajusta os factores de escala de modo a comandar a qualidade e, por fim, a informação pedida pelo descodificador é unida com o áudio comprimido para resultar num conteúdo de MP3 válido. Figura 2 – Controlo de débito no ciclo iterativo [6]. Este ciclo atribui bits a cada linha espectral, através de uma quantificação de informação de áudio, explícito em (3). O desafio é encontrar um parâmetro quantificador óptimo (também denominado por ganho global), bem como escolher uma tabela de Huffman apropriada. Uma técnica iterativa é aplicada de modo a obter os parâmetros optimizados para um valor inicial, determinado pela medida 2 A redução dos blocos de aliasing 2 põe mais componentes nos coeficientes desquantificados, de forma a obter uma reconstrução correcta da análise do filtro de subbanda. Logo, a DCT Inversa Modificada transforma os coeficientes em sinais de sub-banda no domínio do tempo. Aplica-se a inversão de frequência para compensar a redução do número de amostras usado na análise do filtro de sub-banda. Depois, um filtro de sub-banda sintetizado é aplicado aos sinais para resultar na saída de áudio PCM. de spectral flatness 1 . São testadas muitas iterações no processo de quantificação de modo a assegurar uma saída dentro dos limiares da codificação de Huffman. 3.2. Descodificação O processo de descodificação de MP3 consiste em três fases: descodificação de sequência de bits, desquantificação e mapeamento frequência – tempo, como está ilustrado de seguida, na figura 3. 4. O PORQUÊ DO SUCESSO E O IMPACTO SOCIOLÓGICO O MP3 tem tido o sucesso que se conhece em grande parte graças à distribuição online de música: os consumidores passaram a pensar no MP3 como “CDs na Internet” ou, em muitos casos, “CDs grátis na Internet” [7]. Depois surgiram os primeiros leitores portáteis de MP3, o que levou a que qualquer pessoa pudesse escolher entre um grande número de músicas sem ter que transportar os CDs consigo. Isto criou um ciclo: mais produtores de conteúdos criam conteúdos em MP3, o que conduz a uma procura de software e hardware MP3 cada vez maior. Além disso, o MP3 tinha uma grande vantagem em relação a outras normas concorrentes (que, em alguns casos, até eram mais eficientes): os detentores originais da patente permitiram, durante algum tempo, que qualquer pessoa desenvolvesse um descodificador ou reprodutor gratuitamente. O fenómeno MP3 tornou-se revolucionário não só devido às suas características específicas como ao impacto sociológico (e económico) que teve. Quem é que hoje em dia não tem um leitor de MP3, por mais simples ou complexo que este seja? Quem nunca viu alguém no metro, no autocarro, ou mesmo a fazer jogging, enquanto ouve música de um leitor MP3? O impacto tecnológico que o MP3 teve na sociedade pode-se assemelhar ao impacto que o telemóvel, a televisão ou mesmo o próprio rádio tiveram em tempos anteriores. Poder-se fazer o download de um modo completamente simples, e “construir” a sua biblioteca musical em formato digital de um modo extremamente simples seria impensável antes da existência do formato MP3, que abriu as portas a um mundo novo, com a intervenção directa dos utilizadores. Figura 3 – Bloco de descodificação de MPEG/3ª Camada [6]. A primeira fase sincroniza a sequência de bits codificado e outras informações acerca de cada frame. A figura 4 apresenta o diagrama de blocos detalhado. Figura 4 – Descodificação de bitstream [6]. A segunda fase, ou processo de desquantificação, reconstrói os coeficientes de frequência gerados pelos blocos de DCT modificado durante a codificação. O cálculo de desquantificação é baseado na saída de descodificação de Huffman e na informação do factor de escala, em que S(i) representa o sinal do bit de yf.g(i), wi é o short-block window da i-ésima linha espectral correspondente e Δs(wi) é o seu ganho, como se apresenta em (4). Δ f . g −8 Δ s ( wi ) x f . g (i ) = (−1) s ( i ) × y f . g (i ) 4 / 3 × 2 2 4 (1+ z )( C ( bi ) + P ( bi )) 5. QUESTÕES LEGAIS (4) 5.1. O download ilegal A última fase é constituída por uma série de operações invertidas do DCT Modificado e da análise do filtro de subbanda no codificador. O mapeamento frequência – tempo resulta na saída de áudio PCM a partir dos coeficientes desquantificados. O formato MP3 surgiu na década em que um meio de comunicação de enorme potencial e em ascensão se estava a propagar por todo o mundo, denominado Internet. As duas potencialidades aliadas constituíram, a partir de meados da 2 Aliasing – sinais diferentes contínuos tornam-se indistinguíveis ao serem amostrados a frequências diferentes. 1 Spectral Flatness – Medida utilizada para caracterizar o espectro de audição. Se for elevada, a potência é semelhante em todas as bandas, caso contrário, concentra-se num número inferior. 3 década de 90 (1995), uma enorme revolução no mundo da música, uma vez que se tornava possível a troca de ficheiros áudio com tamanhos muito reduzidos em relação ao formato CD e com uma qualidade muito semelhante. Essas características potenciaram ao aparecimento de programas cuja função era a partilha e distribuição de ficheiros de música no formato MP3, tais como o Napster, imesh, Kazaa, Limewire, Bearshare, Gnutella, Audiogalaxy entre outros. O movimento de ficheiros MP3 através da Internet teve um aumento exponencial muito devido aos programas anteriormente referidos, tendo assim passado a ser extremamente fácil reproduzir, criar, partilhar e obter ficheiros de música. Tudo isto decorria um pouco à margem da lei, uma vez que não existia legislação adequada para tal. Algo que viria a ser alterado, fruto da pressão de alguns músicos e da indústria discográfica, devido à violação dos direitos de autor, uma vez que enquanto que o download de ficheiros não é ilegal, a distribuição de ficheiros de música sem autorização constitui uma infracção à lei. Foram desencadeadas várias acções sobre os programas de partilha de ficheiros MP3, resultando no encerramento de muitos sites de partilha, sendo que, aquele que foi mais mediatizado foi o caso Napster, tendo-se visto obrigado a encerrar, e a alterar o seu formato de partilha. No entanto, a indústria discográfica sabia que estava a enfrentar uma batalha perdida. No caso americano, a Recording Industry Association of America (RIAA) procurou soluções para se adaptar à revolução que se estava a dar no meio musical, tendo para tal criado um grupo de trabalho, em finais de 1998, denominado Secure Digital Music Initiative (SDMI) de modo a explorar alternativas tecnológicas ao formato MP3 para a protecção contra a duplicação de ficheiros e distribuição em massa. No entanto, essa alternativa revelouse um fracasso tendo a iniciativa cessado funções em 2001. Actualmente existem distribuidores de música em formato digital, tais como o iTunes, que têm ficheiros que suportam DRM (Digital Rights Management), ferramenta que permite controlar as infracções aos direitos de autor, havendo no entanto métodos que podem ultrapassar essas protecções. Existem também, pela Internet, distribuidores de ficheiros MP3 em que o download de ficheiros é feito mediante o pagamento individual de cada ficheiro, tornando-se mais prático para os consumidores e beneficiando os artistas, uma vez que o custo de colocar online os ficheiros MP3 é muito mais reduzido do que recorrendo a uma companhia discográfica. codificadores, e que os produtos não licenciados infringiam os direitos sobre a patente do Instituto Fraunhofer e da Thomson Consumer Electronics (entidade que controla o licenciamento da patente do MPEG-1/2 Layer 3 em alguns dos países que reconhecem patentes de software, tais como Estados Unidos da América, Japão, Canadá e alguns países da União Europeia), pelo que seria necessário obter uma licença de modo a poder produzir, vender e/ou distribuir produtos utilizando o padrão MPEG-1/2 Audio Layer 3. Tal iniciativa veio provocar um abrandamento do desenvolvimento da tecnologia do MP3 sem licenciamento, levando à necessidade de promover novos formatos realmente livres, tais como o WMA e o Ogg Vorbis. Apesar das restrições colocadas, o formato MP3 continua a ser o preferido por diversas razões: • Familiaridade com o formato; • A enorme quantidade de ficheiros de música disponível em formato MP3; • A grande variedade existente de software e hardware que tem como base o formato MP3; • Fraca restrição por parte do DRM, o que torna fácil a edição, cópia e distribuição dos ficheiros. 7. LEITORES DE MP3 Inicialmente os ficheiros MP3 apenas podiam ser lidos através de programas instalados no computador como o Winamp (ver figura 5), o FreeAmp, MusicMatch Jukebox, QuickTime, entre outros. Com a sua proliferação pela Internet, tornou-se necessário produzir leitores portáteis que suportassem o formato do MP3, dadas as enormes vantagens que isso poderia trazer: o facto de poder transportar uma maior quantidade de músicas, com qualidade semelhante num espaço físico mais reduzido que os leitores de cassetes ou de CDs que dominavam o mercado do género. Os primeiros leitores surgiram em finais dos anos 90, com o MPMan F10 da Eiger Labs, o Rio da Diamond Multimedia e o Nomad da Creative. O seu aparecimento não foi de todo pacífico, uma vez que surgiram pressões por parte da indústria discográfica para que não fossem lançados no mercado. 5.2. Licenças e Patentes Figura 5 – Leitor MP3 Winamp. Outra questão pertinente que foi levantada teve a ver com os direitos de utilização da tecnologia MP3. Em Setembro do ano de 1998, o Instituto Fraunhofer, a casa mãe do MP3, enviou comunicados a diversos criadores de programas MP3, exigindo a cobrança de royalties por essa patente. O comunicado informava que o licenciamento era necessário para a distribuição e/ou venda de descodificadores e/ou Hoje em dia os aparelhos portáteis de leitura do formato MP3 estão perfeitamente integrados no mercado, havendo um variado leque de escolhas. Desde o aspecto visual até à capacidade do próprio leitor, tendo maior ou menor espaço de armazenamento e autonomia, entre outras opções, tais 4 como a de receptor de rádio. Os leitores mais populares são o iPod (ver figura 6) da Apple (que pode ser adquirido a um preço que vai dos 80€ aos 380€, aproximadamente) o Zen da Creative (que podem ser encontrados a preços que rondam os 70€ até aos 220€, dependendo do modelo), a nova versão Walkman MP3 da Sony (entre os 50€ e os 170€, dependendo do modelo) entre outros que podem ser encontrados a preços inferiores, dependendo das possibilidades de cada um. Actualmente os leitores portáteis não se limitam apenas a poder reproduzir os ficheiros de música em formato MP3, tendo outras funcionalidades, tais como a visualização de vídeo, imagem e armazenamento de dados. 9. REFERÊNCIAS [1] S.H. Oh, W.J. Yoon, Y.H. Cho, K.S. Park, “A new spectral enhancement algorithm in MP3 audio”, IEEE, pp. 285-286, 2006. [2] M. McCandless, “The MP3 Revolution” IEEE Intelligent Systems, pp. 8–9, May/June 1999. [3] http://inventors.about.com/od/mstartinventions/a/mpthree.htm [4] Wikipedia - http://en.wikipedia.org/wiki/Mp3 [5] http://www.webmonkey.com/00/31/index3a.html [6] C.H. Yen, Y.S. Lin, B.F. Wu, “A low-complexity MP3 algorithm that uses a new rate control and a fast dequantization”, IEEE Transactions on Consumer Electronics Vol. 51 Nº2, pp. 571-579, May 2005 [7] B. Ponce, “The Impact of MP3 and the Future of Digital Entertainment Products”, IEEE Communications Magazine, pp 68-70, Sept 1999. Figura 6 – Leitor MP3 iPod. 8. FUTURO Neste momento já há vários formatos tecnologicamente superiores ao MP3. Tanto o AAC como o Ogg Vorbis conseguem qualidade superior ao MP3 quando comparados a idêntico débito binário. Inclusivamente, o AAC (que foi desenvolvido com a cooperação de companhias como Dolby, Fraunhofer, AT&T, Sony e Nokia e já foi reconhecido pelo MPEG como uma norma internacional) já começa a estar bem implementado em alguns meios: é usado, por exemplo, no iTunes e iPod da Apple e é a norma padrão usada na Playstation 3 da Sony. No entanto, para a grande maioria do público-alvo desta tecnologia, nem AAC nem Ogg Vorbis devem ser expressões que tenham, actualmente, muita notoriedade, ao contrário de MP3, que, provavelmente, todos conhecem. A explicação para isto reside no facto de, quando as pessoas se habituam a determinada tecnologia, especialmente com a penetração que o MP3 conseguiu, só mudam se surgir uma nova oferta com um grande valor acrescentado [7]. Caso contrário, os consumidores resistem à mudança. Talvez por isso, ainda hoje se encontram artigos de investigação que propõem não alternativas ao MP3, mas antes formas de melhorar esta tecnologia [1, 6]. 5
Documentos relacionados
Author Guidelines for 8 - Multimedia Signal Processing Group, IT-Lx
algo diferente dos anteriores. Depois de realizada a MDCT, o sinal é decomposto em 2 componentes a fim de calcular o erro a introduzir (Figura 7). Depois de cada bloco de dados ser comprimido, vai ...
Leia mais