Desenvolvimento de um Sistema de Informação - Piim-Lab
Transcrição
Desenvolvimento de um Sistema de Informação - Piim-Lab
Moisés Henrique Ramos Pereira Desenvolvimento de um Sistema de Informação Multimídia para Apoio à Análise Discursiva de Vídeos Televisivos Dissertação apresentada ao Curso de Mestrado em Modelagem Matemática e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, como requisito parcial à obtenção do título de Mestre em Modelagem Matemática e Computacional Orientador: Prof. Dr. Flávio Luis Cardeal Pádua Centro Federal de Educação Tecnológica de Minas Gerais Co-orientador: Profa. Dra. Giani David Silva Centro Federal de Educação Tecnológica de Minas Gerais M ESTRADO EM M ODELAGEM M ATEMÁTICA E C OMPUTACIONAL C ENTRO F EDERAL DE E DUCAÇÃO T ECNOLÓGICA DE M INAS G ERAIS D IRETORIA DE P ESQUISA E P ÓS -G RADUAÇÃO Belo Horizonte – MG Fevereiro de 2012 Agradecimentos Primeiramente à Deus, que me deu o discernimento e a força de vontade para lutar por tudo que almejo e necessito fazer na vida. À minha namorada Luanda, sempre companheira em todos os momentos e grande incentivadora para a realização deste trabalho. À toda minha família, pessoas muito especiais na minha vida que contribuíram, a cada dia, na formação do meu caráter. Aos meus orientadores professores Flávio Luiz Cardeal Pádua e Giani David Silva pelos conselhos e por me orientarem exemplarmente nessa caminhada, tendo recentemente o apoio do professor Guilherme Tavares de Assis que conheço desde a graduação, sendo também um exemplo de profissional a ser seguido. Aos professores e colegas do Grupo de Pesquisas Interdisciplinares em Informação Multimídia (Grupo Piim), do CEFET-MG, em especial os alunos Juliana, Antônio, Celso, Gustavo, Tarcísio e Rafael, além dos professores, que contribuíram com sugestões pertinentes para execução deste trabalho, bem como todos os demais colegas que apoiaram de alguma maneira o projeto. Aos meus amigos do mestrado pela convivência e pelo apoio constante. Resumo Este trabalho aborda o desenvolvimento de um sistema de informação multimídia para apoio à análise discursiva de vídeos televisivos. Muito embora o sistema de televisão represente um dos mais fascinantes fenômenos de mídia já criados pelo homem, observa-se ainda uma grande ausência de sistemas de informação que viabilizem a recuperação efetiva de informações televisivas relevantes para a análise discursiva e avaliação desse acervo no âmbito de pesquisas sobre este universo midiático. Neste contexto, buscando instrumentalizar pesquisadores do sistema de televisão brasileiro com uma ferramenta computacional que os auxilie em suas pesquisas, bem como contribuir para a discussão sobre a viabilização do acesso ao acervo televisivo desenvolvido no país, este trabalho propõe o desenvolvimento de um sistema de informação multimídia, em parceira com o canal de televisão aberta Rede Minas. O sistema proposto neste trabalho baseia-se no arcabouço de gerência de vídeos Matterhorn e em técnicas de indexação e recuperação de informações audiovisuais, incluindo um conjunto de ferramentas que viabilizam a estimação automática de parâmetros fundamentais para a análise discursiva de vídeos televisivos. A arquitetura desenvolvida para o sistema contempla a recuperação de informação baseada no uso de metadados independentes do conteúdo (essencialmente, metadados textuais como, por exemplo, descrição e título dos programas, data de exibição, apresentador, dentre outros), bem como metadados dependentes de conteúdo, os quais são determinados com base em técnicas de análise do discurso e de processamento de imagens e sinais de áudio. O sistema está estruturado para funcionar como uma biblioteca digital, conforme a abordagem 5S - um arcabouço que possibilita a modelagem de bibliotecas digitais sob diferentes dimensões. O diálogo entre duas áreas de conhecimento, a Ciência da Computação e os Estudos de Linguagens, ocorre constantemente, abrangendo diferentes níveis de reflexão sobre o tema. O sistema proposto consiste em um dos principais recursos do Centro de Apoio a Pesquisas sobre Televisão (CAPTE) do Centro Federal de Educação Tecnológica de Minas Gerais. PALAVRAS-CHAVE: Sistema de informação multimídia, análise do discurso, indexação textual, metadados, recuperação de vídeo, reconhecimento de voz. Abstract The current paper approaches the development of a multimedia information system that supports the discourse analysis of television videos. TV systems represents one of the most fascinating media phenomenon ever created by men. However, still there is a lack on information systems that allow effective retrieval of TV information relevant to discoursive analysis and evaluation of collection regarding the research field on the media universe. Within this context, in attempt to equip brazilian televion system’s researchers with a computational tool that assist their research, as well as contributing to the discussion towards turning viable the access to the television collection developed in the country. This work proposes the development of a multimedia information system, in partnership with Rede Minas, an open TV channel. The mentioned system is based on the Matterhorn framework and indexing and retrieval techniques of audiovisual information. It includes a tool collection that allows the automatic estimation of essential parameters on the discourse analysis of TV video. The system architecture involves information retrieval based on content independent metadata (essentially textual metadata, such as program’s titles and descriptions, exhibition date, host, among others), content dependent metadata, which are determined through discourse analysis techniques and image and sound signal processing. The system is structured to function as a digital library, according the 5S approach - an outline that enables the modeling of digital libraries under various dimensions. The dialog between two fields of knowledge, Computer Science and Language Studies, occurs constantly, comprehending several levels of reflection regarding the theme. The proposed system consists in one of the main resources of the Centro de Apoio a Pesquisas sobre Televisão (Support to Television Research Center) (CAPTE) of Centro Federal de Educação Tecnológica de Minas Gerais (Minas Gerais’ Federal Technological Education Center). KEYWORDS: Multimedia information system, discourse analysis, textual indexing, metadata, video retrieval, speech recognition. Lista de Figuras 1.1 Exemplos típicos de Centros de Documentação (CEDOCs) . . . . . . p. 13 3.1 Processo de indexação textual (CROFT; METZLER; STROHMAN, 2010). p. 30 3.2 Estrutura de uma lista invertida para índices textuais. . . . . . . . . . p. 31 3.3 Arquitetura de um SRV típico. . . . . . . . . . . . . . . . . . . . . . . . p. 33 3.4 Processo de recuperação da informação. . . . . . . . . . . . . . . . . p. 40 3.5 Ciclo de vida da informação - Adaptado de (BORGMAN, 1996). . . . . p. 41 3.6 Componentes de um sistema típico de processamento nebuloso. . . . p. 43 4.1 Visão geral do projeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49 4.2 Arquitetura do sistema proposto. . . . . . . . . . . . . . . . . . . . . . p. 50 4.3 Metadados modelados e extraídos dos vídeos televisivos. . . . . . . . p. 52 4.4 Modelo de Dados do Banco de Dados Multimídia e de Índices. . . . . p. 54 4.5 Fluxo de dados no sistema pelo Matterhorn. . . . . . . . . . . . . . . . p. 57 4.6 Esquema para a geração de gráficos discursivos. . . . . . . . . . . . . p. 64 4.7 Diagrama da partição para a quantidade de acessos. . . . . . . . . . p. 67 4.8 Diagrama da partição de entrada para o tempo assistido. . . . . . . . p. 68 4.9 Diagrama da partição para o número de dias sem ser visto. . . . . . . p. 68 4.10 Diagrama da partição de saída nebulosa para o Nível de Interesse. . p. 70 4.11 Interface de Administração Multimídia. . . . . . . . . . . . . . . . . . . p. 74 4.12 Recorte do formulário com os dados de uma exibição do Jornal Minas. p. 75 4.13 Interface de Exibição de Vídeos. . . . . . . . . . . . . . . . . . . . . . p. 76 5.1 Gráfico sobre os propósitos de pesquisa. . . . . . . . . . . . . . . . . p. 79 5.2 Gráfico sobre a principal fonte de acesso ao material televisivo. . . . . p. 79 5.3 Importância do levantamento de gráficos televisivos. . . . . . . . . . . p. 80 5.4 Gráfico sobre a qualidade dos vídeos disponíveis. . . . . . . . . . . . p. 81 5.5 Gráfico sobre a necessidade de um banco de dados multimídia. . . . p. 81 5.6 Gráfico sobre a necessidade de uma ferramenta de análise. . . . . . . p. 82 5.7 Gráfico sobre a distribuição de temáticas do acervo. . . . . . . . . . . p. 83 5.8 Capital temático do acervo televisivo. . . . . . . . . . . . . . . . . . . . p. 84 5.9 Capital temático dos gêneros informativos. . . . . . . . . . . . . . . . p. 85 5.10 Capital temático dos programas de Debate e Entrevista. . . . . . . . . p. 86 5.11 Agrupamento de temáticas em gêneros com curvas de sumarização. p. 87 5.12 Identidade dos participantes nos programas de Debate e Entrevista. . p. 87 5.13 Agrupamento das identidade de participantes em temáticas. . . . . . p. 88 5.14 Agrupamento das identidade de participantes em programas. . . . . . p. 89 5.15 Capital temático telejornalístico. . . . . . . . . . . . . . . . . . . . . . p. 90 5.16 Distribuição do tempo dos tipos de matérias. . . . . . . . . . . . . . . p. 91 5.17 Distribuição do tempo de emissão/imagens. . . . . . . . . . . . . . . . p. 92 5.18 Distribuição do tempo de temáticas por tipos de matérias. . . . . . . . p. 93 5.19 Gráfico de eficiência para as 8 consultas modeladas. . . . . . . . . . p. 101 C.1 Tela da guia do serviço de busca geral. . . . . . . . . . . . . . . . . . p. 128 C.2 Tela da guia do serviço de geração de gráficos discursivos. . . . . . . p. 128 C.3 Tela da guia do serviço de busca avançada. . . . . . . . . . . . . . . . p. 129 Lista de Tabelas 4.1 Lista dos campos com vocabulário controlado para vídeos de gêneros Debate e Entrevista - (SABINO, 2011). . . . . . . . . . . . . . . . . . . p. 58 4.2 Metadados textuais com os respectivos pesos na recuperação de vídeos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61 4.3 Tabela de regras nebulosas do sistema. . . . . . . . . . . . . . . . . . p. 71 5.1 Taxa média de palavras erradas (W ERmedia ) por programa. . . . . . . p. 95 5.2 Medidas de precisão para cada grupo de metadados. . . . . . . . . . p. 98 5.3 Medidas de revocação para cada grupo de metadados. . . . . . . . . p. 99 5.4 Combinação dos valores de precisão e revocação pela métrica F1. . . p. 99 5.5 Valores finais de precisão, revocação e F1 para a busca geral. . . . . p. 100 5.6 Nível de interesse médio entre os grupos de vídeos definidos. . . . . p. 104 5.7 Níveis de interesse estimulados por indicadores diferentes. . . . . . . p. 104 Lista de Abreviaturas e Siglas AD Análise do Discurso BDOO Banco de Dados Orientado a Objetos CEDOC Centro de Documentação ER Entidade-Relacionamento MDC Metadados Dependentes do Conteúdo MIC Metadados Independentes do Conteúdo OO Orientação a Objetos SGBD Sistema de Gerenciamento de Banco de Dados SRV Sistema de Reconhecimento de Voz Sumário 1 Introdução p. 12 1.1 Definição do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15 1.3 Objetivos: Geral e Específicos . . . . . . . . . . . . . . . . . . . . . . p. 17 1.4 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 1.5 Organização do Documento . . . . . . . . . . . . . . . . . . . . . . . . p. 19 2 Trabalhos Relacionados p. 20 2.1 Análise Discursiva Automática . . . . . . . . . . . . . . . . . . . . . . p. 20 2.2 Sistemas de Informação Multimídia . . . . . . . . . . . . . . . . . . . . p. 23 3 Fundamentação Teórica p. 27 3.1 Modelos de Dados em Banco de Dados Multimídia . . . . . . . . . . . p. 27 3.2 Indexação Multimodal de Vídeos . . . . . . . . . . . . . . . . . . . . . p. 29 3.2.1 Indexação Textual . . . . . . . . . . . . . . . . . . . . . . . . . p. 30 3.2.2 Indexação Baseada em Sinais de Áudio . . . . . . . . . . . . . p. 32 3.3 Análise do Discurso Midiático . . . . . . . . . . . . . . . . . . . . . . . p. 34 3.4 Recuperação de Informação Multimídia . . . . . . . . . . . . . . . . . p. 39 3.5 Teoria de Lógica Nebulosa . . . . . . . . . . . . . . . . . . . . . . . . p. 42 3.6 Bibliotecas Digitais e a Abordagem 5S . . . . . . . . . . . . . . . . . . p. 45 4 Descrição do Sistema de Informação Multimídia 4.1 Os Módulos e a Arquitetura do Sistema . . . . . . . . . . . . . . . . . p. 48 p. 48 4.2 Módulo de Gerência de Dados . . . . . . . . . . . . . . . . . . . . . . p. 52 4.3 Módulos de Indexação e Recuperação . . . . . . . . . . . . . . . . . . p. 56 4.4 Módulo de Geração de Gráficos Discursivos . . . . . . . . . . . . . . . p. 62 4.5 Módulo de Avaliação do Nível de Interesse . . . . . . . . . . . . . . . p. 66 4.5.1 Partições Nebulosas de Entrada . . . . . . . . . . . . . . . . . p. 67 4.5.2 Partição Nebulosa de Saída . . . . . . . . . . . . . . . . . . . . p. 70 4.5.3 Base de Conhecimento Nebulosa . . . . . . . . . . . . . . . . p. 71 4.6 Módulo de Interação com o Usuário . . . . . . . . . . . . . . . . . . . p. 72 5 Resultados Experimentais p. 78 5.1 Pesquisa de Perfil dos Usuários . . . . . . . . . . . . . . . . . . . . . . p. 78 5.2 Análise de Gráficos Discursivos . . . . . . . . . . . . . . . . . . . . . . p. 82 5.2.1 Contagem Temática e o Capital Temático . . . . . . . . . . . . p. 83 5.2.2 Identidade dos Participantes . . . . . . . . . . . . . . . . . . . p. 87 5.2.3 Análise dos Espaços Enunciativos . . . . . . . . . . . . . . . . p. 90 5.3 Reconhecimento de Voz em Sinais de Áudio . . . . . . . . . . . . . . p. 93 5.4 Testes de Recuperação e Análise dos Resultados . . . . . . . . . . . p. 96 5.5 Análise do Nível de Interesse de Vídeos . . . . . . . . . . . . . . . . . p. 103 6 Conclusões e Trabalhos Futuros p. 106 Referências Bibliográficas p. 109 Anexo A -- Formulário de Pesquisa de Perfil do Usuário p. 116 A.1 Sessão 01 – Hábitos de pesquisa de vídeos . . . . . . . . . . . . . . . p. 116 A.2 Sessão 02 – Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120 A.3 Sessão 03 – Análise do pesquisador . . . . . . . . . . . . . . . . . . . p. 123 Anexo B -- Lista de vídeos relevantes para os testes de recuperação p. 124 Anexo C -- Telas das Guias de Serviços da Interface de Exibição de Vídeos p. 128 12 1 Introdução O aumento da produção de informações audiovisuais nos últimos anos, em especial informações produzidas por emissoras de televisão, tem intensificado a demanda por sistemas de informação multimídia que sejam capazes de armazenar e recuperar eficientemente arquivos desta natureza em grandes bases de dados (PETRELLI; AULD, 2008). A criação de novos tipos de metadados e padrões de descrição de conteúdo multimídia vêm sendo tópico de pesquisa, visando melhorar a qualidade na busca e análise de acervos audiovisuais nos diversos sistemas de informação. Em alguns países, tal acervo é considerado um repositório valiosíssimo de informações, mas ainda na prática um tesouro oculto, uma vez que as descrições sobre seus conteúdos poucas vezes incluem algo mais que títulos e curtas sinopses (BARRETO, 2007). Neste contexto, amplos esforços têm sido empreendidos para a concepção de ferramentas computacionais que permitam o acesso inteligente a dados registrados em vídeos (DIMITROVA et al., 2002). Estes esforços são respaldados por investimentos de diversos órgãos públicos e privados, tais como filmotecas, museus e empresas produtoras de mídia, que buscam oferecer conteúdo audiovisual personalizado via Internet e Televisão Digital (BERTINI; BIMBO; PALA, 2001). Em 1992, a França tornou-se o primeiro país a estender o depósito legal de suas publicações ao domínio do audiovisual e criou, em 1995, a Inathèque de France, órgão responsável por registrar, arquivar, classificar, descrever e disponibilizar para pesquisadores todo material produzido em emissoras francesas de rádio e televisão. Nota-se a dupla função que a Inathèque de France tem realizado ao preservar esta memória audiovisual, bem como sua difusão para fins de pesquisa, contribuindo para a construção de novos conhecimentos em diversas áreas (DAVID-SILVA, 2005). No Brasil, conforme a lei federal dos Direitos Autorais (Lei No 9.610/98), as emissões televisivas pertencem ao domínio público somente no momento de suas transmissões (DAVID-SILVA, 2005). Sendo assim, após a etapa de transmissão, as emis- 1 Introdução 13 Figura 1.1: Exemplos típicos de Centros de Documentação (CEDOCs) soras tornam-se proprietárias desses conteúdos, cabendo a elas o direito de autorizar a cessão do registro de um programa para qualquer finalidade. Para gerenciar o armazenamento de suas programações, cada emissora possui um Centro de Documentação (CEDOC), o qual atende predominantemente a demandas internas, inclusive para produções telejornalísticas (ver Figura 1.1). De fato, um CEDOC não objetiva disponibilizar informações à sociedade de uma forma geral. Em se tratando de demandas externas, os casos são analisados e, muitas vezes, os arquivos solicitados não são disponibilizados (DAVID-SILVA, 2005). Considerando que no Brasil o depósito legal restringe-se à produção escrita, a pesquisa sobre a televisão, reconhecidamente um dos veículos de informação e entretenimento de maior abrangência no país, tem esbarrado em uma série de dificuldades. Em especial, ao se buscar a composição de um corpus a ser analisado, o pesquisador se depara com o seguinte desafio: como conseguir as gravações de que necessita, bem como as respectivas informações discursivas, devidamente descritas? Outro aspecto que merece ser ressaltado refere-se à forma como se realizam os arquivamentos das programações nos CEDOCs das emissoras de televisão. Em geral, uma programação não é arquivada integralmente, excluindo-se, por exemplo, os intervalos entre programas e as publicidades. Além disso, informações discursivas como temas, identidades dos participantes, planos fílmicos, dentre outras, não são incluídas na descrição desses materiais audiovisuais, prejudicando o trabalho de pesquisadores que necessitem acessar informações para a caracterização da grade programática (DAVID-SILVA, 2005). Neste contexto, visando dar suporte aos pesquisadores sobre o sistema de televisão brasileiro, este trabalho propõe um sistema de informação multimídia para apoiar a análise discursiva de vídeos de programações televisivas. Este trabalho conta com o apoio do canal de televisão aberta Rede Minas, mediante um Termo de Cooperação Técnica firmado junto ao CEFET-MG. Por meio deste 1.1 Definição do Problema 14 termo, o canal Rede Minas concede o direito de registro e arquivamento de sua programação aos pesquisadores proponentes deste projeto, viabilizando-se assim sua execução em perfeito atendimento ao disposto na lei brasileira dos Direitos Autorais. Duas áreas de conhecimento, a Ciência da Computação e os Estudos de Linguagens, fundamentam a metodologia e as técnicas utilizadas durante o desenvolvimento do sistema de informação proposto, o qual representa um dos pilares do Centro de Apoio a Pesquisas Sobre Televisão (CAPTE) que vem sendo estruturado no Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG). 1.1 Definição do Problema Este trabalho aborda o uso de técnicas para descrição, indexação e recuperação de vídeos, especificamente televisivos, visando a criação de um sistema de informação multimídia, disponibilizado na Internet, que contenha ferramentas de apoio à análise discursiva do conteúdo audiovisual produzido pelo sistema brasileiro de televisão. Pela própria característica intrínseca aos vídeos, a indexação multimodal apresentase como uma alternativa promissora, obtendo eficientemente metadados de áudio, imagens e texto durante o processo de indexação. Além disso, para a construção do sistema de informação proposto, são levados em consideração três aspectos principais: (i) os objetivos de pesquisa dos usuários, (ii) as modalidades de consulta e (iii) o levantamento de gráficos sobre as informações discursivas dos objetos de pesquisa. Usuários distintos podem possuir objetivos completamente diferentes quando realizam suas pesquisas. Compreender estes objetivos é fundamental para a implementação de um sistema que atenda às expectativas de seu público potencial. Neste cenário, o desenvolvimento de um sistema de informação multimídia, que seja capaz de gerenciar acervos desta natureza e permitir a seus potenciais usuários alcançarem efetivamente seus objetivos informacionais, representa um trabalho com grande relevância social, científica e tecnológica. A sociedade brasileira, em especial, é profundamente carente de instrumentos legais relativos à preservação de sua produção audiovisual, incluindo descrições completas desses arquivos quanto à natureza discursiva dos mesmos. Com o passar do tempo, os arquivos não são integrados aos sistemas existentes nos CEDOCs ou não são devidamente tratados por um processo de indexação compatível com o conhecimento específico que os usuários desses acervos possuem. 1.2 Motivação 15 A arquitetura do sistema de informação multimídia proposta neste trabalho contempla não somente a utilização de metadados independentes de conteúdo (MIC), como também metadados dependentes de conteúdo (MDC). Metadados do tipo MIC são dados que não se referem diretamente ao conteúdo informacional do arquivo de vídeo, mas que descrevem o próprio documento em si, como data de criação, autoria, título, duração, data de exibição, dentre outros. Por outro lado, metadados do tipo MDC podem ser textuais ou não, dependendo das técnicas que se utiliza para determiná-los, sendo obtidos tanto automaticamente (a partir do sinal de áudio e frames do vídeo) como manualmente, por meio de documentaristas. Neste trabalho, a arquitetura do sistema proposto foi concebida para trabalhar com os metadados textuais do tipo MDC que se seguem: (i) metadados discursivos, (ii) metadados baseados no conteúdo de áudio e (iii) metadados baseados no conteúdo visual. Os metadados discursivos são determinados por documentalistas, com base em técnicas de Análise do Discurso e, portanto, são metadados textuais. Os metadados baseados no conteúdo visual dos vídeos são estimados automaticamente por técnicas de processamento e análise de imagens e, embora a arquitetura proposta contemple a utilização dos mesmos, tais metadados e suas técnicas de obtenção não são objeto de estudo neste trabalho. Finalmente, os metadados baseados no conteúdo de áudio são estimados automaticamente por técnicas de processamento de sinais desta natureza em sistemas de reconhecimento e transcrição automática de fala. Neste trabalho, é feito um estudo com metadados baseados no conteúdo de áudio, utilizando-se o sistema de reconhecimento de voz Julius (AKINOBU, 2011), bem como o dicionário fonético e os modelos acústico e linguístico desenvolvidos no Laboratório de Processamento de Sinais (LaPS) pelo projeto FalaBrasil da Universidade Federal do Pará (SILVA; NETO; KLAUTAU, 2009). 1.2 Motivação O sistema de televisão está intimamente ligado ao cotidiano das pessoas. Seus programas constituem um erário capaz de remetê-las a, por exemplo, lembranças da infância e a costumes de uma época. Por meio de suas imagens, revive-se o passado, bem como pode-se analisar o presente (JOST, 1999). Além disso, seus programas são fontes inesgotáveis de pesquisas para diferentes áreas do conhecimento. No entanto, para que essas pesquisas possam ser realizadas, é necessário, fundamen- 1.2 Motivação 16 talmente, ter um acervo no qual se preserve esse patrimônio e ao qual se permita o acesso. Essa demanda foi observada em uma pesquisa de opinião realizada para esse trabalho, discutida na Seção 5 sobre os resultados experimentais. Os CEDOCs das emissoras de televisão buscam, sob uma abordagem sistêmica mais simples, realizar trabalhos de gerenciamento dos acervos correspondentes às suas programações. Entretanto, esses centros servem, sobretudo, a demandas internas, em especial, para a produção telejornalística. O funcionamento dos CEDOCs não prevê a disponibilização de informações à sociedade de uma forma geral, porém, observa-se que os usuários potenciais dos CEDOCs, ou seja, os jornalistas, se deparam cada vez mais com grandes problemas: como encontrar o que se deseja em acervos com milhões de horas de conteúdo, cujas extensões e complexidades aumentam substancialmente com o passar do tempo? E, quando encontrado, o conteúdo audiovisual correspondente possui informações importantes que demonstram criteriosamente a análise à qual foi submetido quanto às suas modalidades discursivas, além de título e descrição geral? Ele é realmente interessante como fonte de pesquisa? É possível recuperá-lo e estudá-lo sob a perspectiva dessas modalidades? Neste contexto, este trabalho aborda a aplicação e desenvolvimento de novas técnicas para processamento, indexação, recuperação e análise de informações multimídia (em especial, vídeos), as quais são de grande importância para assegurar o sucesso de diversos serviços, especialmente, aqueles relacionados à produção de conteúdo. Recentemente, tem-se observado a proposição frequente de novos métodos com esta finalidade, principalmente, métodos baseados em chaves de pesquisa construídas a partir dos próprios conteúdos dos arquivos (por exemplo, imagens e sinais de áudio) e por meio de técnicas da Análise do Discurso (SABINO, 2011). Os métodos baseados em conteúdo audiovisual beneficiam-se do fato de que as chaves de busca são extraídas automaticamente, não sendo necessária a geração de anotações textuais. Já as técnicas da Análise do Discurso Midiático, embora processadas de forma manual por um especialista, permitem a modelagem de dados mais semânticos e próximos do conteúdo informacional dos vídeos sob a perspectiva das áreas linguística, jornalística e televisiva, promovendo padrões de intencionalidade comunicativa, estratégias e categorização programática, dentre outros. 1.3 Objetivos: Geral e Específicos 17 1.3 Objetivos: Geral e Específicos O objetivo principal deste trabalho consiste em desenvolver um sistema de informação multimídia, acessível pela Internet, para apoio à análise discursiva de vídeos televisivos, visando dar suporte aos pesquisadores de diversas áreas quanto a recuperação e análise da produção audiovisual do sistema de televisão brasileiro. Para tanto, foram perseguidos os seguintes objetivos específicos: • Concepção e implementação de um módulo de interface Web no sistema de informação para a interação com o usuário; • Modelagem e implementação de um módulo de gerência de banco de dados multimídia, bem como o banco de índices, os quais são responsáveis pelo armazenamento e o acesso aos vídeos das programações televisivas; • Pesquisa e implementação de algoritmos para recuperação de vídeo por meio de metadados dos tipos MIC e MDC, os quais compõem os módulos de indexação e recuperação de informação do sistema proposto; • Contribuição para a discussão sobre gêneros televisivos a partir do levantamento de critérios de classificação e descrição da programação registrada; • Análise e implementação de um módulo de levantamento de gráficos baseados em metadados discursivos a fim de se mensurar alguns indicadores de conteúdo comunicacional existente nos vídeos; • Implementação de um módulo de avaliação de níveis de interesse na recuperação de vídeos. • Indexação de vídeos televisivos informativos, identificados pelos gêneros Debate, Entrevista e Telejornal. • Contribuição para o diálogo entre diferentes áreas do conhecimento, especificamente, os Estudos de Linguagens e a Ciência da Computação. 1.4 Contribuições O trabalho realizado permitiu a modelagem e o desenvolvimento de um sistema que reúne novas técnicas para indexação, recuperação e análise de informações mul- 1.4 Contribuições 18 timídia, em especial vídeos televisivos, sob os conceitos da Análise do Discurso e do processamento digital. Dessa forma, além do processamento do conteúdo audiovisual, em que somente os componentes do vídeo são analisados, permitiu-se a análise, a descrição e o armazenamento do conteúdo semântico dos vídeos (conteúdo informacional), promovendo uma discussão sobre a significância de seus elementos, representados por meio de metadados baseados em parâmetros da Análise do Discurso em conjunto com técnicas da Ciência da Computação, algumas delas da área de Inteligência Artificial. O diferencial do sistema de informação proposto é o suporte que o mesmo oferece para a análise discursiva de vídeos televisivos por meio da implementação e geração automática de uma lista extensa de gráficos referentes aos elementos discursivos advindos dos metadados modelados. Esses gráficos podem subsidiar estudos mais específicos como a caracterização da grade programática, a descoberta de estratégias retóricas e intencionalidade comunicativa, a identificação de público-alvo, dentre outros (CHARAUDEAU; GHIGLIONE, 1997). Foram utilizadas também técnicas computacionais para medir o nível de interesse na recuperação de vídeos que, associado aos principais indicadores armazenados no sistema, contribui com a análise de informações sobre o capital temático do acervo digital, a distribuição de identidades sociais dos participantes sobre os temas e assuntos abordados, a classificação de gêneros televisivos em relação às modalidades enunciativas dos interlocutores, o estudo dos planos fílmicos projetados na transmissão dos programas, dentre outras. No âmbito da área de Recuperação de Informação (RI), houve contribuições quanto à análise da eficácia e da eficiência dos metadados textuais modelados na recuperação de vídeos, principalmente sobre os metadados discursivos por formarem a estrutura do objeto de estudo desse trabalho. Com essa análise, pôde-se estabelecer os valores dos pesos associados aos grupos de metadados, divididos em metadados básicos, discursivos e de conteúdo, por meio do percentual de vídeos relevantes encontrados em diversos subconjuntos de vídeos recuperados para uma determinada consulta. Os grupos de metadados foram analisados separadamente para discutir a contribuição de cada grupo na recuperação de vídeos televisivos. Outro artefato gerado por este trabalho foi a implementação de um módulo de indexação textual do conteúdo transcrito dos sinais de áudio dos vídeos. Utilizandose da aplicação de um sistema de reconhecimento de voz e modelos de linguagem já estabelecidos para o idioma português do Brasil, pôde-se avaliar a contribuição de 1.5 Organização do Documento 19 metadado baseado em conteúdo na recuperação de vídeos. Além disso, este trabalho permitiu uma breve discussão acerca da atual conjuntura promovida pela TV Digital na era da informação e sobre a necessidade de se obterem mais esforços para atender tanto às inovações tecnológicas quanto as estratégias de comunicação que afetam a sociedade. Para isso, visto que a análise do conteúdo semântico e informacional dos vídeos é pouco trivial, este trabalho abre um vasto campo para oportunidades de pesquisa como o reconhecimento de locutor nos sinais de áudio, que contribuirá no levantamento do capital verbal dos programas; o reconhecimento de faces dos vídeos, que contribuirá no estudo do capital visual dos mesmos; e o efetivo controle na preservação do acervo audiovisual e televisivo do país. 1.5 Organização do Documento Este trabalho está dividido em 6 capítulos, incluindo o Capítulo 1 de introdução. O Capítulo 2 apresenta alguns dos principais trabalhos relacionados existentes na literatura, fazendo-se uma análise crítica de seus resultados e suas contribuições, bem como estabelecendo-se comparações entre os mesmos e o presente trabalho. O Capítulo 3 apresenta a fundamentação teórica deste trabalho, abordando os principais conceitos utilizados para desenvolver o sistema de informação multimídia proposto. Já o Capítulo 4 é dedicado à descrição do sistema desenvolvido. O Capítulo 5 apresenta os resultados experimentais alcançados, sendo discutidos a pesquisa de perfil dos usuários feita para este trabalho e os testes de processamento. Os testes utilizaram uma base de dados composta por 49 vídeos indexados por meio de descrição textual manual, incluindo nessa descrição os metadados discursivos modelados, e da transcrição gerada pelo reconhecimento automático do áudio falado nos vídeos no idioma português brasileiro. E, finalmente, no Capítulo 6 são apresentadas as conclusões extraídas e alguns trabalhos futuros que esta dissertação sugere para aprofundamento. 20 2 Trabalhos Relacionados Neste capítulo, são apresentados alguns dos principais trabalhos da literatura que contribuíram significativamente para o avanço das pesquisas na área. Estes trabalhos envolvem o desenvolvimento de ferramentas de análise discursiva automática, proposição de modelos formais de análise discursiva e implantação de sistemas de informação multimídia que se basearam no uso de técnicas robustas para a recuperação de informações audiovisuais. Uma análise sobre os resultados encontrados e metodologias adotadas é realizada com o intuito de justificar o desenvolvimento desta dissertação e relatar as diferenças entre as abordagens apresentadas. 2.1 Análise Discursiva Automática Recentemente, vários trabalhos vêm se destacando no que se refere à proposição de modelos formais, metadados e metodologias para o desenvolvimento de sistemas de análise discursiva de documentos sob a semântica de diversas línguas, como o português do Brasil (PARDO; NUNES, 2006; SABINO, 2011) e a língua inglesa (MARCU; ECHIHABI, 2002; MARCU, 2005; REITTER; MOORE, 2007; VERHAGEN et al., 2009). Para possibilitar a análise discursiva automática de um documento, estes trabalhos usam uma grande variedade de recursos como marcadores discursivos presentes no texto, informações sintáticas, aspectos da representação semântica das sentenças e dados estatísticos que podem ser processados automaticamente. Muitos destes trabalhos estão mais ligados à descoberta automática de elementos nos documentos que apoiem a análise do discurso ou parte dela do que à análise propriamente dita. Um exemplo são os diversos esforços por meio de analisadores discursivos que estabelecem, automaticamente, as relações retóricas existentes em um documento, porém ficando a cargo do especialista evidenciar o objetivo comunicativo que o autor quis alcançar ao se usar tais relações. A análise do discurso trata-se de uma tarefa complexa constantemente realizada pelo usuário indexador (SABINO, 2011). 2.1 Análise Discursiva Automática 21 Dentre alguns esforços para a automação da análise discursiva de textos, destacase o desenvolvimento do primeiro parser retórico para textos em inglês do gênero jornalístico (MARCU; ECHIHABI, 2002; MARCU, 2005). A metodologia desenvolvida e a formalização proposta formam a base de diversos trabalhos em análise discursiva automática, incluindo a teoria de estruturação retórica de textos conhecida pela sigla RST (do inglês, Rhetorical Structure Theory ) (PARDO; NUNES, 2006). Nesse trabalho, foram identificados e tratados problemas para a automação da análise discursiva como a delimitação dos segmentos textuais que expressam proposições simples; a identificação das relações retóricas intra e intersentenciais de forma automática; a classificação de proposições das relações; e a construção das estruturas retóricas válidas de um texto a partir dessas relações. Com isso, este trabalho avançou nas pesquisas da análise do discurso ao propor uma metodologia para o estudo da intencionalidade comunicativa de um texto por meio dos marcadores discursivos mapeados previamente para cada relação. Em 2007, tem-se o desenvolvimento de classificadores para a realização de análise discursiva automática de documentos textuais e de áudio por meio da técnica de Aprendizado de Máquina SVM (Support Vector Machine) em que documentos são agrupados por similaridade retórica (REITTER; MOORE, 2007). Este trabalho analisa as repetições lexical e sintática em diálogos para o alinhamento linguístico dos interlocutores. Para isso, os classificadores combinam diversas SVMs, cada uma treinada com dados estruturados para cada tipo de teoria discursiva, aplicando sobre as mesmas a probabilidade de ocorrência de cada relação retórica, conforme as repetições do texto analisado, escolhendo a relação com maior probabilidade. Esse trabalho subsidia a análise discursiva de forma mais extensiva com a descoberta de relações mais confiáveis e especificadas, porém o poder de processamento aumenta, visto que a técnica SVM processa os segmentos textuais em pares (REITTER; MOORE, 2007). No ano seguinte, foi proposto a implementação de um conversor léxico, o Discourse Marker Lexicon (DIMLEX), baseado em análise de coerência local para o reconhecimento de relações retóricas causais (STEDE, 2008) . O DIMLEX processa, além da repetição lexical de termos no texto, a coerência de tais termos em cada relação e a dependência sintática entre as relações a fim de obter marcadores discursivos em toda a estrutura do documento. Durante a análise discursiva de um documento textual, uma determinada estrutura parcial de relações retóricas pode não contemplar todos os segmentos do documento, 2.1 Análise Discursiva Automática 22 principalmente se faltar em alguns marcadores discursivos ou ocorrer ambiguidade retórica. Neste contexto, o trabalho proposto em (VERHAGEN et al., 2009) consiste na implementação de um arcabouço para identificar relações temporais no texto, aplicando técnicas de RI para auxiliar na análise discursiva, utilizando o modelo vetorial para comparar cada segmento textual com os metadados do título do documento analisado. Recebem as maiores pontuações os segmentos mais próximos do vetor do título e estes são considerados como categorias específicas, permitindo que segmentos mais distantes sejam especializados dentro da árvore estrutural retórica criada. Em relação aos analisadores supracitados, o sistema de informação proposto contempla, além do título dos vídeos, metadados discursivos e baseados em conteúdo do áudio, permitindo analisar a função semântica entre os elementos televisivos representados, bem como realizar a recuperação de vídeos utilizando técnicas de RI sobre essa variedade de metadados. No Brasil, o analisador discursivo automático DiZer (DIscourse analyZER) merece destaque no processamento discursivo de textos para o idioma português brasileiro (PARDO; NUNES, 2006). Este trabalho utiliza técnicas da Inteligência Artificial (IA) para identificar relações retóricas no documento por meio de marcadores ou metadados discursivos, palavras e frases indicativas, e agrupa tais relações para apresentar ao especialista, de forma sequencial e fácil de ser entendida, a estrutura retórica geral do conteúdo. Além disso, o analisador descreve, de forma simples e utilizando frases conhecidas na literatura, as intenções do autor entre cada relação. O analisador foi implementado para um repositório contendo 740 padrões de análise discursiva que especificam o relacionamento entre relações retóricas e seus metadados textuais. Por meio de técnicas textuais de casamento de padrões, cada segmento extraído do texto é processado e a estrutura simbólica gerada é consultada no repositório. Além disso, o analisador permite a realimentação da base à medida que os usuários especialistas colaboram com anotações textuais sobre os documentos do acervo. No contexto dos arquivos audiovisuais, o problema da análise discursiva de vídeos é tratado e discutido em (SABINO, 2011). Semelhantemente, no presente trabalho, são utilizadas técnicas de análise do discurso midiático (CHARAUDEAU; GHIGLIONE, 1997) para a geração de metadados textuais para a descrição e indexação de vídeos televisivos. Sobre um acervo contendo vídeos de programas dos gêneros Debate, Entrevista e Telejornal, discuti-se o papel dos modos de organização do discurso para o funcionamento da comunicação entre os locutores participantes no programa. Dessa forma, pôde-se determinar categorias em função de finalidades discursivas de um ato 2.2 Sistemas de Informação Multimídia 23 de comunicação sobre as quais o conteúdo informacional do vídeo fosse descrito e indexado, subsidiando a recuperação e análises futuras desses arquivos audiovisuais. O sistema de informação desenvolvido nessa dissertação destaca-se por apoiar a análise do discurso de documentos audiovisuais, utilizando-se metadados discursivos mapeados para cada relação entre o conceito midiático e o respectivo conteúdo informacional. Além disso, o sistema realiza a recuperação dos vídeos e o levantamento de infográficos por meio desses metadados ou marcadores, combinando-os e explicitando-os sobre as relações midiáticas existentes no acervo digital analisado, a fim de se facilitar a análise discursiva dos vídeos televisivos por especialistas. 2.2 Sistemas de Informação Multimídia Entre alguns dos principais trabalhos recentes focados no desenvolvimento de sistemas de informação similares ao proposto neste projeto de pesquisa, pode-se destacar: o Open Video Digital Library Project (MARCHIONINI; WILDEMUTH; GEISLER, 2006), o Físchlár (LEE; SMEATON, 2006; SMEATON; LEE; MCDONALD, 2004), o Informedia (WACTLAR et al., 1999) e o Opencast Matterhorn (KETTERL; SCHULT; HOCHMAN, 2009, 2010). Estes projetos contribuíram significativamente para o avanço das pesquisas na área e se basearam no uso de técnicas robustas para a recuperação de informações audiovisuais, tais como técnicas de sumarização e visualização de conteúdos de vídeo (HUGHES et al., 2003; CHRISTEL et al., 1998) e reconhecimento de voz (BROWN et al., 2001). O projeto Open Video Digital Library (MARCHIONINI; WILDEMUTH; GEISLER, 2006) iniciou-se em meados da década de 90, objetivando desenvolver um sistema de informação que fornecesse conteúdos multimídia para atividades educacionais e de pesquisa em escolas norte-americanas. Uma biblioteca digital inovadora foi desenvolvida, contendo não somente vídeos, como também páginas Web, textos e imagens referentes a, por exemplo, documentários produzidos pelo governo norte-americano e pelo Canal de TV Discovery. Por meio deste projeto, foram desenvolvidas novas interfaces de consulta e técnicas para recuperação de informação baseada em conteúdo (GEISLER, 2003; MU; MARCHIONINI, 2003; GEISLER et al., 2002; DING; SOERGEL; MARCHIONINI, 1999). O sistema desenvolvido possui interface Web e utiliza tecnologias abertas, tais como, o sistema operacional Linux, o servidor Web Apache e o banco de dados MySQL. Devido ao grande volume de informações existente na 2.2 Sistemas de Informação Multimídia 24 biblioteca desenvolvida, os arquivos de vídeos são armazenados em vários servidores distribuídos. No projeto do sistema Físchlár (SMEATON; LEE; MCDONALD, 2004), criado pelo Centro para Processamento Digital de Video da Universidade da Cidade de Dublin, Irlanda, foram analisadas e desenvolvidas técnicas para processamento e recuperação de vídeos, tais como, segmentação de vídeos em tomadas (camera shot boundary detection), extração de quadros-chave, análise de legenda oculta e arquiteturas XML para tarefas de recuperação de vídeos. Um sistema com interface Web foi desenvolvido, o qual suporta operações de captura, indexação, armazenamento, busca e sumarização de vídeos em aplicações como: uma biblioteca digital de conteúdos genéricos transmitidos por oito canais de TV (Físchlár-TV), uma biblioteca digital focada em programas de notícias de TV (Físchlár-News) e uma biblioteca digital contendo vídeos de ensino de enfermagem (Físchlár-Nursing). Todas estas aplicações compartilham de uma mesma arquitetura XML. O padrão MPEG-7 é utilizado para a representação e intercâmbio de metadados. O sistema Informedia da Universidade Carnegie Mellon (WACTLAR et al., 1999) representa um dos trabalhos mais relevantes na área de recuperação automática de informação multimídia. Este sistema oferece diversas possibilidades de realização de pesquisa e recuperação de programas de TV e rádio (programas atuais e antigos), baseadas nos processamentos dos conteúdos das informações pesquisadas. Técnicas de processamento e análise de fala, imagens e linguagem natural (Hauptmann et al., 2008; Christel and Wactlar, 2006) são amplamente utilizadas, buscando-se automatizar o processo de descrição, segmentação e indexação de vídeos. É interessante ressaltar que esforços de pesquisa têm sido realizados para potencializar este sistema com a capacidade de sintetizar em um único documento (um resumo) as informações contidas em múltiplos tipos de dados (textos, imagens, áudio e vídeo) sobre um determinado tema. O Opencast Matterhorn (KETTERL; SCHULT; HOCHMAN, 2009, 2010) é um projeto de software de código aberto para produzir, gerir e distribuir arquivos audiovisuais de conteúdo acadêmico, criado pela Opencast Community, uma iniciativa da Universidade da Califórnia (US Berkeley) em 2008 que, atualmente, reúne 13 instituições da América do Norte e da Europa. O projeto combina as experiências e soluções individuais de diferentes universidades em um único produto com licença livre. A criação de um sistema unificado com um processo de desenvolvimento aberto foi projetado 2.2 Sistemas de Informação Multimídia 25 para promover a interoperabilidade de conteúdos educativos. O sistema disponibiliza uma interface web bem simples para que o usuário possa indexar e recuperar os vídeos existentes na base. Pela interface de administração de conteúdo, a indexação pode ser feita por meio do upload de um arquivo audiovisual existente na máquina do usuário ou selecionando arquivos listados no servidor, adquiridos por algum meio de captura de áudio e vídeo. Além dessa descrição manual de texto feita pelo usuário indexador, o sistema processa dados intrínsecos aos vídeos como tamanho, duração e nome do arquivo bem como realiza a segmentação simples dos vídeos em quadros-chave ou key-frames, selecionados por um algoritmo de detecção de bordas. Na interface de busca, o sistema permite a recuperação textual e a visualização dos vídeos utilizando como ranqueamento a quantidade de acessos. O Matterhorn utiliza os padrões Dublin Core e MPEG-7 como esquemas de metadados para indexação e permite a implementação de diversos serviços personalizados. No Brasil, os trabalhos realizados pelo Núcleo de Processamento Digital de Imagens (NPDI) do Departamento de Ciência da Computação da Universidade Federal de Minas Gerais (UFMG) merecem especial destaque, sobretudo aqueles voltados para o desenvolvimento de aplicações hipermídia para gerenciamento de documentos multimídia e preservação de acervos digitais (NUNES; ARAÚJO; SOUZA, 2004; VALLE, 2003; SOUZA et al., 2002; ARAÚJO; GUIMARÃES, 2000). Em (NUNES; ARAÚJO; SOUZA, 2004; SOUZA et al., 2002), os autores discutem o processo de digitalização de acervos e a utilização de sistemas de informação para permitir um acesso ágil aos mesmos, utilizando como estudo de caso o Centro de Conservação e Restauração de Bens Culturais Móveis (CECOR) da UFMG. Nestes trabalhos, os autores apresentam o protótipo de um sistema de informação multimídia, chamado Restaure, para armazenar e gerenciar a consulta de documentos digitalizados pertencentes ao acervo de fotografias e slides do CECOR. Em (VALLE, 2003) explora-se detalhadamente os benefícios e desafios trazidos pela aplicação de sistemas de informação multimídia aos acervos de valor permanente, identificando os principais requisitos para sistemas de gestão documental, sistemas de controle do fluxo de trabalho e plataformas de representação e recuperação da informação que visem beneficiar o usuário do universo arquivístico. Um modelo de sistema de gestão documental é apresentado, sendo aplicado especificamente ao acervo de fotografias do Arquivo Público Mineiro (APM). A problemática da indexação e recuperação de imagens e vídeos baseada em con- 2.2 Sistemas de Informação Multimídia 26 teúdo visual é abordada em (ARAÚJO; GUIMARÃES, 2000). Os autores expõem os principais benefícios deste tipo de abordagem, a qual se mostra especialmente atraente em um mundo onde os usuários buscam cada vez mais atingir, de maneira rápida e precisa, seus objetivos informacionais. De fato, estas técnicas tem sido amplamente estudadas por diversos pesquisadores (ENSER, 2008), constituindo uma área de pesquisa bem característica, referenciada pelas siglas CBVR (do inglês, Content-Based Video Retrieval) e CBIR (do inglês, Content-Based Image Retrieval). O presente trabalho se enquadra no contexto de desenvolvimento de sistemas de informação multimídia, utilizando técnicas e conceitos empregados em trabalhos recentes relacionados com a representação, descrição, classificação e processamento de vídeos digitais (PEREIRA et al., 2011; FREITAS; PÁDUA; BARROS, 2011; MUTHUKUMAR; SEETHA; PÁDUA, 2011; SOUZA et al., 2011; PEREIRA et al., 2010; LIMA et al., 2010), combinando metadados gerais independentes do conteúdo com metadados dependentes de conteúdo determinados por meio de dados textuais obtidos do reconhecimento automático de voz (áudio) e de técnicas de análise do discurso sobre acervo midiático (DAVID-SILVA, 2005). Além disso, foram aplicadas algumas abordagens propostas por diversos pesquisadores ao longo dos últimos anos, tais como a implementação de interfaces de interação com o usuário, padrões de indexação de arquivos audiovisuais, modelagem de banco de dados multimídia e recuperação de informação (KETTERL; SCHULT; HOCHMAN, 2010; LEW et al., 2006; MARCHIONINI; WILDEMUTH; GEISLER, 2006; WACTLAR et al., 1999; SMEATON; LEE; MCDONALD, 2004). 27 3 Fundamentação Teórica Nesse capítulo, são apresentados alguns dos principais conceitos e ferramentas tecnológicas que fundamentam o desenvolvimento do sistema de informação multimídia proposto nesse trabalho, tais como modelagem conceitual em bancos de dados multimídia; técnicas de análise do discurso midiático; técnicas de indexação e recuperação de informação; lógica e teoria de conjuntos nebulosos; e uma abordagem para modelagem de bibliotecas digitais. 3.1 Modelos de Dados em Banco de Dados Multimídia Nas últimas décadas, a computação vem evoluindo no que se refere às metodologias e às tecnologias de modelagem e armazenamento de dados. Além disso, têm-se os diversos tipos de bancos de dados que armazenam grande quantidade de informação em um curto espaço de tempo. Neste cenário, o modelo de dados a ser utilizado deve fornecer uma visão precisa e objetiva de como os dados serão armazenados a fim de favorecer o entendimento de conceitos, especificações e regras durante o projeto de banco de dados (BORBA; MORALES, 2006). Para a implementação de um banco de dados, é necessário definir o modelo de dados para a aplicação. Um modelo de dados é uma coleção de conceitos que podem ser usados para descrever um conjunto de dados e operações para manipular esses dados. Os modelos de dados podem ser classificados em modelo conceitual, lógico e físico, conforme a etapa de desenvolvimento do projeto do banco em que o modelo é utilizado (ELMASRI; NAVATHE, 2002). Nesse trabalho, o modelo conceitual é utilizado na criação de algumas tabelas do módulo de gerência de dados descrito na Seção 4.2, ajustando-se os modelos lógico e físico do arcabouço Matterhorn. O modelo conceitual representa as entidades e seus relacionamentos conforme observadas ou expostas no mundo real durante a fase de análise, desconsiderando 3.1 Modelos de Dados em Banco de Dados Multimídia 28 detalhes impostos pela tecnologia, metodologias ou dispositivos físicos. No modelo lógico, construído a partir do conceitual, as entidades e relacionamentos mapeados são representadas por um padrão mais técnico e formal, considerando as limitações tecnológicas e decisões de projeto, mas ainda se abstém do ambiente físico onde os dados serão armazenados no computador. Já no modelo físico, tem-se a criação do banco de dados (ELMASRI; NAVATHE, 2002). Os modelos de dados aqui discutidos possuem elementos que contribuem para modelar quaisquer tipos de bancos de dados. No entanto, algumas características foram estendidas para permitir a implementação de bancos de dados multimídia, uma abordagem atual para armazenamento e gerenciamento de arquivos audiovisuais. Em outros termos, não somente campos com valores textuais devem ser persistidos, mas também arquivos de áudio, imagem e vídeo, bem como seus respectivos metadados. Dentre as principais implementações de um banco de dados multimídia, encontramse o paradigma da Orientação a Objetos (OO), o armazenamento de referências externas e a persistência de dados multimídia não interpretados (LI et al., 2004). A persistência de objetos oferece mecanismos para definição de tipos, extensão de tipos existentes e a modelagem de relacionamentos complexos entre as entidades. Isso permite representar objetos multimídia estruturados complexos e definir tipos de mídia abstratos. O armazenamento de referências externas possui referências para arquivos que contêm os objetos multimídia, permitindo acessá-los de forma simplificada, porém não garantindo a consistência desses arquivos, uma vez que estão externos ao seu controle. Já a abordagem para o armazenamento de dados multimídia não interpretados, uma sequência de bytes em campos do tipo BLOB (Binary Large Object), permite que os mesmos sejam persistidos diretamente no banco que mantém a consistência da base, continuando o problema de acesso rápido a dados complexos. Neste trabalho, um banco de dados multimídia foi modelado para armazenar as referências aos arquivos de vídeos e às respectivas transcrições obtidas do processamento de áudio. Além disso, sobre a estrutura de banco de dados existente no Matterhorn, arcabouço utilizado para realizar a gerência de vídeos, funções de agregação e atributos derivados foram adicionados a fim de obter metadados para auxiliar o processo de avaliação automática de vídeos. Os demais metadados modelados para esse trabalho foram implementados em um banco de dados de índices sobre os quais os serviços de recuperação de vídeos atuam. Estes módulos e os metadados mencionados são detalhados nas próximas seções. 3.2 Indexação Multimodal de Vídeos 29 3.2 Indexação Multimodal de Vídeos Para organizar arquivos multimídia, sejam em servidores, páginas ou mesmo em discos locais, e garantir ou melhorar o acesso aos mesmos, é necessário criar métodos eficientes de indexação e de pesquisa. A etapa de indexação é muito importante para que os arquivos sejam armazenados sob uma lógica que possibilite a localização rápida dos mesmos por meio de metadados. Pela grande abstração existente em sua semântica, destaca-se a indexação de vídeos, sendo esta uma etapa crítica sobretudo em aplicações na Internet que demandam a rápida exibição de vídeos a usuários. Os metadados são dados estruturados e codificados que representam as informações de um recurso informacional em meio digital ou não, contendo uma série de características descritas por meio de padrões, ou seja, os metadados são os dados que descrevem os dados de uma aplicação (ROSETTO, 2004). Os metadados que visam identificar uma informação de forma suficiente para que ela seja acessada rapidamente são comumente chamados de índices (LANCASTER, 2004). Em pesquisas sobre recuperação de vídeos, é interessante utilizar indexação multimodal para extrair não somente metadados textuais, mas também áudio e imagem. A combinação entre esses formatos de dados vem ganhando espaço na comunidade científica por meio de pesquisas de técnicas viáveis para processos automáticos (CHRISTEL, 2007). Sistemas de recuperação de informações multimídia, especificamente vídeos, fazem uso constante de metadados, taxonomias e linguagens documentárias para descrever e indexar os conteúdos dos arquivos de dados (LANCASTER, 2004). Para se obter esses metadados, a extração automática das características do vídeo mostra-se como uma opção muito útil, mas esse tipo de abordagem pode não ser viável, pois quanto maior for o nível de abstração, maior a dificuldade em extrair metadados automaticamente, sendo necessário descrevê-los de forma manual bem como combinar técnicas automáticas, para a obtenção de informações mais precisas que gerem os índices na indexação. As próximas subseções descrevem as formas de obtenção de metadados utilizadas nesse trabalho sob o âmbito da indexação textual, incluindo o processo de aquisição e transformação de texto para a geração de índices; as técnicas de Parser, Stopping e Stemming; bem como o processo de reconhecimento de voz sobre os sinais de áudio dos vídeos. 3.2 Indexação Multimodal de Vídeos 30 3.2.1 Indexação Textual A indexação textual baseia-se no ato de selecionar ou definir termos, palavras ou expressões, que irão descrever o conteúdo de um documento, levando em consideração um público específico (BORGES; MACULAN; LIMA, 2007), ou seja, processar os documentos e colocar o texto correspondente em índices, dados estruturados que possam ser pesquisados rapidamente. Por meio da aquisição de conteúdo textual, transformação e criação de índices, o processo de indexação textual constrói a estrutura que habilita a pesquisa de documentos. A aquisição do texto identifica e extrai o conteúdo textual dos documentos, disponibilizando-os para pesquisa. Nessa fase, a extração de texto pode ocorrer pela simples leitura de um documento, bem como por métodos computacionais mais avançados. Após esse processamento, o texto obtido é gravado em uma base de dados e utilizado na etapa de transformação. A base de dados armazena o conteúdo textual extraído de todos os documentos e seus respectivos metadados como tamanho do arquivo, estrutura, tipo, dentre outros. Na etapa de transformação, o texto extraído é normalizado em termos de indexação (palavras-chave) e armazenados em estruturas de dados chamadas de índices em uma base de dados (criação de índices). A transformação ou normalização do texto é obtida por meio de técnicas de Parser, Stopping e Stemming, dentre outras. O Parser realiza a análise morfo-sintática do texto, a fim de se obter informação linguística. A técnica de Stopping elimina do texto palavras irrelevantes ou que contribuem pouco para indexação (stop words). A radicalização das palavras do texto é realizado por meio do Stemming, permitindo buscas futuras pelo radical da palavra informada (GONZALEZ; LIMA; LIMA, 2006). Coleção de Documentos Aquisição do Texto Criação de Índices Email, notícias, artigos, formulários, páginas web, cartas Índices Transformação do Texto Figura 3.1: Processo de indexação textual (CROFT; METZLER; STROHMAN, 2010). 3.2 Indexação Multimodal de Vídeos 31 Figura 3.2: Estrutura de uma lista invertida para índices textuais. Em muitos sistemas para obtenção de dados, os índices de pesquisa textual são organizados como listas invertidas (ver Figura 3.2), em que cada palavra é uma chave que aponta para os documentos nos quais ocorre (BAEZA-YATES; RIBEIRO-NETO, 1999). O conceito existente no processo de indexação sobre o estudo teórico das análises léxica, sintática e semântica de uma determinada linguagem, principalmente no que se refere a técnicas de análise do discurso, já se trata de uma pesquisa à parte, merecendo um espaço na Seção 3.3 desse capítulo. Dessa forma, o conceito de indexação será abordado de forma mais objetiva, explicando a estrutura de índices em que as pesquisas irão atuar. Além da estrutura dos documentos, as aplicações que utilizam indexação textual devem acessar o conteúdo dos mesmos. Dessa forma, é necessário extrair o texto de interesse antes de indexá-lo. Basicamente, nesse trabalho, propõe-se que as descrições textuais associadas aos vídeos televisivos sejam obtidas de duas formas: (i) por meio de anotações textuais feitas por documentalistas e (ii) por meio de abordagens automáticas baseadas na análise dos conteúdos dos sinais de áudio dos vídeos. No primeiro caso, os metadados são obtidos manualmente por meio de um formulário específico para a descrição de vídeos televisivos, respondendo a questões subjetivas que abordam as estratégias, o resumo, a intencionalidade comunicativa, o públicoalvo e demais características para a geração de metadados dependentes do conteúdo. 3.2 Indexação Multimodal de Vídeos 32 Nesse caso, utiliza-se técnicas da Análise do Discurso para subsidiar o processo de descrição (CHARAUDEAU; GHIGLIONE, 1997; DIAS; NAVES, 2007). Já na extração automática, utiliza-se o reconhecimento de voz dos sinais de áudio, gerando conteúdo textual a partir de um processo de transcrição. O sistema propõe uma maneira para indexação e recuperação de vídeos por meio das bibliotecas Lucene e Solr, desenvolvidas pela Fundação Apache (GOSPODNETIĆ; HATCHER, 2005). Essas bibliotecas possuem métodos para realizar a indexação de textos com alto desempenho, sendo possível recuperar qualquer dado que possa ser convertido em texto ou que possa ser extraído dele metadados textuais. As bibliotecas Lucene e Solr possuem como característica a simplicidade, não sendo necessário que o desenvolvedor conheça profundamente o funcionamento das mesmas: basta utilizar um conjunto de classes que abstraem toda a complexidade de indexação e recuperação, facilitando o processo de implementação. 3.2.2 Indexação Baseada em Sinais de Áudio A informação presente nos sinais de áudio em vídeos televisivos é algo valioso a ser indexado para a posterior recuperação, uma vez que a mesma está diretamente conectada ao conteúdo informacional dos vídeos. Para um indexador, seria uma tarefa árdua observar o áudio embutido em vídeos e destacar palavras-chave para que, assim, crie os índices correspondentes. Com base nisso, procura-se por uma solução em que seja implementada uma tarefa computacional em que não exista o esforço humano para desempenhar a indexação de vídeos utilizando sinais de áudio. O estudo sobre Sistemas de Reconhecimento de Voz (SRV) envolve áreas de pesquisa interdisciplinares como processamento de sinais, reconhecimento de padrões, linguagem natural e linguística. Esses sistemas, que têm aplicações em uma ampla gama de problemas de processamento de sinal, representam uma revolução na área de Processamento de Sinais Digitais (DSP, do inglês Digital Signal Processing). Os sistemas supracitados são capazes de compreender a entrada de fala contínua de vocabulário de centenas de milhares de palavras em ambientes operacionais. O fato de existir poucos trabalhos sobre tais sistemas, para a língua portuguesa, acarreta a deficiência de sistemas de busca audiovisual com indexação automática, tornando mais difícil a atuação de pesquisadores na área de recuperação de vídeos brasileiros. A dificuldade em obter um sistema robusto está ligada à própria com- 3.2 Indexação Multimodal de Vídeos 33 plexidade do problema e à de um corpus de voz digitalizado de boa qualidade, com suas respectivas transcrições, somado a recursos específicos para o português brasileiro. A fim de melhorar o estado da arte para o problema, existe um grande esforço realizado por pesquisadores do Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará. Utilizando-se um modelo acústico desenvolvido pelo LaPS, este trabalho apresenta uma solução ao problema de coletar automaticamente palavras ditas em um vídeo e utilizá-las para indexar tal vídeo. Um SRV típico deve receber, como entrada, um determinado vídeo ou, mais precisamente, o sinal de áudio do vídeo, e produzir a transcrição das palavras ditas na respectiva faixa de áudio, que são as palavras-chave a serem indexadas (HANSEN et al., 2006; HUANG; ACERO; HON, 2001). Para extrair a parte de áudio de um vídeo, pode ser utilizado um conversor de Áudio/Vídeo, utilizado na etapa de divisão de componentes do vídeo (Demux). O bloco Front-End em conjunto com o bloco Decodificador compõem a Engine do SRV, contendo algoritmos essenciais para se trabalhar com fala em qualquer língua. O Front-End tem como objetivo transformar a faixa de áudio pura em parâmetros que são capazes de descrever melhor o sinal de áudio. Com o suporte dos Modelos Acústico e Linguístico, o Decodificador mapeia os parâmetros oriundos da faixa de áudio, que foi extraída do vídeo de entrada, em uma sequência de caracteres. Os Modelos Acústico e Linguístico, somados ao Dicionário Fonético, compõem a Base de Conhecimento necessária para trabalhar com voz sobre uma determinada língua. A Figura 3.3 fornece uma visão geral da arquitetura Figura 3.3: Arquitetura de um SRV típico. 3.3 Análise do Discurso Midiático 34 de um SRV. No escopo desse trabalho, a base de conhecimento foi específica para o idioma português brasileiro. 3.3 Análise do Discurso Midiático No processo de descrição dos documentos para a conversão da linguagem presente no documento para a linguagem documentária, que inclui elementos como descritores e palavras-chave, tem-se a necessidade de um vocabulário controlado a fim de se expressar o conteúdo do documento e contornar diversos fenômenos linguísticos que englobam os problemas relativos à semântica (SABINO, 2011). Dessa forma, conforme a particularidade da linguagem televisiva, tem-se como recurso a utilização de técnicas de Análise do Discurso (AD) para subsidiar a descrição e a extração de padrões multimodais no processo de indexação de documentos que, nesse trabalho, se limitam a arquivos audiovisuais, especificamente vídeos televisivos. A definição de discurso envolve os conceitos de enunciado, referente ao que é dito, e de enunciação, que corresponde à forma de dizer, estabelecendo-se entre esses conceitos uma relação de existência mútua (BENVENISTE, 1976). Além disso, a enunciação pode ser definida como o ato de produzir um enunciado, que inclui os sujeitos da troca comunicativa, o enunciador e o enunciatário. Este se refere ao sujeito para quem o dito é dirigido, e aquele, ao sujeito que fala. Dessa forma, um dos focos de estudo da Análise do Discurso é essa relação entre enunciado e enunciação, bem como entre os sujeitos correspondentes. Além de se ater ao que é dito em um programa, trata-se também de analisar a relação Eu-Tu estabelecida entre os sujeitos da enunciação, trabalhando sobre os dispositivos enunciativos que refletem as formas de disponibilizar a informação (RINGOOT, 2006; DAVID-SILVA, 2005). A condição para a compreensão entre os interlocutores é a existência de um contrato de comunicação que interfere na construção do sentido: todo ato de linguagem depende de um contrato de comunicação (CHARAUDEAU, 1994). O contrato de comunicação é o que estrutura uma situação de comunicação entre o enunciador (locutor) e o enunciatário (alocutor), permitindo a realização dos atos de linguagem. A linguagem está intimamente associada à situação concreta de enunciação. Os participantes envolvidos nas trocas comunicativas e o contexto em que se inserem determinam o uso da linguagem. A finalidade comunicativa (para que é dito), a temática (sobre o que se diz algo), a identidade dos participantes (quem diz a quem) e as 3.3 Análise do Discurso Midiático 35 condições de produção (quais as circunstâncias do dizer) são determinadas pela situação de interação. Desse modo, pode-se compreender que não é possível separar a linguagem de seu uso concreto (DAVID-SILVA, 2005). A finalidade norteia os outros elementos intrínsecos à situação de comunicação, como a identidade, o lugar e o propósito, ou seja, toda a cena enunciativa nos termos de (MAINGUENEAU, 2007). A finalidade comunicativa é considerada um dos elementos essenciais para a análise do ato de linguagem e seleciona um tipo de visada, que orientará discursivamente a comunicação, definida pelas atitudes enunciativas da instância de produção em relação à instância de recepção, devidamente reconhecidas pelos interlocutores (CHARAUDEAU, 2001). As visadas também correspondem a uma intencionalidade que determina a expectativa do ato de linguagem e possuem seis tipos: visada de prescrição, de solicitação, de incitação, de informação, de instrução e de demonstração. Nos programas de informação televisiva, a visada predominante é a informação, em que o Eu encontra-se em posição superior ao Tu, uma vez que domina a informação (ele sabe) e o Tu encontra-se na posição de “dever saber”. A temática faz parte das condições de produção de todo ato de linguagem e se insere na estrutura de um produto televisual, referindo-se ao espaço público de abordagem do que será tratado no discurso, conforme o gênero discursivo identificado no documento. Em telejornais, a temática também determina a ordem da divulgação dos acontecimentos (DAVID-SILVA, 2005). A identidade dos participantes depende de categorias de ordem psicossocial que podem ser analisadas por meio de diversos aspectos, bem como em relação ao aspecto sócio-profissional do sujeito. Os participantes, bem como suas identidades, refletem como será tratada a temática em questão, pois eles representam um determinado espaço público e os imaginários sociais que ali circulam (CHARAUDEAU; GHIGLIONE, 1997). As condições de produção referem-se às circunstâncias físicas da troca linguageira no processo comunicativo que, em emissões televisivas, criam um dispositivo de encenação. A informação sofre adaptação em relação ao tempo, espaço, condições materiais, dentre outras circunstâncias, fornecendo instruções para a encenação do ato de linguagem, articulado e inserido em dois tipos de espaços: o espaço interno, que representa a organização do dizer ; e o espaço externo ou psicossocial, que representa o fazer (DAVID-SILVA, 2005). Quando o sujeito enunciador utiliza-se de sua enunciação para estabelecer os papéis discursivos de cada participante, tem-se o as- 3.3 Análise do Discurso Midiático 36 pecto cênico do ato de comunicação (CHARAUDEAU, 2001). No processo de indexação, a AD contribui com a análise conceitual e a tradução, que são duas etapas que integram esse processo. A partir dessas duas etapas, temse a atribuição de descritores significativos de um determinado documento, tendo em vista a implementação de um vocabulário controlado (a linguagem documentária), a fim de garantir a recuperação do mesmo de forma mais eficaz (LANCASTER, 2004). Ao subsidiar esse processo utilizando as contribuições da AD, os documentos são descritos de acordo com o significado semântico de seu conteúdo em relação ao universo da aplicação para a qual ele será utilizado. Em outros termos, para esse trabalho, o processo de indexação utiliza a AD para descrever semanticamente os vídeos televisivos, que permitirá aos usuários recuperar os mesmos e, principalmente, analisá-los graficamente em relação aos metadados discursivos modelados. Esse tipo de abordagem mostra-se cada vez mais relevante para arquivos audiovisuais, cada vez mais complexos, principalmente quando se intenta promover não apenas conteúdo descritivo ou textual, mas também informativo. Considerando prováveis problemas referentes à descrição semântica, tem-se nos vídeos televisivos, que se constituem por imagens em movimento, os seguintes fatores: mapeamento dos elementos sonoros como, por exemplo, espaços de silêncio, entonações de diálogo, tempo de fala, músicas; de elementos iconográficos como cores, planos de enquadramento de câmera, eixos de visão, dentre outros; que podem ser analisados no processo de indexação. O conceito de eixos de visão utilizado nesse trabalho refere-se à relação entre o que é mostrado por meio de uma câmera e o espectador, realizando movimentos conforme o que a instância midiática deseja (CHARAUDEAU; GHIGLIONE, 1997). Os gêneros discursivos são percebidos como ocorrências linguísticas constituídas e situadas sócio-historicamente, regendo a prática comunicativa entre os sujeitos do discurso. Os gêneros televisivos podem ser classificados nas categorias entretenimento, informação, educacional e publicidade (SOUZA, 2004). O gênero televisivo Debate tem como característica a presença de um moderador e pode apresentar conflito verbal entre os participantes, que confrontam crenças, valores e opiniões a fim de manter a palavra e convencer o outro, telespectador e participantes envolvidos na troca comunicativa (SABINO, 2011). Dessa forma, a dimensão argumentativa inerente ao debate reflete um caráter polêmico e a gestão do moderador sugere a intenção de ser se propagar um espetáculo midiático predominantemente 3.3 Análise do Discurso Midiático 37 e com visada de informação. No gênero Entrevista, tem-se o posicionamento dos participantes, geralmente duas pessoas, fisicamente um de frente para o outro, sem conflito verbal: os participantes têm direito a uma alternância nos momentos de fala em que um sujeito possui o papel de “questionador” e o segundo sujeito em um papel de “questionadocom-razões-para-ser-questionado” (CHARAUDEAU, 2001). Enquanto que em debates observa-se a finalidade comunicativa de avaliar o que é dito, a entrevista visa informar, permitindo um cenário neutro, na tentativa de se conferir credibilidade, com foco no que é dito e em quem diz (SABINO, 2011). Para os gêneros supracitados, foram estabelecidos os seguintes elementos discursivos: Temática, Identidade dos participantes, Gestão, Disposição dos participantes, Eixos de visão, Planos fílmicos, Sequencialização e Modo enunciativo. O modo enunciativo diz respeito a relação entre os interlocutores, visando estabelecer uma relação de influência entre os mesmos. Já a sequencialização consiste em proceder a certo tipo de encadeamento e sincronia entre as imagens apresentadas no vídeo e as respectivas referências discorridas em áudio, ou seja, se o interlocutor é visualizado simultaneamente à sua fala, bem como a apresentação visual de uma situação e a sua descrição verbal (CHARAUDEAU, 2001). Os demais elementos descrevem a situação de comunicação e interação do ato de linguagem. A partir desses elementos, identifica-se elementos sonoros e visuais que auxiliam a análise semântica dos vídeos. Cada descritor discursivo possui valores pré-determinados por meio de um vocabulário controlado, que será detalhado no Capítulo 4 dessa dissertação. O gênero Telejornal tem como finalidade comunicativa informar. Assim como o gênero Entrevista, possui também estratégias de encenação, incluindo a utilização de recursos próprios aos efeitos e narrativa ficcionais, efeitos de patemização (com a finalidade de captação ao se socializar a intimidade, ou seja, tende-se a manipular a sensibilidade sobre a informação objetivando mais a captação do público do que o ato de informar) e efeitos de realidade, visando sobre esse último a credibilidade e a autenticidade da notícia (DAVID-SILVA, 2005). Assim, os telejornais, por serem discursivamente complexos, possibilitam diferentes análises sobre sua estruturação, combinação de matérias e temáticas. Os respectivos gráficos gerados são analisados na Subseção 5.2 que discute os resultados experimentais desse trabalho. Considerando a mídia televisiva, o tempo de recepção ou abertura de um telejornal é incorporado na enunciação das suas mensagens com o intuito de captar o telespec- 3.3 Análise do Discurso Midiático 38 tador para o universo da informação, ou seja, existe uma transição de contrato do ficcional televisivo para anuncia-se o contrato da informação. Os documentos do gênero Telejornal são analisados por meio dos espaços enunciativos interno e externo. O espaço interno refere-se ao ambiente de estúdio utilizado pelos participantes, incluindo o apresentador que possui papel fundamental na condução informativa. É um espaço que comporta algumas formas de enunciação como as chamadas de matéria, as notas peladas ou simples, as notas-pé e as entrevistas. Já o espaço externo é constituído pelas reportagens e notas cobertas, outros tipos de matérias que apresentam imagens do mundo fatual, ambientes externos do acontecimento sobre o qual deseja-se informar (DAVID-SILVA, 2005). As chamadas de matéria tratam-se da apresentações de reportagem pelo âncora como forma de introduzir o assunto que será exibido, sendo também conhecida como chamada de cabeça. As notas peladas são notícias e outras informações apresentadas pelos apresentadores, tendo como principal característica a ausência da cobertura por imagens. Já as notas cobertas possuem o mesmo objetivo informativo das notas peladas, porém existe a cobertura por imagens, enquanto o apresentador fica ausente de qualquer enquadramento de câmera, como narrador do fato. As notas-pé referem-se a uma informação adicional, prestada pelo apresentador do telejornal, sobre o assunto da matéria que acabara de ser exibida, ou seja, é um fechamento, que pode compreender não apenas um complemento do que foi veiculado, mas um editorial como a opinião do noticiário, da emissora e/ou do próprio âncora. A reportagem refere-se a uma matéria produzida em ambiente externo por uma equipe jornalística, com vistas à apresentação de um determinado conteúdo (DAVID-SILVA, 2005). Além dos espaços enunciativos, tem-se outros tipos de elementos que merecem atenção na AD: as vinhetas e os intervalos. Esses elementos podem ser encontrados em todos os gêneros, porém, para esse trabalho, tiveram os respectivos tempos de emissão medidos somente para telejornais, uma vez que até o momento da concepção dos testes sobre a base de dados, apenas os vídeos com esse gênero continham vinhetas associadas. As vinhetas aparecem na abertura dos telejornais e possuem função fática para a captação do telespectador, carregando elementos sonoros e iconográficos em destaque criados para caracterizar o telejornal e simbolizar um mundo controlado, tornando-o próximo e disponível pela mediação televisiva. Os intervalos, por sua vez, correspondem a outro universo, geralmente ligado à publicidade comercial dos patrocinadores dos programas, que podem ser analisados quanto à sua es- 3.4 Recuperação de Informação Multimídia 39 tratégia ou intenção de comunicação, bem como à sua influência no tempo líquido de emissão que o programa possui na grade programática (SOUZA, 2004). No âmbito deste trabalho, foram gerados, por meio da análise estrutural, metadados textuais dependentes do conteúdo, também chamados de discursivos, tendo em vista a sua correspondência a categorias importantes na análise discursiva dos gêneros televisivos informacionais, possibilitando ao usuário, por meio do sistema de informação proposto, analisar graficamente a distribuição de emissão/imagens e matérias dos vídeos telejornalísticos, bem como recuperar e acessar os mesmos por meio das interfaces de busca implementadas. 3.4 Recuperação de Informação Multimídia Após o processo de indexação, a próxima etapa é definir o processo de recuperação conforme a lógica e a organização dos índices e dos demais metadados do arquivo pesquisado. A RI é uma área da Ciência da Computação que lida com armazenamento automático e recuperação de arquivos de diferentes tipos (CARDOSO, 2000). Em especial, a recuperação de informação multimídia estuda as técnicas de armazenamento e recuperação de arquivos audiovisuais. A crescente complexidade dos objetos armazenados e o grande volume de dados exigem processos de recuperação cada vez mais sofisticados. Dessa forma, a recuperação de informação apresenta continuamente novos desafios e se configura como uma área de grande significância e caráter interdisciplinar (CARDOSO, 2000). O conceito de armazenamento tratado acima não se refere somente à persistência dos dados de interesse, mas também do processo de indexação que produz metadados importantes para armazenar a localização dos arquivos, gerando assim maior eficiência no processo de busca pelos usuários. O cerne da recuperação de informação é modelar como as pessoas comparam conteúdos, o que elas realmente buscam e desenvolver algoritmos para realizar de forma precisa esse processo. A interação com o usuário, a ordenação e a avaliação são os componentes mais importantes no processo de recuperação da informação, conforme a Figura 3.4 (CROFT; METZLER; STROHMAN, 2010). A interação com o usuário fornece a interface entre o indivíduo pesquisador e a máquina de busca, capturando a consulta do usuário e transformando-a em termos de indexação. A interface deve também apresentar a lista dos dados de resposta, ordenados conforme um critério de ordenação. Para isso, a 3.4 Recuperação de Informação Multimídia 40 Dados dos Documentos Interação com Usuário Ordenação Índices Avaliação Dados de log Figura 3.4: Processo de recuperação da informação. consulta fornecida pelo usuário deve ser avaliada por meio de uma base histórica de dados de consulta (log) que melhora a ordenação das informações buscadas ao longo do tempo. Técnicas como a realimentação por relevância tendem a executar a fase de avaliação com o mesmo usuário, porém, em diversas iterações de consulta, a avaliação não é um processo online. Já a etapa de ordenação, uma das mais importantes em máquinas de busca, ocorre imediatamente após a consulta e gera uma lista ordenada de índices baseando-se em pontuações (scores) obtidas por um modelo de recuperação. Esses índices apontam para os dados e metadados dos documentos armazenados e cabe à interface de pesquisa apresentar os respectivos documentos na interação com o usuário. As formas de pontuação de índices indicam como os modelos de recuperação tratam a relevância dos documentos recuperados. Os modelos clássicos de recuperação consideram que cada documento d j é descrito por um conjunto de palavras-chave, chamadas termos de indexação (ti ), existindo um peso wi j ≥ 0 associado para quantificar essa correlação (CARDOSO, 2000). O modelo booleano, por exemplo, verifica se um termo aponta ou não para um documento, retornando-o em caso afirmativo. O modelo citado é de fácil implementação, porém a ordenação da lista de documentos é inexistente. Já no modelo vetorial (BAEZA-YATES; RIBEIRO-NETO, 1999), os índices possuem o número de ocorrências de um termo ti nos documentos da base, tendo as maiores ocorrências um critério de ordenação. Além disso, o peso da consulta é baseado na relevância dos termos pesquisados no espaço n-dimensional, em que n é o número de palavras existentes na base, melhorando a ordenação. O modelo probabilístico calcula a ocorrência dos termos em relação a cada documento e a base 3.4 Recuperação de Informação Multimídia 41 de dados inteira, calculando a probabilidade de que um documento é relevante dado aquele termo. Para se obter sucesso no processo de recuperação, é necessário considerar o contexto social aplicado pelo usuário na necessidade de se buscar informações, pois a situação e o conhecimento do usuário mudam continuamente. A Figura 3.5 ilustra o ciclo de vida da informação que passa pelas fases de criação, busca e utilização, não necessariamente sequenciais. A informação pode estar ativa (matéria bruta), semi-ativa (estagnada, para pesquisa) e inativa (matéria-prima para novas publicações). Esse ciclo mostra que a informação é criada utilizando-se de outras informações, sendo modificada ou acertada à medida que outras informações são utilizadas. Essa informação é então registrada por um ou mais autores. Em seguida, a informação criada é organizada, conforme regras específicas, e indexada, possibilitando a sua recuperação. Agora a informação está disponível para busca e, obtendo-se sucesso nessa fase, a informação será acessada, porém apenas parte dela pode ser útil para o usuário. Dessa forma, a informação é filtrada, bem como outras informações utilizadas, em um processo de mineração e retenção de dados importantes, servido de insumo para novas informações. Os dados não usados são descartados, até mesmo pela falta de manutenção do ambiente publicador. No contexto da informação multimídia, em especial vídeos televisivos, os princi- Ativa Autoria Modificação Uso Criação C CONTEXTO SOCIAL Acesso Filtros Semi-ativa A A ÇÃ O SC UT ILIZ Retenção Mineração Organização Indexação R IAÇÃ O BU Armazenamento Recuperação Descartada Disposição Distribuição Rede Inativa Figura 3.5: Ciclo de vida da informação - Adaptado de (BORGMAN, 1996). 3.5 Teoria de Lógica Nebulosa 42 pais problemas ocorrem nas fases de busca e utilização, refletindo indiretamente na criação de documentos científicos que utilizam esses recursos. Como informado anteriormente sobre os CEDOCs, a qualidade no processo de busca por vídeos televisivos no Brasil ainda está muito abaixo do esperado pelos pesquisadores. Não existem ferramentas de pesquisa satisfatórias para esse tipo de produção audiovisual e, quando encontrados, os vídeos possuem baixa qualidade de resolução: edição demasiada, remoção de chamadas e descrição pobre (apenas título e um resumo geral). Os mesmos não são mantidos por longos períodos em uma mesma localização, principalmente na Web, pela falta de preocupação em se manter um acervo digital. Esse problema é percebido também em outras áreas do conhecimento que necessitam de ferramentas de pesquisa e manutenção de acervo como, por exemplo, museus, instituições de ensino à distância e bibliotecas virtuais. Dessa forma, cada vez mais, as aplicações de recuperação de informação envolvem documentos audiovisuais estruturados, com conteúdo textual relevante e outras mídias. Informações multimídia geralmente incluem imagens, vídeos e áudio (música e discurso). Em algumas aplicações, documentos escaneados também são importantes. Comparar e descrever o conteúdo dessas mídias é uma tarefa morosa para ser feita manualmente e difícil no contexto da automatização (CROFT; METZLER; STROHMAN, 2010). 3.5 Teoria de Lógica Nebulosa Em muitas aplicações, tem-se o emprego da lógica clássica de Aristóteles baseada no raciocínio de premissas e conclusões, ou seja, é uma lógica binária que declara uma sentença ser falsa ou verdadeira, não podendo ser parcialmente verdadeira e parcialmente falsa (BITTENCOURT, 2006). Esse tipo de lógica está presente na teoria tradicional de conjuntos em que operadores indicam se um elemento pertence ou não a um conjunto, utilizando-se disso para estender outras operações fundamentais tais como união, interseção, diferença e complemento. Dessa forma, pode-se inferir, por exemplo, que a união entre um conjunto U e seu complemento não-U cobre-se todas as possibilidades da aplicação que esses conjuntos representam. A Lógica Nebulosa viola essas suposições por meio do conceito de dualidade que estabelece que algo pode coexistir com o seu oposto (ZADEH, 1965). A lógica clássica trata dos valores “verdade” das afirmações, classificando-os como verdadeiras ou falsas. Não obstante, muitas das experiências humanas não são classificadas sim- 3.5 Teoria de Lógica Nebulosa 43 plesmente como verdadeiras ou falsas: um sim ou um não a certas questões pode tornar a resposta incompleta na maioria das aplicações. O princípio da Lógica Nebulosa implica que a classificação clássica de pertinência de elementos em conjuntos, que pode ser representada pelos estados 0 (nãopertence) ou 1 (pertence), possuem uma probabilidade positiva em relação à uma função de pertinência do elemento a um determinado conjunto, gerando estados no intervalo real contínuo [0, 1]. Diferentemente dos conjuntos clássicos em que a transição entre os mesmos ocorre de forma abrupta, nos conjuntos nebulosos esta transição ocorre de forma gradual, conforme a função de pertinência definida para cada conjunto. As fronteiras entre eles não são nitidamente definidas e um elemento pode pertencer a um conjunto com certo grau que varia entre 0 e 1 (ZADEH, 1965). Com isso, a Lógica Nebulosa suporta os modos de raciocínio aproximados, em vez de exatos, como o ser humano naturalmente pensa (CHAN; AU, 1997). A Lógica Nebulosa é uma técnica que permite modelar o modo impreciso e aproximado de raciocínio humano expresso por um conjunto linguístico, em termos de conceitos qualitativos. Para o processamento de informações utilizando-se essa técnica, é usual modelar os principais componentes de um sistema Nebuloso, conforme a aplicação. Os principais componentes de um sistema Nebuloso são o fuzzyficador, a máquina de inferência e o defuzzyficador, ilustrados na Figura 3.6. O fuzzyficador é composto por partições de conjuntos nebulosos de entrada sobre os quais ocorre o mapeamento de um valor numérico real X da aplicação em valores numéricos nebulosos: as pertinências de X em cada conjunto nebuloso de entrada. Já o defuzzyficador mapeia um valor numérico nebuloso para um valor numérico real, Figura 3.6: Componentes de um sistema típico de processamento nebuloso. 3.5 Teoria de Lógica Nebulosa 44 conforme a aplicação, por meio de métodos nebulosos aplicados aos conjuntos nebulosos de saída depois do processo de inferência. A máquina de inferência nebulosa é composta por um conjunto de regras modeladas para a aplicação: a base de conhecimento (NEGNEVITSKY, 2005). A função de pertinência de um conjunto nebuloso A é definida sobre um determinado universo de discurso U, sendo caracterizada pela função µA : U → [0, 1], que mapeia cada elemento X ∈ U a um número real no intervalo [0, 1] que representa o grau de pertinência do elemento no conjunto A (ZHAOMING et al., 2009). As funções de pertinência podem ser então definidas como ferramentas matemáticas simples, utilizadas para modelar o significado dos rótulos linguísticos associados aos conjuntos, podendo representar, ainda, a maneira subjetiva pela qual um indivíduo entende uma determinada classe de objetos de uma aplicação. Sobre a base de conhecimento, existem operadores que disparam regras específicas de acordo com o processamento dos graus de pertinência obtidos nas partições de entrada, seccionando os conjuntos nebulosos de saída, durante o processo de inferência. Para isso, é necessário definir, no projeto do sistema Nebuloso, qual o tipo de modelo de inferência a ser utilizado: modelo baseado em dados ou modelo baseado em especialistas. Nos modelos de inferência baseados em dados, as regras são extraídas a partir de padrões ou categorias encontrados em massas de dados históricas coletadas estatisticamente nos sistemas que se deseja representar. Nos modelos baseados em especialistas, o conhecimento é levantado a partir de sessões de engenharia do conhecimento por meio da percepção dos especialistas de negócio sobre a aplicação. As regras da base de conhecimento possuem o formato se A então B, em que A é o antecedente e B é o consequente, definindo qual conjunto nebuloso de saída será selecionado. Dependendo do modelo de inferência adotado, a criação da base de conhecimento pode se tornar uma tarefa difícil, principalmente quando se trata de obter regras a partir do conhecimento de especialistas ou de cálculos complexos sobre grandes base de dados (DANTAS, 2010). Para o módulo de avaliação do nível de interesse da recuperação de vídeos no sistema proposto, foram implementadas três partições de entrada, uma de saída e uma máquina de inferência baseada no modelo de Mamdani (MAMDANI, 1974) sobre uma base de conhecimento com 25 regras. Por simplificação, optou-se por modelar todas as combinações possíveis entre as três variáveis de entrada, gerando 27 regras de produção, porém as três regras que modelam vídeos com baixo número de acessos 3.6 Bibliotecas Digitais e a Abordagem 5S 45 e pouco tempo de visualização foram reduzidas a uma só, que implica em vídeos pouco interessantes. Essa modelagem está descrita detalhadamente na Seção 4.5. 3.6 Bibliotecas Digitais e a Abordagem 5S Atualmente, existe uma grande quantidade de informação gerada em formato digital que poderia estar disponível através de bibliotecas digitais. Em função disso, existe uma grande demanda pela construção desses ambientes cujos serviços especializados possam atender apropriadamente as preferências e necessidades de diferentes tipos de usuários. Dessa forma, as bibliotecas digitais vêm sendo amplamente estudadas como ambientes eletrônicos que disponibilizam diversos materiais e diferentes serviços, analogamente às bibliotecas físicas. Assim, podem ser consideradas como sistemas de informação bastante complexos e que devem tratar problemas como (i) a interface com o usuário; (ii) a modelagem e tratamento dos dados; (iii) a interoperabilidade e redes; (iv) e o armazenamento dos dados (GONÇALVES et al., 2004). O conceito de biblioteca digital possui diferentes pontos de vista como em (LEVY; MARSHALL, 1995) que definiram bibliotecas digitais como conjuntos de padrões que intra-relacionam documentos, tecnologia e trabalho. Uma biblioteca digital é um ambiente que agrega arquivos, serviços e pessoas no suporte ao ciclo de vida completo da informação que envolve a criação, disseminação, uso e preservação de dados (DUGUID; ATKINS, 1997). Em termos gerais, trata-se de um sistema aberto composto de diversos subsistemas que envolve um ambiente organizacional, interdisciplinaridade entre profissionais de diferentes áreas, recursos informacionais, usuários definidos, tecnologia de informação, procedimentos, padrões e protocolos, visando o compromissos de longo prazo sobre os dados de interesse (SAYÃO, 2007). Os aspectos que caracterizam uma biblioteca digital são a quantidade e a qualidade dos serviços e do conteúdo oferecidos por ela (POZO et al., 2004). Dependendo dos objetivos e da tecnologia utilizada, os serviços dentro de uma biblioteca digital podem ser bastante complexos e devem permitir expor funções específicas para os usuários e satisfazer suas necessidades de informação. Entretanto, a especificação e construção de uma biblioteca digital requerem esforços significativos quando não são apoiados por metodologias e ferramentas que suportem o ciclo de vida completo de especificação, prototipação e geração de código (POZO et al., 2004). Neste contexto, surge a abordagem 5S, uma técnica que define um arcabouço para modelagem de 3.6 Bibliotecas Digitais e a Abordagem 5S 46 bibliotecas digitais por meio de cinco dimensões denominadas streams, structures, spaces, scenarios e societies (GONÇALVES et al., 2004). Além disso, esta abordagem permite o mapeamento de elementos de bibliotecas digitais em sistemas de informação que possuem tais características. A dimensão streams descreve o tipo de conteúdo e os formatos suportados pela biblioteca digital tais como, áudio, vídeo ou dado textual que são representados por meio de tipos MIME (do inglês, Multipurpose Internet Mail Extensions) para manter compatibilidade com os padrões atuais do W3C (do inglês, World Wide Web Consortium). As estruturas ou structures definem o modo como as partes de um todo são arranjadas ou organizadas. Em bibliotecas digitais, estruturas podem descrever os catálogos de metadados, representar hipertextos, taxonomias, conexões do sistema ou relacionamentos entre arquivos do usuário (GONÇALVES, 2004). Livros, por exemplo, podem estar estruturados conceitualmente em capítulos, seções e subseções; ou fisicamente em capa, páginas e marcadores, dentre outros. O modelo spaces define os ítens que especificam se os modelos utilizados para a recuperação de informação são probabilísticos ou vetoriais, incluindo aspectos relacionados aos índices das coleções e à interface de usuário (GONÇALVES et al., 2004). O conceito envolvido no modelo societies é o de comunidade, que representa um conjunto de entidades com as mesmas características e comportamento. Já os scenarios descrevem serviços, atividades e tarefas executadas pelas entidades nas bibliotecas digitais, especificando os aspectos dinâmicos dos sistemas. Na modelagem dos scenarios, geralmente utilizam-se os conceitos de estado e evento, onde um estado é uma condição ou situação de uma entidade, conforme os valores de seus atributos e relações com outras entidades, e um evento é uma ação que a entidade executa para modificar seu estado (POZO et al., 2004). Basicamente, o sistema proposto neste trabalho pode ser caracterizado como uma biblioteca digital, pois, além de propor um ambiente de pesquisa sobre um acervo digital televisivo e de disponibilizar serviços, dentre os quais a geração de infográficos discursivos, seus principais elementos podem ser caracterizados pela abordagem 5S: • streams: os vídeos como principais recursos de conteúdo suportados pelo sistema; • structures: os vídeos indexados textualmente por meio de metadados Dublin Core (JOHNSTON; POWELL, 2008) e MPEG-7 obtidos da descrição manual e do reconhecimento de voz em sinais de áudio dos vídeos; 3.6 Bibliotecas Digitais e a Abordagem 5S 47 • spaces: as informações são disponibilizadas em interface Web utilizando-se modelos de recuperação vetorial; • societies: os pesquisadores de diversas áreas do conhecimento; • scenarios: os serviços de geração de infográficos discursivos, navegação, indexação e recuperação de vídeos televisivos. Esse mapeamento e a descrição desses elementos são detalhados no próximo capítulo, incluindo os arquivos de configuração, em protocolo XML próprio, para prover a interoperabilidade entre os módulos do sistema proposto e entre outras de suas instalações, caracterizando um aspecto importante de uma biblioteca digital. 48 4 Descrição do Sistema de Informação Multimídia Buscando-se desenvolver um sistema de informação multimídia para apoio à análise discursiva de vídeos de programas do sistema de televisão brasileiro, a metodologia utilizada nesse trabalho consistiu em modelar e implementar cada módulo do sistema baseando-se nos chamados metadados textuais discursivos mapeados por meio de técnicas da Análise do Discurso Midiático. Dessa forma, este capítulo apresenta o sistema de informação multimídia proposto nesse trabalho, descrevendo a arquitetura de componentes desenvolvida, o arcabouço de gerência de vídeos Matterhorn, as técnicas para indexação e recuperação de vídeos televisivos baseadas em uma abordagem interdisciplinar para obtenção de metadados, a geração extensiva de gráficos no apoio à análise discursiva dos vídeos, os bancos de dados multimídia e de índices, e os artefatos mapeados na modelagem da biblioteca digital. 4.1 Os Módulos e a Arquitetura do Sistema O sistema proposto neste trabalho realiza o arquivamento e permite a descrição do material audiovisual transmitido, auxiliando a análise discursiva do mesmo, bem como disponibilizando-o para pesquisadores de diversas áreas interessados em se pesquisar o acervo televisivo brasileiro. Como informado anteriormente, o insumo principal do sistema serão vídeos televisivos exibidos na grade programática da Rede Minas de Televisão, disponibilizados no âmbito de um Termo de Cooperação Técnico-Científica (TCT) firmado entre o CEFETMG e o referido canal de televisão. Estes vídeos são armazenados em um banco de dados multimídia suportado pelo sistema e são processados por diversos méto- 4.1 Os Módulos e a Arquitetura do Sistema 49 Figura 4.1: Visão geral do projeto. dos de indexação automática e manual. Durante o processo automático, os dados e metadados dos vídeos são divididos em conteúdo visual (frames), textual e em sinais de áudio. Na indexação manual, usuários credenciados (documentalistas) realizam a descrição textual dos vídeos, provendo metadados baseados em técnicas de Análise do Discurso Midiático (metadados discursivos), bem como metadados que fornecem características básicas a respeito dos vídeos. Essas etapas geram índices multimodais para cada vídeo e são armazenados em um banco de dados específico. Estes índices são processados pelo sistema nas fases de análise e de recuperação dos vídeos, bem como na geração de gráficos discursivos sobre os respectivos metadados textuais armazenados. A Figura 4.1 exibe uma visão geral do sistema proposto, destacando-se em vermelho os componentes desenvolvidos nesse trabalho sobre os bancos de dados multimídia e de índices, os modelos de indexação e de recuperação de informação, a extração de indicadores para avaliação dos vídeos e geração de gráficos, e as interfaces Web para a interação das informações com o usuário. O sistema integra seis módulos principais para a gerência de dados, indexação e recuperação de vídeos televisivos, análise do nível de interesse, geração de gráficos discursivos e interação com o usuário. Cada módulo foi desenvolvido utilizando-se um arcabouço de gerência de vídeos a fim de incorporar ao sistema os recursos necessários para a manipulação de informação multimídia: os vídeos televisivos. A Figura 4.2 apresenta a arquitetura do sistema que possui um repositório de dados gerenciado por bancos de dados multimídia e de índices. Estes dados alimentam o arcabouço de gerência de vídeos Matterhorn que suporta os serviços de indexação, recuperação, geração de gráficos e navegação disponibilizados pelo sistema por meio de uma interface Web que interage com os indexadores e pesquisadores, usuários pertencentes 4.1 Os Módulos e a Arquitetura do Sistema 50 ao domínio da aplicação. Figura 4.2: Arquitetura do sistema proposto. O módulo de gerência de dados envolve todo o repositório de dados do sistema, incluindo os vídeos e seus key frames, os respectivos sinais de áudio e suas transcrições em arquivo texto, os arquivos de texto referentes aos índices textuais obtidos dos vídeos, e arquivos XML dos metadados em Dublin Core e MPEG-7. Os vídeos, os arquivos XML e as transcrições são armazenados no banco de dados multimídia implementado com referências externas em um banco de dados MySQL. Os arquivos XML apontam para os sinais de áudio e os key frames de cada vídeo. Os arquivos de índices textuais são gerenciados por um banco de dados da biblioteca Lucene que implementa uma máquina de busca por meio de algoritmos de indexação e recuperação de informação textual (GOSPODNETIĆ; HATCHER, 2005). Para o módulo de indexação, utilizou-se o arcabouço de gerência de vídeos Matterhorn para a criação dos índices textuais sobre o repositório de dados, porém formas inéditas de obtenção de metadados textuais foram implementados, visto que o arcabouço gera apenas metadados de poucas características gerais dos vídeos, como será visto na Subseção 4.2 a seguir. Na fase de indexação automática, além das características gerais, foi integrado ao sistema um módulo de reconhecimento de voz sobre os sinais de áudio por meio do SRV Julius sobre uma base de conhecimento para o idioma português brasileiro. Para a indexação manual, um formulário foi implementado com todos os campos necessários para uma descrição completa do vídeo, conforme os métodos de Análise do Discurso, mapeados pela equipe da área de Estu- 4.1 Os Módulos e a Arquitetura do Sistema 51 dos da Linguagem integrante do projeto de pesquisa do qual esse trabalho faz parte. O módulo de recuperação, bem como o módulo de indexação, utilizam parte dos algoritmos de pesquisa do Lucene e do Solr acionados pelo Matterhorn, sendo configurados os arquivos de Parse, Stopping e Steaming para o idioma português brasileiro utilizando-se as recomendações da organização Apache. Além disso, técnicas de recuperação foram implementadas, utilizando-se o modelo vetorial (BAEZA-YATES; RIBEIRO-NETO, 1999), para otimizar o processo de pesquisa nas modalidades de busca geral e busca avançada sobre os metadados textuais mapeados. O modelo vetorial foi escolhido por apresentar, na literatura, bom desempenho na recuperação de dados, pois leva em consideração o casamento parcial e a proximidade dos documentos em relação aos termos da consulta em um espaço euclidiano de n dimensões (em que n é o número de termos) (PACHECO, 2009). A melhoria implementada sobre os algoritmos das bibliotecas supracitadas está em consonância com as respectivas interfaces de busca. Quando o usuário realiza uma pesquisa na modalidade de busca geral, os metadados são separados em grupos e depois combinados para se obter um valor de similaridade final sobre os vídeos contemplados pela pesquisa. Já na modalidade de busca avançada, considerandose a exatidão desse tipo de consulta, apenas os campos que foram preenchidos ou selecionados pelo usuário tem seus respectivos metadados processados, conforme os pesos pré-definidos para os mesmos. Essa abordagem serviu de subsídio para os testes experimentais de recuperação executados para esse trabalho a fim de se validar a eficácia e a eficiência desse módulo no sistema de informação proposto. O gerador de gráficos discursivos é o principal módulo desse trabalho e utiliza o método de busca geral do módulo de recuperação para processar os metadados textuais de todos os vídeos da base de dados conforme as opções selecionadas pelo usuário na montagem dos gráficos. Os tipos de gráficos a serem gerados dependem, primeiramente, do gênero de vídeos televisivos que o usuário deseja analisar. Esse módulo interage diretamente com o usuário por meio da interface Web, ou seja, à medida que as opções disponíveis na interface são selecionadas pelo usuário pesquisador, as opções subsequentes são alteradas dinamicamente para que os respectivos metadados discursivos sejam carregados, bem como os dados derivados do módulo de avaliação do nível de interesse dos vídeos contemplados por essas opções. Já para o módulo de interação com o usuário, o sistema apresenta duas interfaces Web: a interface de administração multimídia e a interface de exibição dos vídeos. A 4.2 Módulo de Gerência de Dados 52 primeira apresenta os status de processamento dos vídeos na base e o formulário descritivo para indexação manual dos vídeos enviados pelo usuário indexador, bem como os vídeos baixados da placa de TV. Já a interface de exibição mostra, na inicialização, os vídeos existentes na base, ordenados pelo maior número de exibições, incluindo os quadros-chave ou key frames extraídos. Posteriormente, quando uma consulta é realizada nessa interface, os vídeos contemplados são ordenados por relevância, em ordem decrescente. Nas próximas seções, cada grupo de módulos será descrito em seus componentes mais fundamentais, os artefatos utilizados e gerados por cada um, contribuindo na integração de todo o sistema de informação multimídia para apoio à análise discursiva dos vídeos televisivos armazenados. 4.2 Módulo de Gerência de Dados Este módulo gerencia o armazenamento e o acesso aos vídeos referentes às programações televisivas do canal Rede Minas. As formas de armazenamento de objetos multimídia, tais como vídeos televisivos, influenciam diretamente nas condições de pesquisas permitidas e no desempenho das mesmas. No sistema proposto, este módulo trabalha sobre um banco de dados multimídia e um banco de índices. Figura 4.3: Metadados modelados e extraídos dos vídeos televisivos. 4.2 Módulo de Gerência de Dados 53 Para a implementação da base de dados, foram mapeados os metadados relevantes de vídeos televisivos para um sistema de informação com o propósito deste trabalho. Por meio de discussões interdisciplinares promovidas pelas equipes do projeto em que esse trabalho faz parte, foram identificados metadados textuais básicos, discursivos, de conteúdo e indicadores de avaliação dos vídeos conforme os acessos que os mesmos possuem na recuperação. A Figura 4.3 ilustra os metadados mapeados e seus respectivos grupos de classificação. Os metadados básicos referem-se às informações gerais dos vídeos, independentes do conteúdo, que podem ser obtidos automática ou manualmente. Os metadados discursivos armazenam os dados obtidos de uma prévia análise discursiva dos vídeos, geralmente incluindo valores de um vocabulário controlado para cada elemento analisado. Dessa forma, tratam-se de metadados dependentes do conteúdo semântico dos vídeos, sendo obtidos manualmente. Já os metadados de conteúdo e os indicadores são obtidos automaticamente por meio de técnicas computacionais. Os metadados de conteúdo são do tipo MDC e, embora modelados na base de dados, somente aqueles referentes ao conteúdo textual obtido do reconhecimento de voz em sinais de áudio tiveram técnicas de extração implementadas no módulo de indexação. Os indicadores podem ser considerados como metadados do tipo MIC e são dados derivados, ou seja, são calculados no momento de seu uso pelo módulo de avaliação do nível de interesse dos vídeos. Além dos metadados modelados para os vídeos televisivos, o módulo de gerência de dados armazena outros metadados decorrentes dos processamentos realizados pelo próprio arcabouço utilizado, bem como componentes de configuração gerados nesse trabalho para gerenciar a comunicação entre os módulos implementados. Por meio desses componentes, os métodos de um módulo podem submeter requisições por um ou mais metadados a outro módulo e este responder com os valores do metadados solicitados. Sobre esses valores, um determinado serviço do sistema de informação é processado e exibido na interface Web do módulo de interação com o usuário. Para os tipos de requisição, foram implementados nesse trabalho diversos arquivos textuais para comunicação de metadados, uma tabela no banco de dados multimídia e 12 campos de indexação (Fields) nos bancos de índices para todos os metadados discursivos, reconhecimento de voz e data de exibição. O banco de dados multimídia armazena os dados dos vídeos, as transcrições obtidas de seus sinais de áudio e os arquivos de metadados. Para os vídeos e os arquivos 4.2 Módulo de Gerência de Dados 54 Figura 4.4: Modelo de Dados do Banco de Dados Multimídia e de Índices. de metadados, a implementação do banco de dados utiliza-se da técnica de referências externas por meio do campo MEDIA PACKAGE ID que armazena uma cadeia de caracteres numéricos, gerado aleatoriamente pelo Matterhorn, e identifica unicamente um vídeo na base inteira. A Figura 4.4 exibe o esquema de dados do banco de dados multimídia implementado com as tabelas lidas pelo Matterhorn na gerência dos vídeos, conforme as orientações do projeto Opencast, porém destacando a tabela TRANSCRICAO criada nesse projeto para referenciar os dados do reconhecimento de voz, visto que o arcabouço originalmente não disponibiliza esse tipo de processamento, bem como a tabela VIDEO do banco de dados de índices, mantida pelo Apache Lucene e Solr. A tabela USER ACTION é a mais acionada no banco de dados multimídia, pois ela armazena todas as ações do usuário sobre a informação, no caso os vídeos, incluindo 4.2 Módulo de Gerência de Dados 55 os dados de cada visualização, quanto tempo que o vídeo foi assistido, a partir de qual momento do vídeo que o usuário selecionou a visualização, a data dessas ações, dentre outros dados. Essas informações, além de permitirem uma análise do uso da informação pelo usuário, subsidiam o módulo de análise do nível de interesse dos vídeos. Essa tabela USER ACTION está ligada à tabela VIDEO do banco de dados de índices, auxiliando a recuperação de vídeos, se essa for a ação do usuário no sistema proposto. Os campos da tabela VIDEO são descritos detalhadamente na seção 4.3. As tabelas SERIES e SCHED armazenam, respectivamente, os dados dos programas televisivos registrados no sistema e os agendamentos de gravações de certos programas. Para este trabalho, por tratar de um sistema de característica arquivística e de processamento contínuo de vídeos, o serviço de agendamento não é utilizado. As tabelas DICTIONARY e CAPTURE AGENT STATE armazenam os metadados referentes ao dicionário utilizado para o reconhecimento de caracteres sobre os frames (OCR) e os dados sobre a placa de captura de sinais de TV. A tabela ANNOTATION possui as anotações inseridas pelo usuário indexador para incrementar as informações sobre vídeos já processados e a tabela TRANSCRICAO, como informado, armazena as referências externas aos arquivos das transcrições obtidas. O banco de dados de índices, mantido internamente pelas bibliotecas Apache Lucene e Solr, armazena os índices textuais gerados no processo de indexação e disponibilizados pelo Matterhorn. Os índices armazenados são formados pelas estruturas de dados documento e campo. Cada entrada do índice refere-se a um documento (classe Document) e cada documento possui diversos campos (classe Field). De forma análoga à teoria de banco de dados na modelagem relacional, os documentos presentes nos índices seriam as linhas de uma tabela e os campos seriam os atributos, ou seja, para cada documento a ser pesquisado, existem campos pelos quais a pesquisa pode ser feita (GOSPODNETIĆ; HATCHER, 2005). Com isso, como o processo de recuperação atua diretamente sobre os índices criados no processo de indexação, o banco de dados de índices cria um documento para cada vídeo e, para cada documento, armazena justamente os valores textuais referentes aos campos existentes no formulário descritivo implementado na interface de interação com o usuário. Além desses campos, é armazenado também o identificador único de cada vídeo, o MEDIA PACKAGE ID gerado para o banco de dados multimídia e o conteúdo dos arquivos de transcrição (campo reconhecimentoVoz), integrando os dois bancos no repositório de dados. Dessa forma, durante o processamento da 4.3 Módulos de Indexação e Recuperação 56 consulta do usuário, o módulo de recuperação consulta a base de índices por meio do Matterhorn e, para cada requisição gerada pelos termos da consulta, o banco de dados de índices retorna para o arcabouço uma lista de documentos. O módulo de recuperação processa essa lista e disponibiliza, para a interface de interação com o usuário, os respectivos vídeos contemplados. 4.3 Módulos de Indexação e Recuperação O módulo de indexação é responsável por atribuir índices, também chamados de descritores, a cada arquivo de vídeo, de forma a garantir um processo eficaz de recuperação da informação solicitada. Os índices deverão ser significativos, discriminantes e utilizáveis, pois devem estar relacionados com a forma que o usuário faz sua consulta no ambiente real (ARAÚJO; GUIMARÃES, 2000). Já o módulo de recuperação, intimamente integrado à estrutura criada no processo de indexação, utiliza a consulta do usuário aplicada ao sistema para recuperar os vídeos cujos índices foram contemplados pela consulta. Dessa forma, antes de descrever os componentes desses módulos, é necessário apresentar a arquitetura do arcabouço Matterhorn que realiza a integração entre eles no processamento de índices. A Figura 4.5 ilustra esse fluxo de dados e metadados gerenciado pelo Matterhorn, observando-se as alterações realizadas para esse trabalho, destacadas em vermelho, que contemplam o incremento do formulário descritivo, o serviço de geração de gráficos discursivos, a otimização do serviço de consulta e do indexador, e o processo de reconhecimento de voz sobre os sinais de áudio extraídos no Composer para a indexação das transcrições. Originalmente, os arquivos a serem processados são carregados manualmente pelo usuário por meio de um formulário simples possuindo como campos textuais apenas título, apresentador, nome do programa ou série, a descrição, qual o idioma utilizado e o usuário contribuidor com aquele arquivo, sendo o título o único campo obrigatório. Depois disso, o arquivo é processado, sendo essas informações textuais indexadas em um banco de índices e os demais metadados dos arquivos são embutidos em um banco de dados próprio. Durante esse processo no módulo de indexação, o Matterhorn utiliza um componente Composer (Compositor) para extrair o áudio e os frames principais, quando se trata de um vídeo, e armazenar os mesmos no sistema de arquivos do servidor. Em sua versão distribuída, o arcabouço pode replicar alguns desses metadados para outro servidor que suportará o 4.3 Módulos de Indexação e Recuperação Usuário Formulário Demais metadados (Caption) 57 Vídeos Usuário Pesquisador Integrador Distribuição Geração de Infográficos Serviço de consulta Anotações Reconhecimento de Voz Carga Transcrições Cache de pesquisa Engage Anotações Indexador e Analyzer Dados de Índices Arquivo Armazenamento Composer Conteúdo e Metadados Arquivos de Índices Requisição Formato de distribuição Índice de busca e cache Figura 4.5: Fluxo de dados no sistema pelo Matterhorn. módulo de recuperação para agilizar o serviço de busca do usuário. Esse servidor (Engage) incorpora uma versão básica do módulo de recuperação implementado com o modelo booleano, faz a distribuição dos índices de consulta e gerencia a visualização do conteúdo dos arquivos em tempo real (streaming), controlando a consistência dos metadados replicados com aqueles existentes no módulo de indexação. O usuário pode adicionar ou alterar informações sobre os arquivos utilizando o serviço de anotações. O Composer traduz requisições feitas entre esses módulos. Na indexação pelo Apache Lucene, um determinado documento passa por uma análise e depois é convertido em texto simples. Essa análise de texto é feita pela classe Analyser que possui um conjunto de regras para esse processo de análise de conteúdo (GOSPODNETIĆ; HATCHER, 2005). Variações dessa classe tratam as regras léxicas de diversas línguas, incluindo um conjunto de palavras irrelevantes para indexação chamadas de stop words, ou seja, palavras que não possuem nenhum valor interessante para indexação. Para este trabalho, foi utilizada a subclasse BrazilianAnalyser que trata o domínio da língua portuguesa do Brasil e suas stop words que agrupam as preposições e conjunções, por exemplo. O módulo de indexação trata o texto obtido dos vídeos, transformando-o em um documento com estrutura específica para a criação de índices pelo Lucene. Os dados 4.3 Módulos de Indexação e Recuperação 58 textuais dos vídeos são obtidos neste projeto por meio do preenchimento do formulário descritivo pelo usuário indexador no processo de indexação manual, por meio das características gerais dos vídeos, bem como do processo de reconhecimento de voz sobre os sinais de áudio, possibilitando a indexação automática. O formulário de indexação, que antes tratava apenas a inserção de título e curtas sinopses (descrições em geral), foi incrementado com os campos Gênero e Planos fílmicos, para todos os gêneros; os campos Temática, Identidade dos participantes, Gestão, Disposição dos participantes, Eixos de visão, Sequencialização e Modo enunciativo, para os vídeos dos gêneros Debate e Entrevista; e o campo Estruturação, para vídeos de gênero Telejornal, que também armazena valores de Temática. Além disso, todos esses campos são controlados, ou seja, não permitem a livre digitação de dados pelo usuário indexador, disponibilizando assim opções, obtidas por meio de métodos da AD, que devem ser selecionadas no momento do preenchimento. A Tabela 4.1 Nomes dos campos Temática Identidade dos participantes Gestão Disposição dos participantes Eixos de visão Planos fílmicos Sequencialização Modo enunciativo (comportamento Alocutivo): Valores controlados Atualidade política; Vida dos artistas; Ciência; Saúde; Economia; Turismo; Educação; Sexo; Drogas; Violência urbana; Esporte; Literatura; Cinema; Artes cênicas (música, teatro e dança); Artes plásticas (pintura, artesanato, desenho e escultura); Religião; Leis; Discriminação; Tecnologia; Profissão; Meio Ambiente; Cotidiano Médico; Professor; Escritor; Jornalista; Político; Empregador/empregado; Especialista; Cidadão (anônimo); A Senhora e o Senhor fulano (anônimo); Telespectador Ampulheta; Coordenador; Entrevistador; Provocador; Professor Concêntrica; Diametral; Policentrada Visão frontal; Visão de acompanhamento; Visão compósita; Visão do todo; Visão de revelação; Visão capturada Close; Aproximado; Médio; Americano; Conjunto; Geral Sincronia com a palavra; Assincronia com a palavra; Sincronia com a situação; Sincronia com o conteúdo dos propósitos Interpelação; Injunção; Autorização; Aviso; Informação; Julgamento; Sugestão; Proposta; Interrogação; Petição Tabela 4.1: Lista dos campos com vocabulário controlado para vídeos de gêneros Debate e Entrevista - (SABINO, 2011). 4.3 Módulos de Indexação e Recuperação 59 apresenta a lista de valores do vocabulário controlado mapeados para os campos dos gêneros Debate e Entrevista pela equipe de Estudos da Linguagem (SABINO, 2011), incluindo alguns valores em Temática para Telejornal, baseando-se em (BRAIGHI, 2012; DAVID-SILVA, 2005; CHARAUDEAU; GHIGLIONE, 1997). Para os vídeos do gênero Telejornal, foi implementado o metadado Estruturação composto pelos elementos de encenação e formas de enunciação Vinheta, Chamada de Matéria, Nota Pelada, Nota Coberta, Nota Pé, Entrevista e Reportagem. O campo Estruturação é multivalorado, ou seja, ele armazena um ou mais valores desses elementos de forma estruturada, separados por ponto-e-vírgula: para cada elemento são indexados os valores do seu nome identificador, do tempo de emissão no formato 00:00:00 e da temática a ele associada, separados por espaço em branco, tendo o valor nulo para a temática do elemento Vinheta. O tempo de emissão refere-se ao tempo que aquele elemento foi exibido no vídeo. Na fase de indexação automática, o Matterhorn extrai as características gerais dos vídeos, tais como a data do processamento ou indexação (CREATED) e a duração total (DURATION), armazenando-as nos arquivos de metadados XML, que possibilitam a interoperabilidade do sistema, e no banco de índices. Em seguida, o módulo de indexação aciona o processo de reconhecimento de voz por meio do SRV Julius (AKINOBU, 2011; SILVA et al., 2005). O Julius recebe como entrada o arquivo de áudio do vídeo e um arquivo de configuração que indica os recursos do idioma utilizado. Os recursos do idioma utilizado compreendem um dicionário fonético, um modelo linguístico e um modelo acústico construídos pelo grupo de pesquisa FalaBrasil do Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará. O modelo acústico foi treinado com 15 horas e 41 minutos de áudio falado em idioma português brasileiro utilizando-se curtas frases e diversos narradores, dentre homens e mulheres, em diferentes sotaques regionais. Já o modelo de linguagem, do tipo trigrama (previsibilidade de até três palavras conforme a função sintática da palavra corrente), foi construído utilizando-se frases de seis corpora de voz, incluindo o CETENFolha (Folha de São Paulo), totalizando 1,6 milhões de frases, sobre um dicionário fonético de 64.972 palavras e seus respectivos fonemas (SILVA et al., 2005). Vive-se o problema de descasamento acústico ao se treinar um SRV utilizando um corpus de voz sem ruído, uma vez que o sistema irá operar em um ambiente real, geralmente ruidoso. Para minimizar esse efeito, o Julius utiliza técnicas de adaptação de locutor, tais como MLLR (Maximum Likelihood Linear Regression) e MAP (Maximum a Posteriori) 4.3 Módulos de Indexação e Recuperação 60 a fim de aumentar a exatidão do sistema (SILVA; NETO; KLAUTAU, 2009). Sobre esses recursos, o sinal de áudio é processado e as palavras reconhecidas são inseridas em um arquivo de saída. Ao final do processo, tem-se nesse arquivo a respectiva transcrição do trecho de áudio falado, sendo então armazenados no banco de dados multimídia com o status 0 de transcrição não indexada. Em seguida, o módulo de indexação aciona o Lucene para ler o conteúdo do arquivo de transcrição e indexá-lo, alterando o status para 1. Esse tipo de controle permite à equipe de administração do sistema acompanhar o processo, bem como habilitar o campo de busca reconhecimentoVoz, também incluído na interface de interação com o usuário, para o serviço de consulta avançada. Para esse tipo de indexação, encontram-se na literatura problemas graves referentes ao reconhecimento de palavras erradas, pois dicionários muito grandes podem provocar colisões entre fonemas parecidos e o reconhecedor pode escolher a palavra errada no mapeamento. Dessa forma, é mais viável trabalhar com dicionários reduzidos, porém o processo de reconhecimento pode não contemplar alguns termos falados e retirar do Lucene palavras que deveriam ser indexadas. O sistema de informação proposto é facilmente extensível, ficando a cargo do desenvolvedor apenas definir os nomes e os tipos (textual ou audiovisual) dos metadados que se deseja realizar a indexação de arquivos multimídia. Com isso, basta declarar essas informações no arquivo de configuração e na classe SolrFields do Apache Solr que disponibiliza tais declarações para gerar os respectivos campos de indexação no Apache Lucene. Para a gravação e a leitura dos dados indexados, basta adicionar nas interfaces Web os comandos de leitura e impressão da linguagem HTML (do inglês, HyperText Markup Language), cujos identificadores textuais (campos ID) sejam os mesmos nomes definidos no arquivo de configuração do Solr. Para implementar diferentes estratégias de indexação, recuperação, montagem de consultas e cálculos de similaridade, o desenvolvedor deve utilizar os recursos da classe SolrIndexManager (método addStandardDublincCoreFields) e da classe SolrRequester (métodos boost, createSearchResult e getByQuery ), disponíveis no arcabouço Matterhorn. O módulo de recuperação implementa, por meio do Lucene e do Solr, o modelo vetorial (BAEZA-YATES; RIBEIRO-NETO, 1999), aplicando-se diferentes pesos sobre os termos de busca para cada um dos campos de indexação. Para definir esses pesos para cada metadado modelado, foi realizada uma pesquisa interna com 8 especialistas da AD, participantes do projeto, por meio de um formulário contendo todos os respectivos campos de indexação. Para cada campo do formulário, existiam valores inteiros 4.3 Módulos de Indexação e Recuperação 61 entre 0 e 10 que deveriam ser marcados pelos respondentes, atribuindo uma nota acerca da importância, para eles, de cada campo no momento da busca por vídeos. Com isso, calculou-se a média aritmética para cada campo e o valor correspondente foi atribuído como peso do metadado no módulo de recuperação. Para o processamento de consultas pelo módulo de recuperação, os metadados básicos, discursivos e baseado em conteúdo foram implementados com os seguintes pesos, conforme apresentado na Tabela 4.2. O metadado Reconhecimento de Voz teve seu peso de relevância baseado na confiabilidade de 36% sobre a taxa WER (word error rate), cujo cálculo está apresentado na Seção 5.3 sobre o processamento de áudio nos resultados experimentais. Para o serviço de busca geral, todos os metadados implementados no módulo de recuperação são submetidos aos termos da consulta informada pelo usuário, conforme os pesos definidos. Nesse trabalho, implementou-se no módulo de recuperação a combinação das similaridades entre os grupos de metadados definidos no módulo de gerência de dados para cada vídeo contemplado pela consulta. Cada grupo de metadados retorna uma lista de vídeos contemplados com seus respectivos graus de similaridade. Para cada vídeo, essas medidas de similaridade são combinadas por meio de uma média ponderada entre as similaridades do mesmo nos grupos de meTipo de Metadado Básicos Discursivos Baseado em Conteúdo Nome do Metadado Título (dc title) Programa (series) Apresentador (dc creator ) Data de Exibição (dc date) Descrição ou Curta Sinopse (dc description) Canal de Televisão (dc publisher ) Duração (dc extent) Gênero Temática Estruturação (estruturaTelejornal) Identidade dos Participantes Gestão Disposição dos Participantes Planos Fílmicos Eixos de Visão Sequencialização Modo Enunciativo Reconhecimento de Voz Peso 9.5 9.5 8.0 7.6 8.7 8.1 4.6 8.8 8.8 8.8 6.7 5.3 6.0 6.0 5.8 6.1 7.6 3.6 Tabela 4.2: Metadados textuais com os respectivos pesos na recuperação de vídeos. 4.4 Módulo de Geração de Gráficos Discursivos 62 tadados, obtendo-se a similaridade final do vídeo para aquela consulta. Para cada vídeo analisado, pode-se obter a similaridade final e as similaridades parciais sobre cada grupo de metadados (básicos, discursivos e de conteúdo) das seguintes formas: Si (v) = ∑ (t f (t, v) ∗ id f (t)2 ∗ P(ci , v) ∗ norma(ci , v)) ∗ coord(q, v) ∗ norma(v), (4.1) t∈q S f inal (v) = ∑3i=1 Si (v) ∗ Pi , 3 (4.2) em que: v representa um determinado vídeo da base; q representa uma determinada consulta; t representa cada termo da consulta; ci representa os campos do i-ésimo grupo para o cálculo de similaridade; Pi é o valor do peso aplicado ao i-ésimo grupo. Si retorna a similaridade do vídeo em relação ao i-ésimo grupo; S f inal retorna a similaridade final do vídeo. Os pesos de cada grupo de metadados foram definidos em testes experimentais realizados nesse trabalho, descritos na Seção 5.4, combinando as medidas de precisão e revocação na avaliação de eficácia de diversas consultas e os valores medidos na avaliação de eficiência da qualidade de resposta das consultas executadas. 4.4 Módulo de Geração de Gráficos Discursivos O módulo de geração de gráficos discursivos é responsável por apresentar, na interface Web implementada, os gráficos montados conforme as opções selecionadas 4.4 Módulo de Geração de Gráficos Discursivos 63 pelo usuário, contendo informações suficientes e capazes de apoiar o pesquisador na análise discursiva dos vídeos televisivos contemplados pela consulta obtida pela composição dessas opções. As opções selecionadas possuem os identificadores dos respectivos índices implementados no módulo de indexação e seus valores são aplicados sobre o módulo de recuperação na forma de consulta textual, retornando para o módulo em questão somente os metadados dos vídeos contemplados, agregandoos e gerando os gráficos em conformidade com os conceitos da AD. Para algumas modalidades de gráficos, retomando-se a retórica que se deseja descobrir sobre o acervo digital indexado, os indicadores do módulo de avaliação do nível de interesse dos vídeos também são plotados. Para a geração dos gráficos discursivos, é necessário primeiramente selecionar a opção referente ao gênero televisivo do grupo de vídeos que se deseja analisar. Caso o usuário não forneça esse critério, o sistema realiza a consulta por todos os gêneros, retornando assim os metadados de todos os vídeos da base, visto que todo vídeo está associado obrigatoriamente a pelo menos um gênero. Para essa opção, os únicos gráficos possíveis são aqueles relacionados ao capital temático sobre o tempo de emissão, bem como da contabilização simples de temáticas por vídeos, podendo ser agrupados pelos gêneros existentes ou pelos programas que representam. Para a opção referente aos gêneros Debate e Entrevista, além dos gráficos acima, é possível gerar gráficos sobre a identidade dos participantes, considerando-se o tempo de emissão televisiva de cada programa ou o total de vídeos em que cada identidade social aparece. Como se trata do universo de dois gêneros, os dados do gráfico podem ser agrupados por esse metadado, além do agrupamento por programas. Caso o gênero Telejornal seja selecionado, o sistema de informação permite a geração de gráficos sobre temáticas, tipos de matérias e emissão de imagens, utilizando-se para esses dois últimos apenas os dados sobre o tempo de emissão dos vídeos, distribuído para os elementos de encenação e enunciação indexados, pois a análise discursiva de telejornais se interessa pelo capital e espaços enunciativos, obtidos pelo tempo de emissão. Por ser um único gênero, as opções de agrupamento ficam restritas às temáticas, tipos de matérias e programas (telejornais). Outra opção disponível no processo de geração de gráficos é a análise de sumarizações por meio de curvas sobre o gráfico apresentado. Essas curvas indicam o comportamento de alguma característica em comum entre as informações contempladas no gráfico ao longo do eixo de agrupamento, ou seja, valores de um metadado 4.4 Módulo de Geração de Gráficos Discursivos 64 ENTREVISTA DEBATE IDENTIDADE DOS PARTICIPANTES EMISSÃO DE IMAGENS TIPOS DE MATÉRIAS TIPOS DE MATÉRIAS TEMÁTICAS De ba te e En al rn tr ev i jo le Te st a TEMÁTICA TELEJORNAL GÊNEROS PROGRAMAS NÍVEL DE INTERESSE NÚMERO DE ACESSOS TEMPO ASSISTIDO Gênero Dados Principais NÚMERO DE VÍDEOS OU TEMPO DE EXIBIÇÃO Agrupamento Curvas Figura 4.6: Esquema para a geração de gráficos discursivos. selecionado nessa opção são sumarizados por contagem absoluta ou por média aritmética, plotados para cada coluna referente a um metadado agrupado e, em seguida, são interligados por meio de splines calculadas para a interpolação dos pontos de comportamento entre as colunas. Os dois tipos de comportamentos modelados nesse trabalho medem as ações dos usuários potenciais do sistema sobre os vídeos recuperados e a composição global do banco de dados multimídia. A Figura 4.6 apresenta um esboço esquemático do módulo de geração de gráficos discursivos à medida que as opções referentes aos metadados recuperados são selecionadas pelo usuário pesquisador e manipuladas pelo sistema, enfatizando que em cada combinação ou fluxo representado tem-se a geração de um tipo de gráfico. Os gráficos gerados a partir do número de vídeos na base são simples contadores de dados que auxiliam na caracterização do acervo digital. Já os gráficos gerados sobre o tempo de exibição dos vídeos contemplados permitem a análise gráfica sobre a distribuição do tempo de emissão de elementos discursivos, auxiliam na caracterização da grade programática e subsidiam estudos sobre a retórica comunicativa da sequência temática entre os programas, entre os blocos de um mesmo programa ou dentro de um mesmo programa como ocorre em telejornais que podem comportar diversas temáticas em um bloco de exibição. 4.4 Módulo de Geração de Gráficos Discursivos 65 Na interface Web implementada, em uma seção exclusiva para o módulo em questão, o usuário se depara com diversas opções para montagem de gráficos, porém são inicialmente habilitadas apenas aquelas referentes ao gênero televisivo e à opção de dados principais com uma única opção disponível: Temática. Para a geração de qualquer gráfico, é necessário que o usuário selecione ao menos uma opção para dados principais, sendo então uma opção obrigatória. Quando uma opção para dados principais é selecionada, as opções referentes ao tipo de fluxo, dados de agrupamento e restrição temporal são habilitadas. O tipo de fluxo corresponde à contabilização de dados que se deseja utilizar na formação do gráfico: (i) sobre número de vídeos ou (ii) sobre o tempo de exibição. Os dados de agrupamento são aqueles que formarão conjuntos com os dados principais, agrupando-os em colunas nos gráficos, ou seja, tratam-se do nome das colunas e os dados principais serão seu conteúdo. Já a restrição temporal é uma forma de selecionar os vídeos com data de exibição dentro da faixa de tempo estabelecida pelo usuário. Enfim, quando o usuário seleciona algum dado de agrupamento, o sistema habilita as opções referentes à sumarização de dados a serem representados por meio de curvas sobre o gráfico. Ao selecionar os gêneros Debate e/ou Entrevista, o sistema de informação disponibiliza a opção Identidade dos Participantes no campo de dados principais, além da opção Temática. Se o usuário optar por qualquer uma dessas opções, deixando como Número de Vídeos na opção do tipo de fluxo, os gráficos gerados serão simples quantificadores gráficos sobre a número de vídeos distribuídos por temática ou que possuem cada identidade social de participante com os respectivos agrupamentos e sumarizações de dados. Vale ressaltar que a única sumarização disponível para a análise global da base de dados é o tempo de emissão, visto que não se justifica sumarizar em curvas a mesma informação que é contabilizada nos outros elementos iconográficos. Essa prerrogativa é valida para o caso contrário, em que os dados principais possuem o fluxo sobre o tempo de exibição e, dessa forma, a sumarização de dados da base é feita somente sobre o número de vídeos. Sobre esse segundo fluxo de dados, é possível gerar gráficos referentes ao capital temático e à emissão de identidades sociais conferidas aos participantes. Para o gênero Telejornal, o sistema de informação disponibiliza as opções Tipos de Matérias e Emissão de Imagens no campo de dados principais, além da opção Temática comum a todos os gêneros. Conforme informado no início dessa seção, os gráficos para esse tipo de gênero suportam apenas o fluxo de dados sobre o tempo de emissão. Os gráficos gerados sobre os Tipos de Matérias apoiam a análise discursiva 4.5 Módulo de Avaliação do Nível de Interesse 66 do capital enunciativo dos telejornais, contendo os elementos puramente informativos Nota Pé, Nota Pelada, Nota Coberta, Entrevista e Reportagem. Esses elementos podem ser combinados com suas respectivas temáticas, sendo possível observar quais as temáticas que são mais abordadas nos telejornais e, assim, sendo mais utilizada como fonte de informação, bem como analisar o tempo de emissão que cada tipo de elemento informativo possui dentro da programação do telejornal. Os gráficos gerados sobre a Emissão de Imagens analisam os espaços enunciativos ou de encenação, sendo compostos pela apresentação do tempo de Vinheta, tempos dos espaços interno e externo. Com esse tipo de gráficos e suas combinações, é possível analisar a distribuição do tempo de emissão das imagens do estúdio, representadas pelas aparições dos apresentadores em Chamada de Matéria, Nota Pé, Nota Pelada, Entrevista; e das imagens externas do cenário de estúdio como visto em Reportagens e em Notas Cobertas que, mesmo contendo a narrativa do apresentador do telejornal, possuem imagens de cenas externas exclusivamente. Já a geração de gráficos sobre as temáticas que, por existir mais de uma temática na mesma exibição de vídeos desse gênero, é possível plotar a sequência temática do telejornal e auxiliar a análise discursiva sob um contexto mais específico como a análise dos níveis de tensão das notícias (DAVID-SILVA, 2005). Além de todas as combinações explicitadas, tem-se nas curvas de sumarização, além da análise da composição global dos vídeos existentes no banco de dados multimídia, a possibilidade de analisar as ações do usuário sobre o acervo, dentre as quais revelar o nível de interesse médio na recuperação de vídeos, número médio de acessos que cada grupo de vídeos possui e o tempo médio assistido em relação ao tempo de emissão total de cada gênero, programa ou temática. Com isso, é possível analisar, além da intencionalidade comunicativa da grade programática, qual o efeito da estratégia televisiva adotada sobre o público. 4.5 Módulo de Avaliação do Nível de Interesse O módulo nebuloso para avaliação do nível de interesse na recuperação de vídeos foi implementado com o modelo de inferência de Mamdani (MAMDANI, 1977). Este modelo foi utilizado por permitir a simulação computacional da habilidade humana de tomar decisões em ambientes com dados imprecisos, incertos e frequentemente ruidosos (MAMDANI, 1977). As regras de produção em um modelo de inferência de 4.5 Módulo de Avaliação do Nível de Interesse 67 Mamdani mapeiam conjuntos nebulosos tanto em seus antecedentes como em seus consequentes, definindo-se a respectiva base de regras exclusivamente de forma linguística, sem a necessidade de dados numéricos de entrada e saída. Como os sistemas de inferência nebulosa são potencialmente capazes de expressar informações qualitativas, os especialistas de domínio podem modelar o processo de tomada de decisões de forma linguística (qualitativa) (LIRA et al., 2011). Os metadados referentes aos indicadores de avaliação, ilustrados na Figura 4.3, foram mapeados em partições de entrada com 3 termos primários cada. Os níveis de interesse são representados em uma partição nebulosa de saída com 3 funções, promovendo uma base de conhecimento com 25 regras de produção. O cálculo do centro de massa do conjunto nebuloso de saída consiste na operação de conversão nebuloso-escalar, gerando uma pontuação para os vídeos em uma escala de 0 a 100. 4.5.1 Partições Nebulosas de Entrada A partição nebulosa de entrada para o indicador de quantidade de acessos foi definida para a variável quantidade acessos com três termos primários: pouco acesso, acesso medio e muito acesso. Por simplificação, a partição foi criada com três funções triangulares para os respectivos termos. Conforme a Figura 4.7, definiu-se o universo de discurso no intervalo [0,1] para obter o percentual de acessos sobre um vídeo em relação ao número de acessos do vídeo mais acessado na base de dados e modelar, de forma mais semântica, os vídeos que possuem poucos acessos, um número de Figura 4.7: Diagrama da partição para a quantidade de acessos. 4.5 Módulo de Avaliação do Nível de Interesse 68 Figura 4.8: Diagrama da partição de entrada para o tempo assistido. acessos médio ou muitos acessos. Para a partição nebulosa referente ao tempo em que um vídeo é assistido, foi definida a variável tempo assistido com os termos primários pouco tempo, tempo medio e muito tempo modeladas sobre três funções triangulares, como ilustrado na Figura 4.8. Definiu-se o universo de discurso no intervalo normal de [0,1] para obter o percentual do tempo médio assistido em um vídeo em relação a duração total do mesmo a fim de identificar se o vídeo foi “mais ou menos” assistido até o final ou se foi interrompido pelo usuário depois de pouco tempo de exibição. Figura 4.9: Diagrama da partição para o número de dias sem ser visto. 4.5 Módulo de Avaliação do Nível de Interesse 69 Finalmente, a Figura 4.9 mostra a partição nebulosa que implementa a quantidade de dias da última visualização do vídeo, definida para a variável dias sem ser visto com os termos primários pouco, medio e muito modelados sobre três funções triangulares posicionadas em um universo de discurso no intervalo [0,10], pois, diferente das outras partições que tratam dados percentuais, essa partição trabalha com o valor real máximo de 10 dias desde a última exibição do vídeo para considerar o processamento, ou seja, após 10 dias a partição considera que o vídeo não é visto há muito tempo, impactando no processo de inferência sobre seu grau de interesse nas pesquisas. A quantidade de acessos (Q) de um vídeo é calculado pelo somatório de todas as vezes que o vídeo foi visualizado, ou seja, é a contagem de todas as visualizações do vídeo registradas na base em relação ao vídeo mais acessado. O valor percentual referente à quantidade de acessos de um vídeo é dado por: Q= n , N (4.3) em que: n é o número de acessos que o vídeo teve; N é o número total de acessos do vídeo mais acessado. O indicador referente ao tempo médio assistido (Tmedio ) é calculado por: 1 Tmedio = nT n ∑ ti, (4.4) i=1 em que: ti é a duração do tempo assistido no acesso i; T é o tempo de duração total do vídeo. Enfim, para a terceira variável de entrada, a quantidade de dias (D) que o vídeo não é visualizado é dada pelo número de dias entre a data atual e a data da última visualização do vídeo registrada na base. 4.5 Módulo de Avaliação do Nível de Interesse 70 4.5.2 Partição Nebulosa de Saída A partição nebulosa de saída do módulo de avaliação de vídeos foi modelada para processar o nível de interesse na recuperação de vídeos no sistema. A partição, nomeada por nivel interesse (NI), possui as três variáveis linguísticas pouco interessante, interessante e muito interessante descritas, respectivamente, em uma função sigmoidal com ganho de −0, 25 e centro em x = 20; uma função gaussiana com média em x = 50 e desvio padrão de 15; e outra função sigmóide com ganho de 0, 25 e centro em x = 80. A etapa de defuzzyficação utiliza o cálculo do centro de gravidade da região formada pelos coeficientes de disparo das regras sobre a partição de saída. No processo de implementação dessa partição, optou-se pelas funções definidas acima, mais complexas que aquelas descritas para as partições de entrada, a fim de se obter transições de valores de saída mais suaves entre os níveis de interesse, pois essa partição possui um nível de abstração e semântica maior para o usuário do que aquelas definidas para os valores de entrada do processo de avaliação. O suporte numérico para o universo de discurso foi definido sobre o intervalo [0,100], pois o número real resultante do processo de conversão nebuloso-escalar corresponde ao valor percentual do nível de interesse do vídeo para o usuário e esse valor é usado diretamente pela aplicação. A Figura 4.10 ilustra os elementos da partição criada para modelar os níveis de in- Figura 4.10: Diagrama da partição de saída nebulosa para o Nível de Interesse. 4.5 Módulo de Avaliação do Nível de Interesse 71 teresse pelos termos primários pouco interessante, interessante e muito interessante. Os valores de saída obtidos pelo processamento nebuloso não são armazenados no banco de dados, pois a avaliação é realizada em tempo real a partir dos dados de entrada existentes no repositório. 4.5.3 Base de Conhecimento Nebulosa Depois de definidas as partições nebulosas do módulo de avaliação, tem-se a construção da base de conhecimento conforme o modelo de inferência de Mamdani que mapeia os conjuntos de valores das variáveis de entrada para um conjunto de valores da variável de saída por meio de regras de produção nebulosas. A Tabela 4.3 apresenta a base das regras nebulosas implementada para esse trabalho, relacionando as variáveis nebulosas de entrada para a obtenção do nível de interesse. Q Pouco Acesso Pouco Acesso Pouco Acesso Pouco Acesso Pouco Acesso Pouco Acesso Pouco Acesso Acesso Médio Acesso Médio Acesso Médio Acesso Médio Acesso Médio Acesso Médio Acesso Médio Acesso Médio Acesso Médio Muito Acesso Muito Acesso Muito Acesso Muito Acesso Muito Acesso Muito Acesso Muito Acesso Muito Acesso Muito Acesso Tmedio Pouco Tempo Tempo Médio Tempo Médio Tempo Médio Muito Tempo Muito Tempo Muito Tempo Pouco Tempo Pouco Tempo Pouco Tempo Tempo Médio Tempo Médio Tempo Médio Muito Tempo Muito Tempo Muito Tempo Pouco Tempo Pouco Tempo Pouco Tempo Tempo Médio Tempo Médio Tempo Médio Muito Tempo Muito Tempo Muito Tempo D Pouco Médio Muito Pouco Médio Muito Pouco Médio Muito Pouco Médio Muito Pouco Médio Muito Pouco Médio Muito Pouco Médio Muito Pouco Médio Muito Q ∧ Tmedio ∧ D → NI Pouco Interessante Interessante Pouco Interessante Pouco Interessante Interessante Interessante Pouco Interessante Interessante Pouco Interessante Pouco Interessante Interessante Interessante Pouco Interessante Muito Interessante Interessante Interessante Interessante Interessante Pouco Interessante Muito Interessante Interessante Interessante Muito Interessante Muito Interessante Interessante Tabela 4.3: Tabela de regras nebulosas do sistema. 4.6 Módulo de Interação com o Usuário 72 Inicialmente, todos os termos primários das partições de entrada quantidade acessos, tempo assistido e dias sem ser visto foram combinados com as variáveis linguísticas da partição nebulosa de saída nivel interesse a fim de se mapear todas as situações possíveis. Em seguida, a base de conhecimento foi analisada, gerando 25 regras de produção nebulosas, pois decidiu-se que vídeos que possuem pouco acesso e são assistidos por pouco tempo quando acionados são considerados pouco interessantes, independente da quantidade de dias em que os mesmos não são vistos, mesmo em visualizações recentes. O seguinte exemplo mostra tal regra gerada na base de conhecimento, substituindo outras 3 que utilizavam a variável dias sem ser visto como antecedente. As outras 24 regras possuem, devidamente, todos os antecedentes: RULE 1 : IF quantidade acessos IS pouco acesso AND tempo assistido IS pouco tempo THEN nivel interesse IS pouco interessante A máquina de inferência implementada pela biblioteca jFuzzyLogic processa as regras existentes no base de conhecimento e gera um conjunto nebuloso, a partir da composição de todas as regras disparadas. Sobre esse conjunto de saída nebuloso, é calculado o centro de gravidade, gerando um valor entre 0 e 100 para pontuar o percentual de interesse do vídeo avaliado. O módulo de avaliação utiliza a inferência Máx-Min para empregar a propriedade semântica empregada no processamento de inferência dos níveis de interesse, ou seja, aplica as operações de união e interseção entre os conjuntos nebulosos gerados pelas regras, por meio dos operadores de máximo e de mínimo, respectivamente. Durante a execução da fase de testes, a biblioteca de lógica nebulosa utilizada mostrou-se bastante eficiente no que se refere ao tempo de processamento, permitindo ao módulo de avaliação ser executado paralelamente à recuperação de vídeos, sem prejudicar as pesquisas dos usuários. 4.6 Módulo de Interação com o Usuário O módulo de interação com o usuário consiste de uma interface Web onde os usuários formulam suas consultas e selecionam serviços, bem como podem visualizar os resultados desses procedimentos. A implementação deste módulo considera as 4.6 Módulo de Interação com o Usuário 73 modalidades de consultas que podem ser utilizadas por um sistema de recuperação de vídeos, incluindo a visualização dos serviços de geração de gráficos discursivos que utiliza o sistema de recuperação e as respectivas notas de avaliação do nível de interesse dos vídeos recuperados. Sobre as modalidade de consulta, a maioria dos sistemas atuais baseiam-se nas seguintes modalidades, a saber: • Palavras-chave: o usuário realiza a consulta fornecendo algumas poucas palavras consecutivas ao sistema. Esta modalidade é mais popular atualmente; • Texto livre: o usuário realiza a consulta a partir da construção de uma frase complexa, uma pergunta ou uma breve descrição. Processar um texto livre requer a análise das palavras do texto (Parsing) e a compreensão da consulta como um todo. Técnicas de processamento de linguagem natural podem ser utilizadas; • Imagem: o usuário realiza a consulta fornecendo ao sistema de busca uma imagem de exemplo ou uma figura gerada no computador; • Consulta Composta: o usuário realiza a consulta fornecendo ao sistema combinações das informações fornecidas nas modalidades anteriores. Naturalmente, para cada modalidade de consulta utilizada, são necessárias técnicas específicas de processamento e recuperação de informação. Para o sistema proposto, é utilizada a modalidade de palavras-chave em que o usuário digita uma ou mais palavras para a realização da consulta. Não somente a forma de pesquisa geral é possível, pois o usuário pode escolher por qual campo de interesse que ele deseja realizar a consulta. Como o sistema é voltado para o público de pesquisadores, dentre eles jornalistas e demais acadêmicos, diversos campos foram mapeados por meio de métodos de Análise do Discurso, aumentando o tipo de informação de interesse para esse tipo de público. Como a interface e o módulo de recuperação são diretamente ligados ao banco de índices pelo arcabouço de vídeos, além do valor relativo e subjetivo da informação ter maior cobertura, o processo de busca e visualização dos respectivos vídeos mostra-se eficiente. Além da eficiência, dada pela relevância entre os vídeos contemplados por uma consulta e como estes estão distribuídos na lista de vídeos recuperados, o sistema pode oferecer uma forma para tornar as consultas mais eficazes, retornando os vídeos que os usuários realmente querem. Esse tipo de problema, chamado de GAP semântico, relacionado com os conflitos do mapeamento entre o modelo mental do 4.6 Módulo de Interação com o Usuário 74 usuário e o modelo computacional da tarefa a qual se pretende fazer, pode ser tratado com alguma técnica que aplique maior cobertura da informação ou que suporte o apoio do próprio usuário, como na realimentação de relevância. Para o sistema de informação proposto, pretende-se estudar técnicas robustas para esse tipo de abordagem. Dessa forma, em sua versão atual, a busca textual é baseada na cobertura dada pelos campos controlados incluídos. O sistema de informação proposto possui duas interfaces Web para interagir com os usuários, em especial os indexadores e pesquisadores. A primeira interface Web refere-se à administração multimídia do sistema que permite aos usuários documentalistas (indexadores) gerenciar a entrada de vídeos por meio de indexação manual, bem como acompanhar o processamento dos vídeos nas etapas de segmentação (extração de frames) e reconhecimento de voz em sinais de áudio. Esta interface disponibiliza opções sobre as quais um serviço de autoarquivamento pode ser implementado utilizando-se o arcabouço Matterhorn, bastando definir os papéis dos tipos de usuários do sistema. Este serviço não é objeto de estudo desta dissertação e, dessa forma, é citado como uma perspectiva futura a ser implementada no sistema de informação proposto. A Figura 4.11 ilustra a interface de administração multimídia descrita, apresentando os logotipos do projeto de pesquisa CAPTE do qual esse trabalho faz parte e do laboratório onde o sistema está alocado (PIIM-Lab); uma área de digitação que receberá as palavras-chave informadas pelo usuário indexador, incluindo um recurso de Figura 4.11: Interface de Administração Multimídia. 4.6 Módulo de Interação com o Usuário 75 seleção dos campos de interesse; botões de acesso às funcionalidades de indexação manual por meio de um formulário (Upload de Vídeos) e agendamento de gravações; e uma lista de vídeos ordenados em ordem cronológica de processamento (metadado básico Data de Indexação). Na seção de metadados discursivos do formulário implementado, o sistema disponibiliza, inicialmente, os campos para o Gênero e Planos Fílmicos, metadados comuns a todos os gêneros. Os metadados específicos são acionados conforme o gênero marcado. Ao acessar o formulário de indexação, o usuário documentalista pode fornecer os dados de um vídeo a ser indexado. Os campos referentes aos metadados básicos permitem livre digitação por parte do usuário. Já os campos dos metadados discursivos possuem opções pré-estabelecidas a serem marcadas pelo documentalista. Estas opções foram implementadas conforme os valores do vocabulário controlado definido no módulo de indexação. A Figura 4.12 apresenta um recorte do formulário, mostrando as seções para os metadados básicos principais e os metadados discursivos referentes à Estruturação de um vídeo de gênero Telejornal, ou seja, o usuário documentalista marcou o gênero Telejornal e, dessa forma, os respectivos metadados discursivos foram acionados, conforme implementado no módulo de indexação. Figura 4.12: Recorte do formulário com os dados de uma exibição do Jornal Minas. 4.6 Módulo de Interação com o Usuário 76 Finalmente, um último aspecto a ser considerado relaciona-se com a forma de apresentação dos resultados da pesquisa realizada e das opções selecionadas na montagem dos gráficos. Certamente, além de impactar no desenvolvimento das técnicas de recuperação de informação, este aspecto é determinante para a aceitação do sistema. Pode-se destacar cinco modos principais: • Ordem de relevância: neste caso, os resultados são ordenados de acordo com uma medida numérica de relevância para a consulta; • Ordem cronológica: modo utilizado, por exemplo, pelo sistema Picasa da Google que é aplicado para localização, edição e compartilhamento de fotos; • Agrupamentos: modos de agrupamentos de imagens por metadados ou conteúdos visuais têm sido pesquisados intensamente nos últimos anos. Estes modos representam maneiras intuitivas de apresentação de resultados de pesquisa; • Hierárquico: este modo de visualização dos resultados é desejável para o gerenciamento de conjuntos de arquivos, especialmente com propósitos educacionais; • Modo composto: composição de duas ou mais formas dos modos anteriores. A segunda interface Web do sistema exibe inicialmente os vídeos da base de dados ordenados de forma decrescente por relevância, tendo-se como medida numérica de relevância a similaridade dos termos informados pelo usuário em cada vídeo contemplado, conforme a combinação dos pesos dos grupos de metadados onde esses Figura 4.13: Interface de Exibição de Vídeos. 4.6 Módulo de Interação com o Usuário 77 termos foram encontrados. A interface possibilita o usuário escolher outras formas de ordenação dos vídeos recuperados, além da ordenação por relevância, como a ordenação por data de exibição, data de processamento, gênero e temática. A Figura 4.13 ilustra essa interface de exibição de vídeos que apresenta o logotipo do projeto de pesquisa CAPTE; o logotipo do laboratório onde o mesmo está alocado (PIIM-Lab); um menu mais ao topo, em azul, para informações do projeto; um menu de guias do lado direito, contendo os serviços disponibilizados pelo sistema; e os vídeos de resposta ordenados do lado esquerdo (Galeria de Vídeos). No menu de guias referentes aos serviços implementados para o sistema proposto, tem-se, na ordem apresentada pela interface da Figura 4.13, o serviço de busca geral, de busca avançada, de indexação e de geração de gráficos. Clicando-se na guia Busca Geral, o usuário tem acesso ao respectivo serviço, contendo um campo de pesquisa que receberá as palavras-chave digitadas pelo usuário e aplicando tais palavras (consulta) a todos os metadados textuais implementados no sistema por meio do módulo de recuperação de vídeos. Acionando a guia Busca Avançada, o sistema disponibiliza uma tela contendo os campos dos metadados de forma explícita, permitindo ao usuário escolher por quais metadados ele deseja realizar sua pesquisa. O módulo de recuperação será aplicado somente aos metadados dos campos utilizados e seus respectivos pesos. A guia Indexação simplesmente disponibiliza a interface do formulário de indexação (ver Figura 4.12) que pode ser acessado tanto na interface de administração multimídia quanto nessa interface de exibição, caso o usuário seja um documentalista. Já a guia Gráficos do menu de serviços disponibiliza a tela para geração de gráficos discursivos, conforme as opções e os comportamentos de usabilidade informados na Seção 4.4. Todas as telas informadas para as guias de serviços estão disponíveis no anexo C desta dissertação. 78 5 Resultados Experimentais Este capítulo apresenta os experimentos realizados com o sistema de informação multimídia implementado e discute os principais resultados obtidos, visando demonstrar e avaliar a eficácia, a eficiência e a escalabilidade do sistema. Para isso, foram realizados roteiros de experimentos que utilizaram alguns grupos de vídeos da base de dados multimídia, especificados para cada experimento, em um ambiente computacional composto por: uma máquina servidora com processador Xeon W3565 de 3.2 GHz sobre 8 núcleos, 6 GB de memória RAM e 2 TB de disco rígido; e três servidores virtuais gerenciados por essa máquina, cada um contendo 30 GB de disco rígido, 1 GB de memória RAM para o servidor de administração, 1 GB para o servidor de exibição de vídeos e 4 GB para o servidor de processamento do componente Composer. Os resultados experimentais apresentados são analisados em cinco momentos: (i) discussão sobre os resultados de uma pesquisa de opinião que motivou a realização deste trabalho; (ii) análise sobre os gráficos discursivos gerados no respectivo módulo; (iii) testes de reconhecimento de voz e análise das taxas de erro para definição de pesos; (iv) testes de recuperação de vídeos e análise da eficácia e eficiência do sistema; (v) e testes de avaliação do nível de interesse na recuperação de vídeos. 5.1 Pesquisa de Perfil dos Usuários No período compreendido entre 04 de Fevereiro e 18 de Abril de 2011, foi disponibilizado um formulário no sítio web do Laboratório de Pesquisas Interdisciplinares em Informação Multimídia (Piim-Lab), onde o sistema é desenvolvido, contendo 14 questões abertas e 20 questões fechadas, distribuídas em 3 sessões. Este formulário (disponibilizado no anexo A) foi preenchido por 108 pessoas, dentre profissionais, estudantes e pesquisadores de diversas áreas de todo o país. Dentre essas pessoas, 95% possuem curso superior completo, incluindo 35% de mestres e doutores, e 60% 5.1 Pesquisa de Perfil dos Usuários 79 Figura 5.1: Gráfico sobre os propósitos de pesquisa. atuam nas áreas da Comunicação e Linguística em diferentes empresas e instituições acadêmicas. O objetivo da pesquisa foi identificar o público-alvo que poderia se beneficiar com a disponibilização de um sistema de informação para armazenamento e recuperação de vídeos que auxilie na análise quantitativa do capital televisivo por meio do levantamento e descrição de gráficos fornecidos pelo sistema. Na primeira sessão do questionário, os participantes foram questionados sobre os respectivos hábitos de pesquisa. A Figura 5.1 apresenta que 75% dos participantes costumam pesquisar vídeos televisivos com propósitos acadêmicos, ainda que os fins pessoais e profissionais também tenham sido assinalados. A Internet foi apontada por 94% dos pesquisadores como a principal fonte de aquisição de material, seguido das gravações próprias e apoio de amigos (com 35% cada), como ilustrado na Figura 5.2. A consulta direta aos acervos públicos constitui apenas 20% da amostra. Não obstante, metade dos entrevistados demonstrou que, frequentemente, têm dificuldades em reunir o material desejado. Figura 5.2: Gráfico sobre a principal fonte de acesso ao material televisivo. 5.1 Pesquisa de Perfil dos Usuários 80 No ambiente da Internet, o site Youtube foi assinalado por quase a totalidade dos participantes como a principal fonte de pesquisa, seguido de outros sistemas de busca, tais como o Google e os sites das emissoras que exibiram o material. Ainda que seja considerada como muito importante para os entrevistados, a variedade de vídeos televisivos encontrados atualmente nos sites é reduzida (44% das respostas), visto que o Youtube e o Google não realizam uma indexação criteriosa dos vídeos armazenados. No caso dos sites das emissoras, não existe a preocupação em disponibilizar o acervo de sua produção midiática de forma digital, bem como em seus respectivos CEDOCs (DAVID-SILVA, 2006). Questões inerentes ao acesso à gráficos televisivos foram abordadas no formulário e mereceram destaque para esse trabalho. Os respondentes demostraram interesse por uma ferramenta capaz de os auxiliar em suas pesquisas sobre o universo midiático por meio de gráficos referentes à programação em análise, considerando-se determinados elementos em exibição a serem representados quantitativamente. Para captar quais seriam esses elementos informativos em que os respondentes mais se interessavam, algumas questões abertas, como descrito no início dessa seção, foram intercaladas com as questões fechadas. A questão 20.1 (ver Anexo A), por exemplo, permitiu que os participantes respondessem quais informações deveriam ser fornecidas pelos gráficos gerados, identificando-se assim uma considerável incidência de sugestões relacionadas com a frequência de temáticas, identidade dos participantes, se os telespectadores assistiram ao programa, os capitais verbal e visual, dentre Em textos, com ampla descrição [25] Em textos, objetivos Figura 5.3: Importância do levantamento de gráficos televisivos. 5.1 Pesquisa de Perfil dos Usuários 81 Figura 5.4: Gráfico sobre a qualidade dos vídeos disponíveis. outros. A Figura 5.3 ilustra a importância do levantamento e da descrição de gráficos para 69% dos participantes que consideram importante esse tipo de apoio em suas pesquisas. Além disso, as outras informações indicadas tiveram a atenção de 71% dos pesquisadores para que sejam apresentadas na forma de gráficos e na forma de textos objetivos como em uma interface de busca. A qualidade de vídeos televisivos foi uma das questões abordadas na pesquisa e, por meio de algumas respostas dissertativas e outras objetivas acerca deste aspecto, observou-se que aproximadamente 80% dos respondentes disseram que a qualidade dos vídeos é muito importante para as demandas de pesquisa e trabalho. Contudo, apenas 10% dos entrevistados disse que a qualidade dos vídeos nos sites é muito boa, sendo que ninguém a assinalou como excelente (ver Figura 5.4). Outro aspecto levantado pela pesquisa foi a criação de um banco de dados multimídia, constituído por arquivos de vídeos televisivos. Nesse caso, 94% dos entrevistados afirmaram que a implementação desse recurso em um sistema de informação facilitaria os trabalhos de pesquisa, como ilustrado na Figura 5.5. Figura 5.5: Gráfico sobre a necessidade de um banco de dados multimídia. 5.2 Análise de Gráficos Discursivos 82 Figura 5.6: Gráfico sobre a necessidade de uma ferramenta de análise. A segunda sessão do questionário arguiu os profissionais sobre as funcionalidades de busca que o sistema deveria oferecer. Dentre os critérios de busca informados, destacam-se a pesquisa por título do programa, por temáticas, data e hora da exibição, resumo do programa, tipo de cenas, descrição do cenário e planos fílmicos. Opções mais sofisticadas como busca utilizando-se imagens também foram indicadas. Além do serviço de recuperação de vídeos, a Figura 5.6 mostra a necessidade, apontada por cerca de 94% dos pesquisadores, da implementação de uma ferramenta para análise quantitativa e automática do conteúdo dos vídeos, incluindo análise do áudio no reconhecimento de voz e das imagens (frames). Vale informar que não foi realizado cálculo amostral para esta pesquisa, uma vez que ela não tem como objetivo comparar ou apresentar índices rigorosos de opinião, mas apenas o levantamento de percentuais de opiniões dos pesquisadores visando a identificação de um perfil prévio de usuário e a estruturação das funcionalidades iniciais necessários para um sistema de informação multimídia para apoio à análise discursiva de vídeos televisivos. 5.2 Análise de Gráficos Discursivos Para analisar os gráficos discursivos gerados pelo sistema de informação proposto, foram definidos três grupos principais, especificamente: (i) gráficos de contagem temática e capital temático; (ii) gráficos de identidade dos participantes; e (iii) gráficos de análise dos espaços enunciativos. Cada um desses grupos contém dezenas de gráficos possíveis, de modo que serão selecionadas apenas algumas de suas amostras principais para se analisar seus conteúdos e objetivos informacionais nas subseções que se seguem. 5.2 Análise de Gráficos Discursivos 83 O primeiro grupo diz respeito aos gráficos sobre as temáticas, incluindo a análise de capital temático e suas variações no cruzamento de dados pré-estabelecidos no sistema. O segundo grupo refere-se às composições de dados sobre as identidades dos participantes nos gêneros televisivos Debate e Entrevista. O último grupo de gráficos engloba todos os tipos de dados relevantes que podem ser levantados sobre vídeos de gênero Telejornal. 5.2.1 Contagem Temática e o Capital Temático Como informado na Seção 4.4 do capítulo anterior, o módulo de geração de gráficos discursivos disponibiliza para o usuário, depois que ele escolhe sobre qual dado principal deseja o gráfico, as opções de fluxo de dados sobre número de vídeos ou tempo de exibição. Em relação ao tempo de exibição, que promove os capitais televisivos, no caso o capital temático, existem diversos estudos linguísticos que se fundamentam na AD para analisar o uso de alguma estratégia comunicativa por parte de um programa ou da própria emissora para se descobrir o motivo de um determinado tema ficar mais tempo ou menos tempo no ar. Embora parecidos visualmente, os gráficos de temáticas possuem significados diferentes sobre fluxos diferentes. Quando os gráficos quantificam as temáticas em relação ao número de vídeos da base, como mostrado na Figura 5.7 , tem-se a aná- Figura 5.7: Gráfico sobre a distribuição de temáticas do acervo. 5.2 Análise de Gráficos Discursivos 84 Figura 5.8: Capital temático do acervo televisivo. lise da caracterização do acervo; no caso, o sistema possui mais vídeos sobre Vida dos artistas, sendo 18,48% do total. Já os gráficos de temáticas baseadas no tempo de emissão correspondem ao capital temático da emissora e, dessa forma, ilustram a caracterização da grade programática, como na Figura 5.8 em que programas de temática Atualidade política (22,75%) ficaram mais tempo no ar. Ao analisar os dois gráficos, percebe-se, por exemplo, que a temática Cotidiano teve uma abordagem considerável em relação ao número de vídeos em que foi tratada, porém com pouco tempo transmitido no período coletado. No segundo gráfico (ver Figura 5.8), as temáticas mais abordadas nos programas televisivos analisados foram Atualidade Política (22,75%) e Vida dos Artistas (18,72%), seguidos das temáticas Leis (10,97%), Discriminação (9,47%) e Violência urbana (8,17%). Apesar da concentração de 70,08% do tempo de emissão, nota-se grande variedade temática. No processo de composição de dados, pode-se agrupar as temáticas em programas, gêneros ou em tipos de matérias (para vídeos do gênero Telejornal). Sobre as temáticas agrupadas em termos dos gêneros, é possível analisar o tipo de enfoque informativo em que um determinado tema está sendo predominantemente empregado, ou seja, quais as características que envolvem uma temática para que ela seja mais explorada em ambientes de debates, onde os aspectos polêmicos serão exaltados na luta pela palavra por parte dos participantes; ou se a busca de conhecimento sobre a temática é mais importante, sendo mais apropriado o ambiente de entrevista em 5.2 Análise de Gráficos Discursivos 85 Figura 5.9: Capital temático dos gêneros informativos. que há interiorização da palavra por um especialista que “deve saber” sobre o assunto, bem como no ambiente telejornalístico para noticiar sobre o tema. A Figura 5.9 apresenta o agrupamento de temáticas por gêneros, percebendo-se a grande quantidade de tempo exibido para as temáticas Atualidade política em ambos os gêneros, considerando-se a proporcionalidade de cada um na base de dados, e Vida dos artistas nos programas de debate, o que pode ser atribuído ao caráter cultural e educativo da emissora de televisão Rede Minas, integrada à política da Secretaria da Cultura de Minas Gerais, mostrando-se atuante na divulgação das obras e trabalhos artísticos, bem como presente nos eventos e fatos ligados à situação política do estado. Em relação ao fluxo do montante de vídeos da base para programas dos gêneros Debate e Entrevista, o programa Roda Viva, de gênero híbrido, concentrou 9 exibições das 12 disponíveis para a temática Atualidade política, e o programa de entrevista Conexão Roberto D’Ávila apresentou 15 dentre os 17 vídeos sobre Vida dos artistas, conforme a Figura 5.10. Essa temática mergulha os telespectadores no universo íntimo da trajetória de vida pessoal e acadêmica dos entrevistados (CHARAUDEAU; GHIGLIONE, 1997), como no caso dos vídeos existentes. Observa-se em programas de gênero Debate uma seleção de temáticas heterogêneas, que abarca um universo diversificado, como apresentado pelos 25 vídeos dos programas Brasil das Gerais e Roda Viva. Em especial, o programa Roda Viva exibe o caráter de debate na maneira como são expostas as discussões dos temas, porém 5.2 Análise de Gráficos Discursivos 86 Figura 5.10: Capital temático dos programas de Debate e Entrevista. trata de temas que também necessitam de informação em um formato de entrevista, sendo dessa forma caracterizado como gênero híbrido de Debate e Entrevista (SABINO, 2011). A atualidade política trata de debater política e “mergulha o telespectador no universo dos valores da «cidadania» e visa a um efeito de «responsabilização»” (CHARAUDEAU; GHIGLIONE, 1997). As figuras representativas de Márcia Cavallari e José Dirceu, entrevistados em exibições sob essa temática, constroem por meio de seus discursos uma imagem de si (ethos) que está atrelada à credibilidade. Na geração extensiva de gráficos discursivos, pode-se selecionar todos os componentes disponíveis na respectiva interface e permitir a análise de dados compostos como pode ser visto no gráfico da Figura 5.11. Esta figura ilustra o tempo total de emissão de todas as temáticas indexadas na base, empilhadas por gêneros, para se analisar a uniformidade da distribuição das mesmas. Adicionalmente, tem-se a sumarização do número de vídeos por temática e dos dados referentes ao comportamento dos usuários sobre o nível de interesse na recuperação de tais vídeos. Alguns vídeos estão com nível de interesse praticamente nulo em razão dos testes de avaliação dos níveis de interesse de vídeos realizados na Seção 5.5 que descreve a criação de dois grupos de vídeos para os testes, em que um dos grupos foram acessados constantemente e o outro grupo foi ignorado, analisando-se dessa forma, respectivamente, a evolução positiva e negativa dos grupos. 5.2 Análise de Gráficos Discursivos 87 Figura 5.11: Agrupamento de temáticas em gêneros com curvas de sumarização. 5.2.2 Identidade dos Participantes Na análise de gráficos sobre a identidade dos participantes nos programas de gêneros Debate e Entrevista, dentre as dez identidades psicossociais modeladas no módulo de indexação, seis foram referenciadas pelos vídeos televisivos armazenados no banco de dados multimídia atual e acionadas pelo módulo de geração de gráficos discursivos sobre o fluxo da contagem de vídeos ou sobre o tempo de exibição Figura 5.12: Identidade dos participantes nos programas de Debate e Entrevista. 5.2 Análise de Gráficos Discursivos 88 de tais identidades. O gráfico discursivo da Figura 5.12 ilustra todo o tempo de aparição dos participantes que representam tais identidades nos programas analisados, destacando a identidade Especialista presente em 33,58% do tempo, visto que os vídeos são de gêneros informativos e, dessa forma, existe a tendência de que algum especialista sobre o assunto seja convidado a participar daquela exibição. Percebe-se também a presença de escritores e jornalistas em 44,16% do tempo nos programas. Conforme descrito no Capítulo 3, os participantes foram considerados sob o aspecto sócio-profissional e a presença dos mesmos em programas informativos nos “dá uma ideia de como será tratado o tema, na medida em que são eles próprios representantes do espaço público” (CHARAUDEAU; GHIGLIONE, 1997). Dessa forma, além de combinar dados de gêneros e de programas, pode-se agrupar esses metadados em temáticas afim de se analisar como os temas foram tratados pelos programas, ou seja, para cada grupo de temática abordada, tem-se as informações do tempo emitido para cada identidade ou em quantos programas, ou blocos de programas, que tais identidades aparecem para uma determinada temática. Considerando essa abordagem, a Figura 5.13 ilustra essa distribuição, percebendose a identidade Especialista atuante na maioria das temáticas existentes, ou seja, os participantes com essa identidade não somente têm sua contribuição transmitida por mais tempo pela emissora como também aparecem na maioria dos temas levantados. Em especial, tem-se a temática Atualidade política muito bem representada, consi- Figura 5.13: Agrupamento das identidade de participantes em temáticas. 5.2 Análise de Gráficos Discursivos 89 derando o universo midiático: a instância representativa do político, os jornalistas e escritores que se promovem em muitos casos como críticos e formadores de opinião sobre as questões acerca dessa temática, e, principalmente, os especialistas políticos, das áreas do Direito Administrativo, da Gestão Pública, da Ciência Política, dentre outros, que possuem a função de validar, ter a palavra de conhecimento e, então, de informar o telespectador sobre o tema. Agrupando os dados de Identidade dos Participantes em programas que, para essa base de dados, correspondem aos programas Conexão Roberto D’Ávila e Rede Mídia (gênero Debate), Rede Mídia (gênero Entrevista) e Roda Viva (gênero híbrido), percebe-se que a identidade Especialista aparece, sob proporções diferentes de tempos, em todos os programas (ver Figura 5.14). O programa Brasil das Gerais possui a maior concentração de especialistas e isso pode ser inferido pelo fato do referido programa exibir maior variedade de temáticas, convidando para o debate mais especialistas e estes de diversas áreas. O programa Roda Viva tem um caráter mais político e comporta as identidades de participantes inerentes à respectiva temática, como podese observar no gráfico anterior. Ao analisar as curvas, percebe-se que a identidade Especialista está presente, como informado anteriormente, em boa parte do tempo de emissão, em quase todas as temáticas e, também, em considerável quantidade de vídeos da base. A curva que sumariza o nível de interesse médio por cada participante demonstra que os vídeos em que ocorrem especialistas obtêm maior interesse por parte do usuário. Figura 5.14: Agrupamento das identidade de participantes em programas. 5.2 Análise de Gráficos Discursivos 90 5.2.3 Análise dos Espaços Enunciativos Nesta seção, são apresentados os gráficos discursivos dos vídeos televisivos de gênero Telejornal, tendo-se a análise do capital temático telejornalístico, o gráfico obtido do cruzamento de dados entre esses temas e os tipos de matérias identificados, e a distribuição do tempo dos tipos de matérias e da emissão de imagens na composição dos espaços enunciativos desse tipo de programa informativo. Os programas de gênero Telejornal se atentam aos acontecimentos que podem se tornar notícias e, sob essa limitação para o tipo de informação a ser transmitida, a captação telejornalística procede-se a escolher domínios de experiência representativos do espaço público. Sobre esse espaço público, que pela AD refere-se ao conceito de temática, revela-se os aspectos de cada telejornal na produção de informação, sendo imprescindível sua análise (DAVID-SILVA, 2005). A Figura 5.15 ilustra o capital temático do programa Jornal Minas, tendo-se as temáticas Cotidiano, Leis e Saúde como as mais abordadas em suas exibições, incluindo entrevistas ao vivo, no estúdio, ao exercer a sua função de difundir esses temas. Ao considerar o universo político, principalmente quando o mesmo está intimamente ligado à conjuntura econômica, tem-se 19,69% do tempo transmitido pelo telejornal para informar sobre essas temáticas. Além do capital temático, a distribuição do tempo de emissão de telejornais pode ser analisada também por outras modalidades de tratamento da informação conforme Figura 5.15: Capital temático telejornalístico. 5.2 Análise de Gráficos Discursivos 91 os dois espaços enunciativos interno (ou estúdio) e externo, bem como realizar a análise sobre os tipos de matérias existentes. Os gráficos referentes aos tipos de matérias apresentam o condicionamento informativo do telejornal, ou seja, qual é a porcentagem do tempo gasto na veiculação do ato de informar exclusivamente, frente às demais formas de emissão do tempo como aquelas relacionadas com a encenação para atrair o público-alvo no mundo televisivo coberto pelo telejornal (Vinhetas) ou as formas comerciais como a publicidade (Propagandas). Dentre os tipos de matérias modeladas, tem-se as Chamadas de Matéria, as Reportagens, as Entrevistas e as Notas Pé, Pelada e Coberta. No que se refere ao espaço interno ou de estúdio, cabe à essa composição os tipos de matérias que possuem a emissão de imagens internas, incluindo principalmente o apresentador, como nas Chamadas de Matéria, nas Entrevistas e nas Notas Pé e Pelada. A emissão de imagens externas é dada pelos tipos de matéria do espaço externo como as Reportagens e as Notas Cobertas, sendo essa última tendo a narração do apresentador, que se encontra no estúdio, porém as imagens emitidas para o telespectador referem-se ao ambiente externo. A Figura 5.16 apresenta a distribuição do tempo dos vídeos analisados em relação aos tipos de matéria indexados, observando-se que o acervo telejornalístico atual emite 52,21% desse tempo para entrevistas e 46,67% para reportagens. Existem poucas ocorrências de Nota Pé para complementar alguma informação, geralmente de reportagens, e o tempo para as chamadas está representado em menos de 1% do tempo emitido para matérias, mesmo correndo frequentemente. Figura 5.16: Distribuição do tempo dos tipos de matérias. 5.2 Análise de Gráficos Discursivos 92 Figura 5.17: Distribuição do tempo de emissão/imagens. Em relação ao tempo de emissão das imagens dos espaços enunciativos, bem como dos elementos de encenação, observa-se na Figura 5.17 a emissão de 46,61% de imagens externas, sendo basicamente atreladas às reportagens por não existir a ocorrência de Notas Cobertas na base de dados analisada. A emissão de imagens iconográficas das Vinhetas é bastante insignificante em relação ao tempo de emissão de imagens do estúdio de 53,26%. Sobre esse gráfico pode-se afirmar que, para essa amostra de vídeos analisada, existe uma equidade no processo de produção de informação, intercalando o ambiente informativo das entrevistas no estúdio e o ambiente fatual em ação nas reportagens. Como observado nos gráficos acima, em conformidade com o ambiente real telejornalístico, a reportagem é um dos principais tipos de matéria realizados no telejornalismo e ocupa boa parte do programa, realizada no local do fato, por uma equipe de reportagem responsável (DAVID-SILVA, 2005). Na combinação de opções para geração de gráficos discursivos, pode-se analisar a distribuição temática sobre todos os tipos de matérias ou em tipos específicos, conforme o objeto do usuário. A Figura 5.18 esboça a distribuição temática sobre os tipos de matérias, indicando as temáticas Cotidiano, Saúde e Turismo como as mais abordadas no ambiente fatual dos vídeos: as reportagens. Devido à mobilidade de repórteres, era esperado que as temáticas relacionadas aos fatos do cotidiano e aos problemas na área de saúde fossem mais abordadas nas reportagens por se tratarem, principalmente nesse gênero televisivo, de temas que exigem informação por parte da sociedade. Como o Jornal Minas está 5.3 Reconhecimento de Voz em Sinais de Áudio 93 Figura 5.18: Distribuição do tempo de temáticas por tipos de matérias. intimamente ligado à cultura mineira, justifica-se as diversas abordagens para a emissão de reportagens de temática Turismo, sendo o quadro Conheça Minas o principal veiculador desse tipo de matéria em espaço de cenário próprio. A temática Leis tem grande incidência em entrevistas, sendo o quadro Direitos do Cidadão responsável pela maior parte das emissões de entrevistas sobre esse espaço público. 5.3 Reconhecimento de Voz em Sinais de Áudio Os experimentos descritos a seguir possuem o objetivo de avaliar o processo de reconhecimento de voz em sinais de áudio dos vídeos televisivos, o qual foi implementado no módulo de indexação, contribuindo para o processo de indexação dos vídeos mediante a geração de metadados textuais dependentes do conteúdo. Para a primeira etapa dos testes, foram analisados dez trechos de áudio recolhidos aleatoriamente da base de dados multimídia, cada um contendo 1 minuto de duração, sendo cinco desses sinais de áudio referentes a vídeos do gênero Debate, contendo interseção de vozes, som ambiente, alterações de entonação, dentre outros aspectos considerados ruidosos, intrínsecos a esse gênero informativo (SABINO, 2011). Os outros cinco trechos foram recolhidos de vídeos do gênero Entrevista em que o ambiente é mais controlado, existe a interiorização da palavra (um participante por vez) e sem outros elementos que poderiam provocar ruídos no processo de reconhecimento. 5.3 Reconhecimento de Voz em Sinais de Áudio 94 Para analisar o desempenho do SRV utilizado, o Julius, por meio de medidas como precisão, revocação e a taxa de palavras erradas W ER (do inglês, Word Error Rate), foi necessário transcrever manualmente cada um dos sinais de áudio coletados para os testes. As transcrições foram armazenadas em uma estrutura Hashmap na linguagem Java. Em seguida, cada trecho de áudio foi processado no Julius e o respectivo texto reconhecido foi armazenado em uma segunda estrutura Hashmap. Tendo-se o primeiro Hashmap como referência (gabarito), cada palavra reconhecida no segundo Hashmap era pesquisada no primeiro, contando-se as palavras não existentes (erradas) e as palavras encontradas (certas). O objetivo dessa abordagem é obter, por meio do reconhecimento, palavras corretas para indexação, não importando o número de vezes ou a ordem em que elas apareçam. Esse trabalho não verifica a ordem de todas as palavras do arquivo reconhecido em relação ao gabarito, abrindo possibilidades de estudos em trabalhos futuros. Com esse processamento foi possível calcular as métricas de precisão, revocação e W ER. De forma análoga aos conceitos da Recuperação de Informação, a precisão de cada trecho de áudio foi calculada pela relação entre o número de palavras certas (aquelas que foram reconhecidas e existiam no arquivo transcrito manualmente) e o número de palavras reconhecidas (tamanho do segundo Hashmap). Já a revocação de cada sinal de áudio foi calculada pela relação entre o número de palavras certas e o total de palavras transcritas (tamanho do primeiro Hashmap). A taxa W ER é o contrário da precisão, sendo calculada pelo número de palavras erradas sobre o número de palavras reconhecidas pelo SRV. Mediante os testes realizados, foram obtidos os valores médios de 31%, 69% e 29% para as taxas de acerto (precisão), de palavras erradas (W ER) e de revocação dos dez trechos de áudio analisados. Para trabalhos futuros, sugere-se a aplicação de um peso maior a vídeos do gênero Entrevista que possuem melhores taxas de reconhecimento em relação a vídeos de Debate. A segunda etapa de testes visou aplicar, de forma mais extensiva, o reconhecimento de voz sobre todos os vídeos da base de dados. Os testes foram realizados sobre 71 vídeos de gêneros Debate, Entrevista e Telejornal. Para mensurar a exatidão e a eficiência de um SRV no processo de reconhecimento de voz, pode-se calcular a taxa de palavras erradas WER, como na primeira etapa, e a escala de tempo real RTSF (do inglês, real-time scale factor ). O RTSF é a razão entre o tempo gasto para reconhecer a faixa de áudio e a duração da mesma. Já a métrica WER reflete a percentagem do número de palavras reconhecidas de forma 5.3 Reconhecimento de Voz em Sinais de Áudio 95 Tabela 5.1: Taxa média de palavras erradas (W ERmedia ) por programa. Nome do Programa Brasil das Gerais Conexão Roberto D’Ávila Rede Mídia Roda Viva Jornal Minas Quantidade de Blocos W ERmedia 15 68% 15 56% 06 57% 10 71% 25 67% Desvio padrão 3% 2% 1% 2% 2% errada sobre o total de palavras reconhecidas, mostrando-se interessante para a avaliação do módulo de reconhecimento de voz. Todos os sinais de áudio foram divididos em trechos de 30 segundos de duração para não sobrecarregar o SRV Julius, não ocorrendo perda de desempenho se os trechos de áudio fossem processados inteiramente. Foram manualmente transcritos e analisados os 30 primeiros segundos. Para a generalidade dos resultados, optou-se pela utilização de uma taxa média de palavras erradas (W ERmedia ), calculada pela média aritmética das taxas WER obtidas em cada bloco de programa, conforme apresentado na Tabela 5.1. Nessa segunda etapa de testes sobre reconhecimento de voz, obteve-se taxas entre 54% e 73% de palavras erradas, considerando-se o desvio padrão. As menores taxas foram obtidas sobre os vídeos dos programas de entrevista Conexão Roberto D’Ávila e Rede Mídia. Em contrapartida, as piores taxas foram encontradas nos programas do gênero Debate Brasil das Gerais e Roda Viva. O programa Jornal Minas apresentou um taxa significativa de W ER, visto que boa parte dos telejornais se destinam a exibir reportagens compostas por diversas cenas externas contendo ruídos que provocam falha de reconhecimento. No programa Brasil das Gerais existem alguns trechos em que convidados cantam ou são exibidas reportagens em ambiente externo. Já no programa Roda Viva ocorre frequentes sobreposições de fala em um ambiente de discussão sobre assuntos polêmicos. Em vários testes realizados pela comunidade do projeto Fala Brasil, foi avaliado que trechos de áudio cantado e a presença expressiva de ruídos não são devidamente processados por sistemas SRV e esse tipo de pesquisa ainda se encontra em andamento (SILVA et al., 2005). Sobre o valor de 63,8% referente à média aritmética das taxas W ER médias obtidas nas duas etapas de testes, foi modelado e implementado no módulo de recuperação o peso de 3,62 para o metadado textual de conteúdo reconhecimentoVoz, significando um grau de confiança de 36,2% sobre esse campo de metadado no serviço de busca do sistema de informação proposto, conforme citado na Seção 4.3. Alterar esse valor de 5.4 Testes de Recuperação e Análise dos Resultados 96 peso implica em alterar a ordenação de vídeos contemplados no serviço de busca, ou seja, quanto maior o peso, vídeos contemplados que tenham ocorrência dos termos da busca no metadado reconhecimentoVoz podem aparecer nas primeiras posições da lista de vídeos recuperados. Os testes foram realizados com a diminuição gradativa do domínio de busca por fonemas, ou seja, alterando o tamanho do dicionário fonético. Para estruturas de indexação, esse tipo de problema pode ser grave, pois dicionários muito grandes provocam colisões entre fonemas parecidos e o reconhecedor pode escolher a palavra errada no mapeamento, porém dicionários reduzidos podem não contemplar alguns termos falados e, assim, retirar do Lucene palavras importantes que deveriam ser indexadas. 5.4 Testes de Recuperação e Análise dos Resultados Para a execução dos testes de recuperação, foi utilizada uma base de dados contendo 71 vídeos, sendo 25 vídeos do programa Jornal Minas (gênero Telejornal); e 46 vídeos dos programas Conexão Roberto D’Ávila, Roda Viva, Brasil das Gerais e Rede Mídia de gêneros Debate e Entrevista. Atuando sobre esses vídeos, o módulo de recuperação do sistema de informação proposto foi avaliado em termos de sua eficácia e eficiência. Com isso, pretendeu-se obter os pesos de cada grupo de metadado para contribuir com os melhores índices de recuperação, pois antes de analisar os vídeos televisivos sob as perspectivas da AD, os pesquisadores devem, primeiramente, ter acessos aos objetos de interesse por meio de um serviço de busca eficiente. A eficácia consiste em medir se o sistema de recuperação retorna os vídeos relevantes solicitados pelo usuário em uma proporção aceitável em relação à lista de vídeos contemplados pela consulta, dentre aqueles que deveriam ser efetivamente recuperados. Já a eficiência mede a distribuição dos vídeos relevantes na lista de vídeos recuperados por uma consulta, permitindo analisar se estes estão posicionados nas primeiras posições do resultado. Para avaliar o sistema em termos de sua eficácia, optou-se por utilizar as métricas de precisão e revocação no processo de recuperação dos vídeos de teste. A precisão é a fração dos vídeos recuperados que são relevantes para uma consulta, enquanto a revocação é a fração dos documentos relevantes para a consulta que foram efetivamente recuperados (CROFT; METZLER; STROHMAN, 2010). Para realizar uma ponderação entre esses dois valores, utilizou-se a métrica F1. Em termos matemáti- 5.4 Testes de Recuperação e Análise dos Resultados 97 cos, seja N1 o conjunto de vídeos relevantes para uma determinada consulta e N2 o vetor resultado recuperado pelo sistema, as métricas supracitadas são calculadas por: Precisão (P) = |N1 ∩ N2 | |N2 | Revocação (R) = F1 = |N1 ∩ N2 | |N1 | (2 ∗ P ∗ R) P+R (5.1) (5.2) (5.3) Conforme informado na descrição do módulo de recuperação, os pesos individuais para todos os metadados foram pré-estabelecidos por meio de uma pesquisa interna realizada sobre a pontuação dos metadados básicos e discursivos. A pontuação do peso do metadado de conteúdo referente ao reconhecimento de voz utilizado nesse trabalho foi obtido por meio de testes experimentais, descritos na seção anterior. Além disso, os grupos de metadados não possuem pesos na combinação dos dados do serviço de busca geral, sendo realizada simplesmente a média aritmética entre os graus de similaridade da consulta obtidos em cada grupo de metadado. Dessa forma, o objetivo em torno dos testes realizados é identificar os melhores pesos para cada grupo de metadados a fim de se alterar o cálculo da similaridade final dos vídeos utilizando-se a média ponderada entre as similaridades de cada grupo. Os testes de recuperação foram realizados modelando-se oito consultas textuais e uma lista contendo os vídeos relevantes para cada consulta (gabarito) que se encontra no Anexo B desse documento. Cada consulta foi submetida separadamente a cada grupo de metadados, sendo eles os grupos de metadados básicos (grupo A1), metadados discursivos (grupo A2) e metadado de conteúdo do reconhecimento de voz (grupo A3), calculando-se a precisão e a revocação de cada grupo/consulta. Em seguida, as consultas foram submetidas a todos os grupos no serviço de busca geral, combinando-se as similaridades obtidas. Nos testes de recuperação, foram analisadas listas de tamanho limite de 10 e de 20 vídeos, visto que a interface possui espaço de exibição para 10 vídeos por página. Além disso, é raro o usuário estar disposto a navegar por muitas páginas na interface para tentar encontrar algo relevante, pois tais vídeos deveriam aparecer nas primeiras posições da área de visualização que ele tem acesso (BAEZA-YATES; 5.4 Testes de Recuperação e Análise dos Resultados 98 Tabela 5.2: Medidas de precisão para cada grupo de metadados. Consultas corrupção política problemas saúde violência urbana direitos do cidadão discriminação social literatura brasileira filosofia humanidade vida artistas Total Média Grupo A1 10 20 0,50 0,43 0,50 0,50 0,70 0,70 0,70 0,40 0,30 0,25 0,60 0,50 0,50 0,45 0,50 0,45 0,53 0,46 Grupo A2 10 20 0,70 0,53 1,00 1,00 1,00 1,00 0,00 0,00 1,00 1,00 0,71 0,71 0,00 0,00 0,50 0,41 0,61 0,58 Grupo A3 10 20 0,50 0,35 0,60 0,40 0,30 0,30 0,70 0,40 0,22 0,22 0,30 0,15 0,30 0,23 0,20 0,25 0,39 0,28 Busca Geral 10 20 0,50 0,35 0,70 0,50 0,30 0,46 0,70 0,40 0,34 0,35 0,40 0,25 0,30 0,27 0,30 0,30 0,44 0,36 RIBEIRO-NETO, 1999). A Tabela 5.2 apresenta os valores de precisão medidos para as consultas aplicadas aos três grupos de metadados, bem como os valores para o serviço de busca geral que combina as similaridades desses grupos, discriminando os resultados em cada lista com limite de tamanho fixo. Pode-se observar analisando a Tabela 5.2 que, em geral, o grupo de metadados discursivos obteve os melhores índices de precisão e o grupo A3, representado pelo metadado de conteúdo reconhecimentoVoz, apresentou as piores medidas, como esperado conforme descrito na respectiva seção de testes. Em algumas consultas, ocorreram anomalias que geraram índices nulos de precisão para o grupo de metadados discursivos, porém ocorreram também, somente nesse grupo, valores totais de precisão. Para as consultas direitos do cidadão e filosofia humanidade, os valores de precisão nula ocorridos na recuperação sobre o grupo de metadados A2 se explica pelo fato dos termos de ambas as pesquisas não existirem no vocabulário controlado suportado por esse grupo, ou seja, os índices textuais armazenados nos metadados discursivos referem-se somente àqueles valores mapeados no módulo de indexação e, dessa forma, se o usuário digitar livremente valores não correspondentes, nenhum termo será contemplado. O módulo de recuperação apresentou melhor média para os valores de precisão sobre os 10 primeiros vídeos (a lista de recuperação menor). Outra questão importante é analisar qual a contribuição de cada grupo de metadados para o serviço de busca geral (livre digitação) de vídeos no sistema de informação proposto. Para isso, é necessário calcular as outras métricas. A Tabela 5.3 apresenta os valores de revocação medidos para as mesmas consultas em relação ao conjunto ideal de vídeos de resposta (gabarito). 5.4 Testes de Recuperação e Análise dos Resultados 99 Tabela 5.3: Medidas de revocação para cada grupo de metadados. Consultas corrupção política problemas saúde violência urbana direitos do cidadão discriminação social literatura brasileira filosofia humanidade vida artistas Total Média Grupo A1 10 20 0,55 0,77 0,41 0,41 0,87 1,00 0,58 0,66 0,37 0,37 0,85 0,85 0,83 0,83 0,55 1,00 0,59 0,68 Grupo A2 10 20 0,77 0,88 0,50 0,50 0,58 0,58 0,00 0,00 0,75 0,75 0,71 0,71 0,00 0,00 0,55 0,77 0,48 0,52 Grupo A3 10 20 0,55 0,77 0,50 0,88 0,42 0,42 0,58 0,66 0,25 0,25 0,42 0,42 0,50 0,50 0,22 0,55 0,43 0,55 Busca Geral 10 20 0,45 0,77 0,58 0,83 0,42 1,00 0,58 0,66 0,37 0,75 0,57 0,42 0,50 0,83 0,33 0,66 0,47 0,74 Pode-se observar nas duas tabelas anteriores que os indicadores médios finais para as métricas de precisão e revocação são consideravelmente baixos para um serviço de busca eficaz. Ao se analisar os valores de precisão 0,44 e 0,36 para uma lista de recuperação de até 10 e 20 vídeos, respectivamente, considerando-se os valores 0,47 e 0,74 de revocação, tem-se um indício que o serviço não é eficiente por não retornar nas primeiras posições das listas mais vídeos relevantes. Esse fato pode estar relacionado com a influência negativa de um ou mais grupos de metadados aplicados na recuperação, visto que o processo de busca sobre tais grupos é feito por média aritmética simples sobre os valores de similaridades obtidos para cada vídeo sobre cada grupo de metadado textual. Para isso, na tentativa de identificar a influência dos metadados sobre as consultas e, dessa forma, modelar pesos para melhorar os Tabela 5.4: Combinação dos valores de precisão e revocação pela métrica F1. Consultas corrupção política problemas saúde violência urbana direitos do cidadão discriminação social literatura brasileira filosofia humanidade vida artistas Total Média Grupo A1 10 20 0,52 0,55 0,45 0,45 0,63 0,63 0,63 0,49 0,33 0,29 0,70 0,62 0,62 0,58 0,52 0,62 0,55 0,52 Grupo A2 10 20 0,73 0,66 0,66 0,66 0,73 0,73 0,00 0,00 0,85 0,85 0,71 0,71 0,00 0,00 0,52 0,53 0,52 0,51 Grupo A3 10 20 0,52 0,48 0,54 0,55 0,35 0,35 0,63 0,49 0,23 0,23 0,35 0,22 0,37 0,31 0,20 0,34 0,39 0,37 Busca Geral 10 20 0,47 0,48 0,63 0,62 0,35 0,63 0,63 0,49 0,35 0,47 0,47 0,31 0,37 0,40 0,31 0,41 0,44 0,47 5.4 Testes de Recuperação e Análise dos Resultados 100 valores das métricas utilizadas, foi calculada a métrica F1, conforme a Tabela 5.4. Observa-se que as taxas médias de F1 dos metadados básicos e discursivos estão razoavelmente próximos, diferentemente dos respectivos valores para o metadado de conteúdo para o reconhecimento de voz que apresentou os piores indicadores. Dessa forma, de acordo com esses valores, foi considerado nesse trabalho que o metadado reconhecimentoVoz influenciou negativamente. Com isso, teve-se a necessidade de aplicar pesos para combinar os graus de similaridade obtidos entre os grupos de metadados no serviço de busca geral. Considerando o intervalo real [0,10] utilizado para a normalização dos pesos definidos no módulo de indexação, foram definidos os pesos 1, 5 e 9 para serem aplicados aos grupos de metadados acionados pelo processo de recuperação do sistema proposto, pegando-se os valores inteiros mais próximos das extremidades do intervalo (1 e 9) e o valor numérico do meio (5). Sugere-se estudos futuros para a obtenção de pesos de forma automática e adaptativa. Como esse trabalho tem seu foco principal sobre os metadados discursivos, então esse grupo recebeu o maior valor de peso; o grupo de metadados básicos recebeu peso 5; e, pela influência negativa inferida, o metadado de conteúdo para o reconhecimento de voz recebeu peso 1 na combinação de similaridades da busca geral. A Tabela 5.5 apresenta os novos valores de precisão, revocação e F1 para o serviço de busca geral utilizando-se os pesos supracitados. Com a aplicação dos pesos sobre os grupos de metadados, conforme os testes realizados, houve melhora em todos os indicadores calculados para o módulo de recuperação, observando-se a melhora significativa da eficácia do sistema. A precisão Tabela 5.5: Valores finais de precisão, revocação e F1 para a busca geral. Consultas corrupção política problemas saúde violência urbana direitos do cidadão discriminação social literatura brasileira filosofia humanidade vida artistas Total Média Precisão 10 20 0,70 0,40 0,70 0,45 0,70 0,46 0,70 0,45 0,30 0,31 0,40 0,31 0,30 0,27 0,50 0,35 0,53 0,37 Revocação 10 20 0,77 0,88 0,58 0,75 1,00 1,00 0,58 0,75 0,37 0,75 0,57 0,85 0,50 1,00 0,55 0,77 0,61 0,84 F1-measure 10 20 0,73 0,55 0,63 0,56 0,79 0,63 0,63 0,56 0,33 0,43 0,47 0,45 0,37 0,42 0,52 0,48 0,55 0,51 5.4 Testes de Recuperação e Análise dos Resultados 101 para o serviço de busca geral obteve aumento proporcionalmente maior para a lista de até 10 vídeos recuperados em relação à lista com até 20 vídeos, ou seja, mais vídeos relevantes estão sendo retornados em posições mais próximas do topo da lista, indicando melhora da eficiência do serviço. O objetivo do cálculo da precisão e revocação foi determinar um ponto de equilíbrio para o nível mínimo de similaridade, de modo a ter um número significativo de vídeos relevantes, sem com isso aumentar excessivamente o número total de vídeos recuperados. Além da métricas de eficácia, computou-se, neste trabalho, a eficiência do módulo de recuperação do sistema de informação proposto sob as perspectivas das consultas modeladas para esse teste. A eficiência na recuperação de vídeos é medida calculando-se a percentual de vídeos relevantes em diversos intervalos consecutivos de vídeos dentre o total retornado. A Figura 5.19 apresenta o gráfico sobre o cálculo de eficiência das 8 consultas modeladas. O eixo das abscissas (x) apresenta a quantidade de vídeos retornados, analisando-se intervalos de 5 em 5 vídeos. O eixo das ordenadas (y) ilustra a percentagem de vídeos relevantes dentro dos intervalos de vídeos retornados. Quanto mais próxima a curva estiver do eixo y, tem-se maior eficiência, ou seja, os vídeos mais relevantes estão posicionados nas primeiras posições das listas de recuperação como ocorre para a consulta corrupção política que apresenta tal comportamento em todos os intervalos de ocorrência de vídeos. A curva referente à eficiência para a consulta problema saúde possui uma inclinação menor e mais distante do eixo y em relação à primeira consulta, ilustrando que os vídeos relevantes estão diluídos ao longo da lista de recuperação, não sendo mais retornados a partir de 15 vídeos dentre os 20 primeiros vídeos avaliados na lista. Figura 5.19: Gráfico de eficiência para as 8 consultas modeladas. 5.4 Testes de Recuperação e Análise dos Resultados 102 A curva da consulta violência urbana apresenta o melhor comportamento de eficiência, tendo-se pouco mais de 60% dos vídeos relevantes nas 5 primeiras posições e 80% nas 10 primeiras posições da lista de recuperação de até 10 vídeos, retornando todos os vídeos relevantes esperados na lista de recuperação de tamanho 20. Já a curva de eficiência para a consulta direitos do cidadão alcança 60% dos vídeos relevantes dentre os 10 primeiros vídeos retornados e, depois disso, só apresenta mais vídeos relevantes para essa consulta a partir da 15a posição da lista de recuperação, impactando dessa forma no índice de precisão do sistema para essa consulta. Vale ressaltar que o número de vídeos relevantes para a consulta violência urbana é menor que a lista de vídeos esperados para a consulta direitos do cidadão que, além disso, apresenta índice nulo de precisão e revocação para o grupo de metadados discursivos, como informado nas tabelas situadas no início dessa seção. A consulta discriminação social apresentou a pior taxa de eficiência para o módulo de recuperação do sistema proposto, tendo-se menos de 40% dos vídeos relevantes nas 10 primeiras posições, mas a partir disso ocorre um crescimento acentuado para 75% de vídeos relevantes retornados, ou seja, muitos vídeos relevantes apareceram distantes do topo da lista de recuperação (ver Figura 5.19). Para a consulta literatura brasileira, percebe-se uma boa taxa de eficiência para os 5 primeiros vídeos, porém essa taxa cresce com menos intensidade no restante da lista de recuperação. Esse comportamento aparece em toda a curva da consulta filosofia humanidade, indicando que seus vídeos relevantes aparecem aos poucos e de forma esparsa ao longo de toda a lista de recuperação. Já para a consulta vida artistas, a taxa de crescimento no cálculo de eficiência é ligeiramente melhor em relação à consulta filosofia humanidade, porém ocorre novamente sua diminuição a partir dos 10 primeiros vídeos. Analisando-se as 8 curvas descritas, 5 delas apresentam, em média, 44% dos vídeos relevantes entre os 5 primeiros vídeos retornados e 61% entre os 10 primeiros vídeos na lista de recuperação. Em alguns casos, foi necessária uma lista de recuperação maior para que mais vídeos relevantes ou todos eles, no caso da consulta violência urbana, fossem retornados, mas a percentagem apresentada para as 10 primeiras posições recuperadas ilustra boa eficiência do módulo de recuperação do sistema de informação proposto. 5.5 Análise do Nível de Interesse de Vídeos 103 5.5 Análise do Nível de Interesse de Vídeos Para a execução dos testes, foi utilizada uma base de dados contendo 46 vídeos referentes aos programas Conexão Roberto D’Ávila e Roda Viva, ambos da TV Brasil, e os programas Brasil das Gerais e Rede Mídia da TV Rede Minas. Todos os programas são divididos entre 3 a 6 blocos, cada um com duração média de 27 minutos. Quando esse teste foi realizado, os vídeos televisivos referentes ao Jornal Minas ainda não haviam sido indexados. Os vídeos foram indexados no início do mês de junho de 2011 e os testes de avaliação foram acompanhados entre os dias 20 e 24 do mesmo mês durante o processamento das consultas dos usuários na recuperação de vídeos. No início dos testes, como era esperado, todos os vídeos da base apresentaram notas entre 0% e 2% de interesse, visto que os mesmos tinham um ou nenhum acesso e nem ao menos foram reproduzidos. Durante a semana de testes, com o apoio de 06 alunos do curso de Engenharia da Computação do CEFET-MG, o sistema de informação foi utilizado e definiu-se dois grupos de vídeos: um para os vídeos a serem acessados e um para os vídeos a serem ignorados. Para o primeiro grupo, foram escolhidos os dois primeiros blocos de cada programa totalizando 29 vídeos, e para o segundo grupo, o restante. O primeiro teste foi formulado para analisar a evolução positiva ou negativa do nível de interesse dos vídeos ao longo de alguns dias. Esse tipo de abordagem é relevante, pois uma das variáveis de entrada do módulo de avaliação nebulosa processa o valor real, não-normalizado, da quantidade de dias em que um vídeo não é visualizado. Além disso, ao longo do tempo, conforme o uso do sistema feito pelos usuários, a quantidade de acessos aos vídeos pode crescer muito e, dessa forma, influenciar no processamento do nível de interesse de todos os vídeos da base, pois a partição de entrada correspondente processa valores normalizados a partir da razão da quantidade de acessos de cada vídeo pela quantidade de acessos feita sobre o vídeo mais acionado. Para facilitar a medição da evolução dos níveis de interesse dos vídeos testados, calculou-se a média entre os níveis de interesse de todos os vídeos pertencentes a um mesmo grupo durante o período de 5 dias da realização dos testes. A Tabela 5.6 apresenta os valores médios dos níveis de interesse na recuperação dos vídeos ao final de cada dia da semana dos experimentos. Percebe-se que o nível médio de interesse do grupo 1 de vídeos atinge altas pontuações durante os testes na recuperação dos respectivos vídeos, com uma taxa de 5.5 Análise do Nível de Interesse de Vídeos 104 Tabela 5.6: Nível de interesse médio entre os grupos de vídeos definidos. Dia 1 2 3 4 5 Nível de Interesse do Grupo 1 55, 13% 62, 30% 70, 59% 78, 01% 89, 93% Nível de Interesse do Grupo 2 1, 92% 0, 31% 0, 02% 0, 00% 0, 00% acréscimo notavelmente maior que a taxa de decaimento no nível de interesse médio do grupo 2 a partir do segundo dia. Pode-se explicar esse fenômeno por meio do número de acessos calculado sobre cada vídeo em relação ao vídeo mais acessado e, como são cada vez mais acessados, os vídeos do grupo 1 ganham mais contribuições desse indicador no processo de inferência dos níveis de interesse do que os vídeos do grupo 2. Os valores para a quantidade de dias desde a última visualização entre os dois grupos são completamente opostos e contribuíram com os resultados obtidos: enquanto no grupo 1 é nulo (os vídeos são constantemente acessados, possuindo 0 dias desde a última visualização), no grupo 2 aumenta durante a semana (como são ignorados, com o passar do tempo, o número de dias sem ser vistos aumenta). O segundo teste, realizado paralelamente ao primeiro, foi formulado para analisar a velocidade da evolução entre dois vídeos específicos durante o dia. Dessa forma, é possível quantificar estatisticamente o grau de influência que os indicadores possuem sobre o nível de interesse dos vídeos. Como os testes foram baseados em vários acessos sobre os vídeos durante o dia, logo não foi avaliado o indicador referente a quantidade de dias em que os mesmos não são vistos, pois o valor é sempre nulo nesse tipo de processamento. Para a realização desse teste, foram utilizados os Tabela 5.7: Níveis de interesse estimulados por indicadores diferentes. Dia 1 2 3 4 5 Níveis de Interesse por Indicadores Diferentes Conexão Roberto D’Ávila (quantidade acessos) Roda Viva (tempo assistido) 69, 41% 71, 08% 72, 15% 75, 71% 75, 06% 79, 24% 79, 17% 83, 01% 82, 39% 86, 99% 5.5 Análise do Nível de Interesse de Vídeos 105 vídeos pertencentes ao grupo 1 definido para o primeiro teste, pois se fossem escolhidos os vídeos do outro grupo, o primeiro teste seria invalidado ao longo da semana. A metodologia para a esse segundo teste foi acessar várias vezes um dos vídeos, inclusive por mais de uma pessoa, não sendo necessário assistir ao respectivo vídeo até o final. Já o segundo vídeo foi acessado a metade das vezes em relação ao primeiro, porém sempre assistido até o final ou, pelo menos, tendo uma visualização de 90% de seu conteúdo. A Tabela 5.7 apresenta os valores absolutos, medidos ao final de cada dia, dos níveis de interesse dos vídeos referentes ao bloco 2 do programa Conexão Roberto D’Ávila, sobre a entrevista do jornalista e escritor Carlos Heitor Cony, e ao bloco 1 do programa Roda Viva com a entrevista de José Dirceu. Conforme os valores apresentados no segundo teste, os níveis de interesse para o primeiro vídeo (Conexão Roberto D’Ávila) evoluiu com uma taxa média de 2, 59% ao dia e de 3, 18% ao dia para o segundo vídeo (Roda Viva), informando que o processo de avaliação sobre o indicador referente ao tempo médio assistido pode contribuir mais que o número de acessos ao vídeo e a quantidade de dias sem visualização, porém a integração de indicadores com características diferentes ainda se mostra relevante para o processamento global. O capítulo sobre as conclusões desse trabalho apresenta uma reflexão sobre esse assunto, bem como apresenta as aplicações viáveis que podem ser desenvolvidas como trabalhos futuros. 106 6 Conclusões e Trabalhos Futuros Nos capítulos anteriores foram apresentados todos os componentes implementados para o pleno funcionamento do sistema de informação proposto para apoiar a análise discursiva de vídeos televisivos. Dentre os principais componentes implementados tem-se o módulo de geração de gráficos discursivos que permite a análise quantitativa dos elementos extraídos de metadados dependentes dos conteúdos dos vídeos, fornecidos manualmente por meio de um formulário preenchido por um usuário especialista (documentalista) durante o processo de indexação. Sobre a estrutura gerida pelos outros módulos implementados, o serviço de geração extensiva de gráficos permite ao usuário construir seu gráfico selecionando as opções disponíveis referentes aos metadados discursivos modelados e indexados para todos os vídeos do acervo televisivo armazenado. É importante ressaltar que os estudos interdisciplinares realizados neste trabalho com o apoio de pesquisadores das áreas de Estudos de Linguagens e Ciência da Computação permitiram a definição e implementação de funcionalidades para a geração automática de gráficos referentes àqueles recorrentes na literatura para o tipo de análise que os pesquisadores se dispõem a fazer sobre a produção do sistema brasileiro de televisão. Para agregar valor ao sistema e facilitar os trabalhos de pesquisa de seus usuários, foram implementados outros serviços além da geração de gráficos discursivos, tais como os serviços de busca para a recuperação de vídeos televisivos e a avaliação automática do nível de interesse nesse processo de recuperação. Embora simples, o processamento utilizado no serviço de avaliação do nível de interesse utilizando-se da lógica nebulosa apresentou bons resultados, identificando os vídeos mais interessantes para pesquisa por meio do número de acessos, tempo decorrido desde sua última visualização e o tempo em que o mesmo foi assistido em cada acesso. Essas informações são adicionadas aos gráficos, se for de interesse do usuário ao selecioná-las, a fim de se analisar a influência de algum programa ou gênero televisivo sobre o comportamento dos usuários, podendo subsidiar a descoberta da retórica ou intencionalidade 6 Conclusões e Trabalhos Futuros 107 em relação à produção midiática para aquele público. Já os serviços de recuperação de vídeos são importantes para auxiliar as pesquisas dos usuários, principalmente caso o usuário queira assistir aos vídeos contemplados nos gráficos por ele utilizados, a fim de se complementar sua análise referente ao conteúdo informacional dos vídeos. Os serviços de busca, suportados pelos módulos de indexação e recuperação, foram testados e avaliados quanto à sua eficácia e eficiência, em especial o serviço de busca geral, por meio de métricas bastante difundidas na literatura. O serviço de busca atendeu às expectativas desse trabalho e, para estudos futuros, pode ser aprimorado quanto à definição mais criteriosa dos pesos dos metadados envolvidos no processo de recuperação, sendo acionados de forma adaptativa em relação aos dados da base. Os resultados apresentados foram favoráveis ao objetivo principal desse trabalho em relação aos metadados discursivos, principalmente pelo fato do respectivo módulo de geração de gráficos utilizar o módulo de recuperação para acessar devidamente os metadados selecionados pelo usuário por meio das opções disponíveis na interface. O módulo de geração de gráficos realiza uma consulta full em toda a base de dados, retornando todos os metadados textuais de todos os vídeos, realizando o filtro de opções discursivas somente no módulo de interação com o usuário, ou seja, o módulo de geração de gráficos carrega todos os metadados discursivos antes do usuário selecionar as respectivas opções de seu interesse utilizando a interface Web do sistema proposto. Dentre os metadados modelados nesse trabalho, encontra-se o metadado dependente de conteúdo relacionado ao sinal de áudio de cada vídeo processado. Foi implementado, dentro do módulo de indexação, um método para extrair o conteúdo textual dos sinais de áudio por meio de reconhecimento de voz, utilizando-se o software Julius. Conforme os resultados apresentados, o processo de transcrição de áudio é ainda um campo de estudo que deve ser mais explorado para que esse tipo de problema seja sanado e, por isso, no momento da indexação, devem ser devidamente considerados, mas com um nível de confiança reduzido. Dessa forma, indica-se para propostas futuras de trabalhos a criação de modelos linguísticos temáticos com vocabulários de tamanhos reduzidos, verificando-se, para um determinado vídeo de entrada, o metadado que informa seu respectivo gênero e, com base em tal, é escolhido o modelo linguístico apropriado para ser utilizado pelo decodificador no processo de reconhecimento de voz. O processamento dos quadros-chave ou keyframes dos vídeos pode promover 6 Conclusões e Trabalhos Futuros 108 outras formas de consulta obtidas da modelagem e extração de informações afetivas por meio de técnicas como Lógica Nebulosa (ZHAOMING et al., 2009). Pode-se com essas técnicas realizar a avaliação automática dos vídeos por meio de indicadores sobre o uso que o usuário faz da informação recuperada, no caso os vídeos televisivos, cobrindo a demanda por uma ferramenta de análise automática de conteúdo. As perspectivas supracitadas proporcionam valiosos estudos para outros trabalhos que envolvam a interdisciplinaridade entre a Ciência da Computação e a área de Estudos da Linguagem. Além das abordagens discursivas consideradas para esse trabalho na geração de gráficos, o devido processamento dos metadados dependentes do conteúdo inerentes aos sinais de áudio e componentes visuais dos vídeos podem subsidiar a Análise do Discurso (AD) quanto ao levantamento dos capitais verbal e visual. O capital verbal refere-se à contabilização do tempo em que cada interlocutor participante falou durante a emissão dos programas. Para se obter tais dados, mostra-se necessário promover trabalhos sobre o reconhecimento de locutor em sinais de áudio, extrair a assinatura para o timbre de voz identificado, contabilizar todos os instantes em que essa assinatura ocorreu no sinal de áudio e, finalmente, plotar o respectivo gráfico discursivo. Esses procedimentos são similares para a geração de gráficos do capital visual dos participantes, tendo-se, para esse caso, a necessidade de extrair a assinatura da imagem obtida da detecção de face de cada participante. Sob os conceitos de bibliotecas digitais que caracterizam o sistema de informação proposto, pretende-se também implementar o processo de coleta e exportação de metadados textuais por meio do protocolo OAI-PMH, que utiliza o padrão Dublin Core, bastante difundido na comunidade científica (GONÇALVES, 2004). Com isso, além de prover a interoperabilidade entre as instâncias do sistema, pode-se recuperar documentos de outros sistemas de informação como, por exemplo, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD), a fim de subsidiar os pesquisadores com um serviço adicional em um ambiente de pesquisa cada vez mais integrado. 109 Referências Bibliográficas AKINOBU, L. Open-Source Large Vocabulary CSR Engine Julius. 2011. Disponível em: <http://julius.sourceforge.jp/en/>. ARAÚJO, A.; GUIMARÃES, S. J. F. Recuperação de informação visual com base no conteúdo em imagens e vídeos digitais. Revista de Informática Teórica e Aplicada, v. 7, n. 2, p. 43–72, 2000. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. : ACM Press Series, 1999. BARRETO, J. S. Desafios e avanços na recuperação automática da informação audiovisual. Ciência da Informação - SCIELO Brasil, v. 36, n. 3, p. 17–28, Set–Dez 2007. BENVENISTE Émile. Problèmes de linguistique générale II. : Gallimard, 1976. 356 p. BERTINI, M.; BIMBO, A. D.; PALA, P. Content-based indexing and retrieval of tv news. Pattern Recognition Letters, v. 22, n. 5, p. 503–516, 2001. BITTENCOURT, G. Inteligência Artificial - Ferramentas e Teorias. 3. ed. Florianópolis: , 2006. 371 p. BORBA, S. d. F. P.; MORALES, A. B. T. Aplicação de banco de dados orientado a objetos na modelagem multidimensional. XXI Simpósio Brasileiro de Banco de Dados - SBBD, p. 132–146, 2006. BORGES, G. S. B.; MACULAN, B. C. M. S.; LIMA, G. Á. B. O. Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertações. VII ENANCIB: Encontro Nacional de Pesquisa em Ciência da Informação, 2007. BORGMAN, C. L. Social aspects of digital libraries. In: FOX, E.; MARCHIONINI, G. (Ed.). Proceedings of the 1st ACM international conference on digital libraries. 1996. p. 170–171. BRAIGHI, A. A. A TV que o mineiro vê: Análise Discursiva da Encenação Visual de Telejornais em Minas Gerais. Dissertação (Mestrado) — Centro Federal de Educação Tecnológica de Minas Gerais - Departamento de Estudos de Linguagens, 2012. BROWN, E.; SRINIVASAN, S.; CODEN, A.; PONCELEON, D.; COOPER, J.; AMIR, A.; PIEPER, J. Towards speech as a knowledge resource. X CIKM: International Conference on Information and Knowledge Management, p. 526–528, 2001. CARDOSO, O. N. P. Recuperação de informação. INFOCOMP - Journal of Computer Science, v. 2, n. 1, p. 33–38, 2000. Referências Bibliográficas 110 CHAN, K. C. C.; AU, W.-H. Mining fuzzy association rules. In: Proceedings of the Sixth International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 1997. (CIKM ’97), p. 209–215. Disponível em: <http://dl.acm.org/citation.cfm?doid=266714.266898>. CHARAUDEAU, P. Le contrat de communication de l’information médiatique. Revista Lefrançais dans le monde, Julho 1994. CHARAUDEAU, P. Visées discursives, genres situationnels et construction textuelle. 2001. CHARAUDEAU, P.; GHIGLIONE, R. A palavra confiscada: um gênero televisivo: o talk show. Lisboa: Tradução Susana Farias Azevedo, 1997. CHRISTEL, M.; SMITH, M.; TAYLOR, C.; WINKLER, D. Evolving video skims into useful multimedia abstractions. Conference on Human factors in Computing Systems, p. 171–178, 1998. CHRISTEL, M. G. Establishing the utility of non-text search for news video retrieval with real world users. MULTIMEDIA ’07 Proceedings of the 15th international conference on Multimedia, p. 707–716, 2007. CROFT, W. B.; METZLER, D.; STROHMAN, T. Search Engines: Information Retrieval in Practice. : Pearson Education, Inc, 2010. DANTAS, T. M. Uma aplicação de inteligência computacional e estatística clássica na previsão do mercado de seguros de automóveis brasileiro. In: Simpósio Nacional de Probabilidade e Estatística - SINAPE. São Pedro - SP: , 2010. DAVID-SILVA, G. A Informação Televisiva: Uma Encenação da Realidade (Comparação entre Telejornais Brasileiros e Franceses). Tese (Doutorado) — Universidade Federal de Minas Gerais - Faculdade de Letras, Belo Horizonte, 2005. DAVID-SILVA, G. Análise semiolinguística da identidade midiático-discursiva de telejornais brasileiros e franceses. XI SILEL - XI Simpósio Nacional de Letras e Linguística - I Simpósio Internacional de Letras e Linguística, p. 10–19, 2006. DIAS, E. W.; NAVES, M. M. L. Análise de Assunto: teoria e prática. : Brasília: Thesaurus, 2007. DIMITROVA, N.; ZHANG, H.; SHAHRARAY, B.; SEZAN, I.; HUANG, T.; ZAKHOR, A. Applications of video-content analysis and retrieval. IEEE Multimedia, p. 42–55, 2002. DING, W.; SOERGEL, D.; MARCHIONINI, G. Performance of visual, verbal, and combined video surrogates. Annual Conference of the American Society for Information Science and Technology, p. 651–664, 1999. DUGUID, P.; ATKINS, P. Digital libraries - report of the sanfa fe planning wokshop on distribued knowledge work environments. March 1997. ELMASRI, R.; NAVATHE, S. Sistemas de banco de dados: fundamentos e aplicações. 3. ed. : LTC - Rio de Janeiro, 2002. 837 p. Referências Bibliográficas 111 ENSER, P. The evolution of visual information retrieval. Journal of Information Science, v. 34, n. 4, p. 531–546, 2008. FREITAS, M. H. G.; PÁDUA, F. L. C.; BARROS, W. F. An immune-inspired approach for content-based image retrieval. In: Proceedings of ICCCI - International Conference on Computer and Computational Intelligence. Bangkok: , 2011. GEISLER, G. AgileViews: A Framework for Creating More Effective Information Seeking Interfaces. Tese (Doutorado) — University of North Carolina, Chapel Hill, United States, 2003. GEISLER, G.; MARCHIONINI, G.; WILDEMUTH, B. M.; HUGHES, A.; YANG, M.; WILKENS, T. Video browsing interfaces for the open video project. ACM SIGCHI Conference on Human Factors in Computing Systems, p. 514–515, 2002. GONÇALVES, M. A. Streams, Structures, Spaces, Scenarios, and Societies (5S): A Formal Digital Library Framework and Its Applications. Tese (Doutorado) — Faculty of the Virginia Polytechnic Institute and State University, 2004. GONÇALVES, M. A.; FOX, E. A.; WATSON, L. T.; KIPP, N. A. Streams, structures, spaces, scenarios, societies (5s): A formal model for digital libraries. ACM Transactions on Information Systems, v. 22, n. 2, p. 270–312, 2004. GONZALEZ, M.; LIMA, V. L. S. de; LIMA, J. V. de. Termos, relacionamentos e representatividade na indexação de texto para recuperação de informação. Revista Letras de Hoje, v. 41, n. 2, p. 65–87, Junho 2006. GOSPODNETIĆ, O.; HATCHER, E. Lucene in action: a guide to the Java search engine. : Manning Publications, 2005. (1-932394-28-1). HANSEN, J.; SATO, M.; RUEDY, R.; LO, K.; LEE, D. W.; MEDINA-ELIZADE, M. Global temperature change. PNAS - Proceedings of the National Academy of Sciences - USA, v. 103, n. 39, p. 14288–14293, 2006. HUANG, X.; ACERO, A.; HON, H.-W. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. : Prentice Hall PTR, 2001. HUGHES, A.; WILKENS, T.; WILDEMUTH, B.; MARCHIONINI, G. Text or pictures? an eyetracking study of how people view digital video surrogates. Lecture notes in computer science, p. 271–280, 2003. JOHNSTON, P.; POWELL, A. Expressing Dublin Core Description Sets using XML (DC-DS-XML). 2008. Disponível em: <http://dublincore.org/>. JOST, F. Introduction à l’Analyse de la Télévision. : Elypses Editions Marketing, 1999. KETTERL, M.; SCHULT, O. A.; HOCHMAN, A. Opencast matterhorn: A communitydriven open source solution for creation, management and distribution of audio and video in academy. 11th IEEE International Symposium on Multimedia, p. 687–692, 2009. Referências Bibliográficas 112 KETTERL, M.; SCHULT, O. A.; HOCHMAN, A. Opencast matterhorn: A communitydriven open source software project for producing, managing, and distributing academic video. Interactive Technology and Smart Education, v. 7, n. 3, p. 168–180, 2010. LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. 2. ed. : Briquet de Lemos, 2004. LEE, H.; SMEATON, A. Designing the user interface for the físchlár digital video library. Journal of Digital information, v. 2, n. 4, 2006. LEVY, D. M.; MARSHALL, C. C. Going digital: a look at assumptions underlying digital libraries. Communications of the ACM, v. 38, n. 8, p. 77–84, 1995. LEW, M.; SEBE, N.; DJERABA, C.; JAIN, R. Content-based multimedia information retrieval: State of the art and challenges. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP), v. 2, n. 1, p. 1–19, 2006. LI, Y.; SMITH, J.; ZHANG, T.; CHANG, S. Multimedia database management systems. Journal of Visual Communication and Image Representation, v. 15, n. 3, p. 261–264, 2004. LIMA, F. B.; SOUZA, C. L.; PáDUA, F. L. C.; DAVID-SILVA, G. Reconhecimento automático de fala aplicado à indexação e recuperação de vídeos televisivos com sinais de Áudio em português brasileiro. In: Anais do XIII EMC - Encontro de Modelagem Computacional. Nova Friburgo: , 2010. LIRA, W. A. L.; SOARES, T. de A. C.; BRITTO, R. de S.; RABÊLO, R. A. L.; NETO, P. de A. dos S. Uma Abordagem Baseada em Sistemas de Inferência Fuzzy para o Problema de Alocação de Equipes. A Escola Regional de Computação dos Estados do Ceará, Maranhão e Piauí (ERCEMAPI), 2011. MAINGUENEAU, D. Analyser les textes de communication. Paris: Armand Colin, 2007. MAMDANI, E. H. Application of Fuzzy Algorithms for Control of Simple Dynamic Plant. In: Proceedings of the 4th International Symposium on Multivalued Logic. 1974. (IEEE, v. 121), p. 1585–1588. MAMDANI, E. H. Application of Fuzzy Logic to Approximate Reasoning Using Linguistic Synthesis. IEEE Transactions on Computers, v. 12, n. 26, p. 1182–1191, 1977. MARCHIONINI, G.; WILDEMUTH, B.; GEISLER, G. The open video digital library: A mobius strip of research and practice. Journal of the American Society for Information Science and Technology, v. 57, n. 12, p. 1629–1643, 2006. MARCU, D. Automatic Discourse Parsing. Encyclopedia of Language and Linguistics 2nd Edition, Elsevier, Elsevier, v. 3, p. 649–654, 2005. MARCU, D.; ECHIHABI, A. An Unsupervised Approach to Recognizing Discourse Relations. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-02), Kluwer Academic Publishers, July 2002. Referências Bibliográficas 113 MU, X.; MARCHIONINI, G. Enriched video semantic metadata: Authorization, integration, and presentation. Annual Conference of the American Society for Information Science and Technology, p. 316–322, 2003. MUTHUKUMAR, K.; SEETHA, S.; PÁDUA, F. L. C. . Generating MPEG-7 Audio Descriptor for Content Based Retrieval. In: Proceedings of IEEE RAICS - IEEE Recent Advances in Intelligent Computational Systems. Trivandrum: , 2011. NEGNEVITSKY, M. Artificial Intelligence: A Guide to Intelligent Systems. 2. ed. : Springer-Verlag, 2005. 231 p. NUNES, F. H. C.; ARAÚJO, A. A.; SOUZA, L. A. C. Uso de sistemas de informação multimídia em acervos permanentes. INFOCOMP, v. 3, n. 1, p. 1–6, 2004. PACHECO, E. J. MorphoMap: Mapeamento Automático de Narrativas Clínicas para uma Terminologia Médica. Tese (Doutorado) — Universidade Tecnológica Federal do Paraná, Curitiba, Dezembro 2009. PARDO, T. A. S.; NUNES, M. d. G. V. Review and Evaluation of Dizer - an Automatic Discourse Analyzer for Brazilian Portuguese. In: Proceedings of the 7th international conference on Computational Processing of the Portuguese Language. Berlin, Heidelberg: Springer-Verlag, 2006. (PROPOR’06), p. 180–189. PEREIRA, M. H. R.; PEREIRA, T. T. D.; SABINO, J. L. F.; PáDUA, F. L. C.; DAVIDSILVA, G. Modelagem de um sistema de informação para recuperação de vídeos por meio de metadados textuais. In: Anais do XIII EMC - Encontro de Modelagem Computacional. Nova Friburgo: , 2010. PEREIRA, M. H. R.; PIVA, R. C.; PáDUA, F. L. C.; DAVID-SILVA, G.; ALMEIDA, P. E. M. Avaliação do nível de interesse na recuperação de vídeos utilizando-se lógica fuzzy. In: Anais do X CBIC - Congresso Brasileiro de Inteligência Computacional. 2011. (CBIC ’11). PETRELLI, D.; AULD, D. An examination of automatic video retrieval technology on access to the contents of an historical video archive. Information Systems, v. 42, n. 2, p. 115–136, 2008. POZO, D. P. V. del; SILVA, L. V. e; LAENDER1, A. H. F.; GONÇALVES, M. A. Modelagem de bibliotecas digitais usando a abordagem 5s: Um estudo de caso. In: Anais do XIX Simpósio Brasileiro de Bancos de Dados. 2004. REITTER, D.; MOORE, J. D. Predicting Success in Dialogue. Proc. 45th Annual Meeting of the Association of Computational Linguistics, p. 808–815, 2007. RINGOOT, R. Por quê e como analisar o discurso no contexto dos estudos sobre jornalismo? Revista Comunicação e Espaço Público, Ano IX, n. 1 e 2, p. 133–139, 2006. ROSETTO, M. Metadados e recuperação da informação: padrões para bibliotecas digitais. II CIBERÉTICA: Simpósio Internacional de Propriedade Intelectual, Informação e Ética, p. 58–87, April–June 2004. Referências Bibliográficas 114 SABINO, J. L. M. F. A Análise Discursiva de Entrevistas e Debates Televisivos como Parâmetro para Indexação e Recuperação de Informações em um Banco de Dados Audiovisuais. Dissertação (Mestrado) — Centro Federal de Educação Tecnológica de Minas Gerais - Departamento de Estudos de Linguagens, 2011. SAYÃO, L. F. Padrões para bibliotecas digitais abertas e interoperáveis. Encontros Bibli - Revista Eletrônica de Biblioteconomia e Ciência da Informação, v. 2, n. 2, p. 18–47, 2007. SILVA, E.; BAPTISTA, L.; FERNANDES, H.; KLAUTAU, A. Desenvolvimento de um sistema de reconhecimento automático de voz contínua com grande vocabulário para o português brasileiro. Congresso da Sociedade Brasileira de Computação (SBC), 2005. SILVA, P.; NETO, N.; KLAUTAU, A. Novos recursos e utilização de adaptacão de locutor no desenvolvimento de um sistema de reconhecimento de voz para o portugues brasileiro. XXVII Simpósio Brasileiro de Telecomunicações, 2009. SMEATON, A.; LEE, H.; MCDONALD, K. Experiences of creating four video library collections with the físchlár system. International Journal on Digital Libraries, v. 4, n. 1, p. 42–44, 2004. SOUZA, C. L.; LOURO, L. G. C.; NUNES, C. F. G.; PáDUA, F. L. C.; DAVID-SILVA, G. Extração de quadros chaves para sumarização de vídeos. In: Anais do XIV EMC Encontro de Modelagem Computacional. Nova Friburgo: , 2011. SOUZA, J. C. A. de. Gêneros e Formatos na Televisão Brasileira. : Summus, 2004. SOUZA, L. A. C.; ARAúJO, A. A.; NUNES, F. H. C.; CORREA, M. A. Um sistema de informação multimídia para o CECOR. Brazilian Symposium on Multimedia and Hypermedia Systems (SBMIDIA), p. 391–394, 2002. STEDE, M. Connective-Based Local Coherence Analysis: a Lexicon for Recognizing Causal Relationships. In: Proceedings of the 2008 Conference on Semantics in Text Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2008. (STEP ’08), p. 221–237. Disponível em: <http://dl.acm.org/citation.cfm?id=1626481.1626499>. VALLE, E. A. Sistemas de Informação Multimídia na Preservação de Acervos Permanentes. Dissertação (Mestrado) — Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil, 2003. VERHAGEN, M.; GAIZAUSKAS, R.; SCHILDER, F.; HEPPLE, M.; MOSZKOWICZ, J.; PUSTEJOVSKY, J. The TempEval Challenge: Identifying Temporal Relations in Text. Language Resources and Evaluation, v. 43, n. 2, p. 161–179, jun 2009. WACTLAR, H.; CHRISTEL, M.; GONG, Y.; HAUPTMANN, A. Lessons learned from the creation and development of a terabyte digital video library. IEEE Computer, v. 32, n. 2, p. 66–73, 1999. ZADEH, L. A. Fuzzy sets. information and control. v. 8, p. 338–353, 1965. Referências Bibliográficas 115 ZHAOMING, L.; XIANGMING, W.; XINQI, L.; WEI, Z. A video retrieval algorithm based on affective features. IEEE Ninth International Conference on Computer and Information Technology, v. 1, p. 134–138, 2009. 116 ANEXO A -- Formulário de Pesquisa de Perfil do Usuário A.1 Sessão 01 – Hábitos de pesquisa de vídeos 1 - Com que propósito você costuma pesquisar vídeos televisivos? Caso queira, marque mais de uma opção. - Profissionais - Acadêmicos - Pessoais - Outros 2 - Qual fonte você utiliza para ter acesso aos vídeos televisivos? Caso queira, marque mais de uma opção. - Emissora (Cedocs) - Gravação própria - Internet - Empresas Contratadas - Arquivos Públicos - Amigos - Outros 2.1 - Caso tenha assinalado “outras” na questão anterior, especifique-as aqui. 3 - Há dificuldade em reunir o material desejado? - Sempre A.1 Sessão 01 – Hábitos de pesquisa de vídeos 117 - Frequentemente - Raramente - Nenhuma 4 - Se há dificuldade em reunir o material desejado, pesquisas ou trabalhos deixam de ser realizados? - Sempre - Frequentemente - Raramente - Nunca 5 - Se você utiliza sites para fazer a sua busca, indique abaixo qual (is)? Caso queira, marque mais de uma opção. - YouTube - Vimeo - Google Vídeos - Yahoo! Vídeos - Globo Vídeos - TV UOL - R7 Vídeos (Record) - Sistemas de busca (Google, Cade, ...) - Vídeos disponibilizados no próprio site da emissora/programa - Outros 5.1 - Caso tenha assinalado “outros” na questão anterior, especifique-os aqui. 6 - Você costuma encontrar na internet os vídeos que precisa? - Sempre - Frequentemente - Raramente - Nunca 7 - A variedade de vídeos televisivos nos sites é importante para você? A.1 Sessão 01 – Hábitos de pesquisa de vídeos 118 - Totalmente - Muito - Moderadamente - Pouco - Nada 8 - Atualmente a variedade de vídeos televisivos encontrados por você nos sites é: - Grande - Suficiente - Pouca - Insuficiente 9 - A qualidade dos vídeos televisivos, considerando aspectos como a boa condição audio-visual, é importante para você? - Totalmente - Muito - Moderadamente - Pouco - Nada 10 - Atualmente a qualidade dos vídeos disponíveis nos sites é: - Excelente - Muito boa - Boa - Regular - Ruim - Péssima 11 - Você conhece o site da Inathèque da França (inatheque.ina.fr)? - Sim - Não A.1 Sessão 01 – Hábitos de pesquisa de vídeos 119 11.1 - Você já realizou buscas ou fez downloads na Inathèque? - Sim - Não 11.2 - Cite as principais contribuições da Inathèque para o seu trabalho? 12 - Um banco de dados constituído por arquivos de vídeos televisivos facilitaria o seu trabalho de pesquisa? - Sim - Não - Não sei 13 - Marque abaixo os tipos de programas com as quais você trabalha prioritariamente: - Telejornalismo - Documentários - Programas de entrevista - Programas de debates - Humorísticos - Esportivos - Reality Shows - Programas de Auditório - Educativos - Infantis - Culturais - Variedades - Filmes - Outros 13.1 - Caso tenha assinalado “outros” na questão anterior, especifique-os aqui. A.2 Sessão 02 – Estrutura 120 A.2 Sessão 02 – Estrutura 14 - Com que propósito você costuma pesquisar vídeos televisivos? Caso queira, marque mais de uma opção. - Data/horário de emissão - Resumo do programa - Texto/Áudio do apresentador, repórter e/ou de cada convidado dos programas - Nome da emissora - Nome do programa - Tipo de programa - Temas - Outros 14.1 - Caso tenha assinalado “outros” na questão anterior, especifique-os aqui. 15 - Caso as atrações exibidas nas emissoras sejam divididas e indexadas em partes no sistema CAPTE, que tipo de cenas, temáticas ou até imagens seriam de seu interesse? Caso queira, marque mais de uma opção. - Saúde - Política - Economia - Turismo - Educação - Sexo - Drogas - Violência Urbana - Tragédias - Esporte - Música - Dança A.2 Sessão 02 – Estrutura 121 - Literatura - Teatro - Artes Plásticas - Celebridades - Outras cenas, temas e imagens 15.1 - Caso tenha assinalado “Outras cenas, temas e imagens” na questão anterior, especifique-as aqui. 16 - Uma ferramenta de análise (quantitativa) automática do conteúdo dos programas seria importante para a sua pesquisa? - Sim - Provavelmente - Não 17 - Assinale dentre as informações quantitativas listadas abaixo, aquelas que seriam importantes para sua pesquisa. - Duração total do programa - Duração de cada matéria exibida - Tempo utilizado pelos apresentadores dos programas (tempo de fala) - Tempo de exibição dos apresentadores nos programas (capital visual - imagem) - Número de temáticas abordadas por programa - Tempo de temáticas abordadas por programa - Sequência temática das matérias e quadros em cada programa - Tempo total de fala dos locutores nas matérias - Tempo total de fala dos participantes nas matérias - Tempo de exibição dos participantes nas matérias (capital visual ? imagem) - Tempo de exibição dos locutores nas matérias (capital visual ? imagem) - Número de quadros apresentados nos programas - Tempo de exibição de cada quadro no programa - Número de blocos apresentados em cada programa A.2 Sessão 02 – Estrutura 122 - Tempo de exibição de cada bloco do programa - Número e classificação dos planos fílmicos apresentados em cada matéria - Número e classificação dos planos fílmicos apresentados em cada programa - Número de participantes no programa - Outras 17.1 - Caso tenha assinalado “Outras” na questão anterior, especifique-as aqui. 18 - A descrição do cenário de cada programa seria importante para a sua pesquisa? - Sim - Provavelmente - Não 18.1 - Quais dados e informações sobre os cenários seriam importantes de serem descritos e apresentados pelo sistema CAPTE? 19 - A descrição das vinhetas de cada programa seria importante para a sua pesquisa? - Sim - Provavelmente - Não 20 - O levantamento e descrição de infográficos utilizados por cada programa seria importante para a sua pesquisa? - Sim - Provavelmente - Não 20.1 - Quais dados e informações relacionados aos infográficos deveriam ser descritos e apresentados pelo sistema CAPTE? 21 - Como essas informações poderiam ser apresentadas? - Em gráficos, que possam ser extraídos do site para utilização em pesquisas A.3 Sessão 03 – Análise do pesquisador 123 - Em textos, objetivos, que possam ser extraídos do site para utilização em pesquisas - Em textos, com ampla descrição, que possam ser extraídos do site para utilização em pesquisas - Outras formas 21.1 - Caso tenha assinalado "outras formas"na questão anterior, especifique-as aqui: A.3 Sessão 03 – Análise do pesquisador 22 - Quais são hoje, em sua opinião, as principais dificuldades para buscar/recuperar vídeos de seu interesse? 23 - Que cuidados devem ser levados em consideração pelo CEFET-MG ao disponibilizar estas informações em rede? 24 - Existem outras informações e/ou sugestões que você gostaria de nos apresentar para a elaboração do sistema? 124 ANEXO B -- Lista de vídeos relevantes para os testes de recuperação Consulta 1 : corrupção política 1 - Marina Silva - Bloco 02/03 2 - Tráfico e Mídia - Bloco 01/02 3 - Tráfico e Mídia - Bloco Final 02/02 4 - José Dirceu - Bloco 01/04 5 - José Dirceu - Bloco 02/04 6 - José Dirceu - Bloco 03/04 7 - José Dirceu - Bloco Final 04/04 8 - Novas Regras OMG - 2a Edição 9 - Reforma Política - 2a Edição Consulta 2 : problemas saúde 1 - Os perigos de uma má alimentação - Bloco 01/03 2 - Os perigos de uma má alimentação - Bloco 02/03 3 - Os perigos de uma má alimentação - Bloco Final 03/03 4 - Creche de Guaxupé - 2a Edição 5 - Seminário de Agricultura Urbana - 1a Edição 6 - Campanha contra Queimaduras - 2a Edição 7 - Dificuldades Plano de Saúde - 2a Edição 8 - Poluição em BH - 1a Edição 9 - Benefícios para o Trabalhador com Câncer - 2a Edição Anexo B -- Lista de vídeos relevantes para os testes de recuperação 10 - Direito dos doentes e incapacitados - Bloco 01/03 11 - Direito dos doentes e incapacitados - Bloco 02/03 12 - Direito dos doentes e incapacitados - Bloco Final 03/03 Consulta 3 : violência urbana 1 - Tráfico e Mídia - Bloco 01/02 2 - Tráfico e Mídia - Bloco Final 02/02 3 - Violência contra homossexuais no Brasil - Bloco 01/03 4 - Violência contra homossexuais no Brasil - Bloco 02/03 5 - Violência contra homossexuais no Brasil - Bloco Final 03/03 6 - Homens Agressores - 2a Edição 7 - Disque Direitos Humanos - 2a Edição Consulta 4 : direitos do cidadão 1 - Direito dos doentes e incapacitados - Bloco 01/03 2 - Direito dos doentes e incapacitados - Bloco 02/03 3 - Direito dos doentes e incapacitados - Bloco Final 03/03 4 - Pensão alimentícia - Bloco 01/03 5 - Pensão alimentícia - Bloco 02/03 6 - Pensão alimentícia - Bloco Final 03/03 7 - Direitos do Imóvel Demolido - 2a Edição 8 - Disque Direitos Humanos - 2a Edição 9 - Greve dos Correios - 2 Edição 10 - Limite das Revistas Rotineiras - 2a Edição 11 - Risco da Migração Clandestina - 2a Edição 12 - Benefícios para o Trabalhador com Câncer - 2a Edição Consulta 5 : discriminação social 1 - Violência contra homossexuais no Brasil - Bloco 01/03 2 - Violência contra homossexuais no Brasil - Bloco 02/03 3 - Violência contra homossexuais no Brasil - Bloco Final 03/03 125 Anexo B -- Lista de vídeos relevantes para os testes de recuperação 4 - Monteiro Lobato - Preconceito na Literatura - Bloco 01/03 5 - Monteiro Lobato - Preconceito na Literatura - Bloco 02/03 6 - Monteiro Lobato - Preconceito na Literatura - Bloco Final 03/03 7 - Risco da Migração Clandestina - 2a Edição 8 - Viviane Mosé - Friedrich Nietzsche - Bloco 03/06 Consulta 6 : literatura brasileira 1 - Monteiro Lobato - Preconceito na Literatura - Bloco 01/03 2 - Monteiro Lobato - Preconceito na Literatura - Bloco 02/03 3 - Monteiro Lobato - Preconceito na Literatura - Bloco Final 03/03 4 - Viviane Mosé - Friedrich Nietzsche - Bloco 05/06 5 - Carlos Heitor Cony - Bloco 01/06 6 - Carlos Heitor Cony - Bloco 02/06 7 - Carlos Heitor Cony - Bloco 04/06 Consulta 7 : filosofia humanidade 1 - Viviane Mosé - Friedrich Nietzsche - Bloco 01/06 2 - Viviane Mosé - Friedrich Nietzsche - Bloco 02/06 3 - Viviane Mosé - Friedrich Nietzsche - Bloco 03/06 4 - Carlos Heitor Cony - Bloco 03/06 5 - Viviane Mosé - Friedrich Nietzsche - Bloco 04/06 6 - Carlos Heitor Cony - Bloco Final 06/06 Consulta 8 : discriminação social 1 - Carlos Heitor Cony - Bloco 01/06 2 - Carlos Heitor Cony - Bloco 02/06 3 - Carlos Heitor Cony - Bloco 03/06 4 - Carlos Heitor Cony - Bloco 04/06 5 - Marina Silva - Bloco Final 01/03 6 - Marina Silva - Bloco Final 03/03 7 - Viviane Mosé - Friedrich Nietzsche - Bloco 01/06 126 Anexo B -- Lista de vídeos relevantes para os testes de recuperação 8 - Monteiro Lobato - Preconceito na Literatura - Bloco 03/03 9 - Contardo Calligaris - Bloco Final 04/04 127 128 ANEXO C -- Telas das Guias de Serviços da Interface de Exibição de Vídeos Figura C.1: Tela da guia do serviço de busca geral. Figura C.2: Tela da guia do serviço de geração de gráficos discursivos. Anexo C -- Telas das Guias de Serviços da Interface de Exibição de Vídeos Figura C.3: Tela da guia do serviço de busca avançada. 129