Desenvolvimento de um Sistema de Informação - Piim-Lab

Transcrição

Moisés Henrique Ramos Pereira
Desenvolvimento de um Sistema de
Informação Multimídia para Apoio à Análise
Discursiva de Vídeos Televisivos
Dissertação apresentada ao Curso de
Mestrado em Modelagem Matemática e
Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, como
requisito parcial à obtenção do título de
Mestre em Modelagem Matemática e Computacional
Orientador:
Prof. Dr. Flávio Luis Cardeal Pádua
Centro Federal de Educação Tecnológica de Minas Gerais
Co-orientador:
Profa. Dra. Giani David Silva
Centro Federal de Educação Tecnológica de Minas Gerais
M ESTRADO EM M ODELAGEM M ATEMÁTICA E C OMPUTACIONAL
C ENTRO F EDERAL DE E DUCAÇÃO T ECNOLÓGICA DE M INAS G ERAIS
D IRETORIA DE P ESQUISA E P ÓS -G RADUAÇÃO
Belo Horizonte – MG
Fevereiro de 2012
Agradecimentos
Primeiramente à Deus, que me deu o discernimento e a força de vontade para
lutar por tudo que almejo e necessito fazer na vida.
À minha namorada Luanda, sempre companheira em todos os momentos e grande
incentivadora para a realização deste trabalho.
À toda minha família, pessoas muito especiais na minha vida que contribuíram, a
cada dia, na formação do meu caráter.
Aos meus orientadores professores Flávio Luiz Cardeal Pádua e Giani David Silva
pelos conselhos e por me orientarem exemplarmente nessa caminhada, tendo recentemente o apoio do professor Guilherme Tavares de Assis que conheço desde a
graduação, sendo também um exemplo de profissional a ser seguido.
Aos professores e colegas do Grupo de Pesquisas Interdisciplinares em Informação Multimídia (Grupo Piim), do CEFET-MG, em especial os alunos Juliana, Antônio,
Celso, Gustavo, Tarcísio e Rafael, além dos professores, que contribuíram com sugestões pertinentes para execução deste trabalho, bem como todos os demais colegas
que apoiaram de alguma maneira o projeto.
Aos meus amigos do mestrado pela convivência e pelo apoio constante.
Resumo
Este trabalho aborda o desenvolvimento de um sistema de informação multimídia para
apoio à análise discursiva de vídeos televisivos. Muito embora o sistema de televisão represente um dos mais fascinantes fenômenos de mídia já criados pelo homem,
observa-se ainda uma grande ausência de sistemas de informação que viabilizem a
recuperação efetiva de informações televisivas relevantes para a análise discursiva e
avaliação desse acervo no âmbito de pesquisas sobre este universo midiático. Neste
contexto, buscando instrumentalizar pesquisadores do sistema de televisão brasileiro
com uma ferramenta computacional que os auxilie em suas pesquisas, bem como
contribuir para a discussão sobre a viabilização do acesso ao acervo televisivo desenvolvido no país, este trabalho propõe o desenvolvimento de um sistema de informação multimídia, em parceira com o canal de televisão aberta Rede Minas. O sistema
proposto neste trabalho baseia-se no arcabouço de gerência de vídeos Matterhorn e
em técnicas de indexação e recuperação de informações audiovisuais, incluindo um
conjunto de ferramentas que viabilizam a estimação automática de parâmetros fundamentais para a análise discursiva de vídeos televisivos. A arquitetura desenvolvida
para o sistema contempla a recuperação de informação baseada no uso de metadados independentes do conteúdo (essencialmente, metadados textuais como, por
exemplo, descrição e título dos programas, data de exibição, apresentador, dentre outros), bem como metadados dependentes de conteúdo, os quais são determinados
com base em técnicas de análise do discurso e de processamento de imagens e sinais de áudio. O sistema está estruturado para funcionar como uma biblioteca digital,
conforme a abordagem 5S - um arcabouço que possibilita a modelagem de bibliotecas digitais sob diferentes dimensões. O diálogo entre duas áreas de conhecimento, a
Ciência da Computação e os Estudos de Linguagens, ocorre constantemente, abrangendo diferentes níveis de reflexão sobre o tema. O sistema proposto consiste em um
dos principais recursos do Centro de Apoio a Pesquisas sobre Televisão (CAPTE) do
Centro Federal de Educação Tecnológica de Minas Gerais.
PALAVRAS-CHAVE: Sistema de informação multimídia, análise do discurso, indexação textual, metadados, recuperação de vídeo, reconhecimento de voz.
Abstract
The current paper approaches the development of a multimedia information system
that supports the discourse analysis of television videos. TV systems represents one
of the most fascinating media phenomenon ever created by men. However, still there
is a lack on information systems that allow effective retrieval of TV information relevant
to discoursive analysis and evaluation of collection regarding the research field on the
media universe. Within this context, in attempt to equip brazilian televion system’s researchers with a computational tool that assist their research, as well as contributing
to the discussion towards turning viable the access to the television collection developed in the country. This work proposes the development of a multimedia information
system, in partnership with Rede Minas, an open TV channel. The mentioned system
is based on the Matterhorn framework and indexing and retrieval techniques of audiovisual information. It includes a tool collection that allows the automatic estimation of
essential parameters on the discourse analysis of TV video. The system architecture
involves information retrieval based on content independent metadata (essentially textual metadata, such as program’s titles and descriptions, exhibition date, host, among
others), content dependent metadata, which are determined through discourse analysis techniques and image and sound signal processing. The system is structured to
function as a digital library, according the 5S approach - an outline that enables the modeling of digital libraries under various dimensions. The dialog between two fields of
knowledge, Computer Science and Language Studies, occurs constantly, comprehending several levels of reflection regarding the theme. The proposed system consists in
one of the main resources of the Centro de Apoio a Pesquisas sobre Televisão (Support
to Television Research Center) (CAPTE) of Centro Federal de Educação Tecnológica
de Minas Gerais (Minas Gerais’ Federal Technological Education Center).
KEYWORDS: Multimedia information system, discourse analysis, textual indexing, metadata, video retrieval, speech recognition.
Lista de Figuras
1.1 Exemplos típicos de Centros de Documentação (CEDOCs) . . . . . .
p. 13
3.1 Processo de indexação textual (CROFT; METZLER; STROHMAN, 2010). p. 30
3.2 Estrutura de uma lista invertida para índices textuais.
. . . . . . . . .
p. 31
3.3 Arquitetura de um SRV típico. . . . . . . . . . . . . . . . . . . . . . . .
p. 33
3.4 Processo de recuperação da informação. . . . . . . . . . . . . . . . .
p. 40
3.5 Ciclo de vida da informação - Adaptado de (BORGMAN, 1996). . . . .
p. 41
3.6 Componentes de um sistema típico de processamento nebuloso. . . .
p. 43
4.1 Visão geral do projeto. . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 49
4.2 Arquitetura do sistema proposto. . . . . . . . . . . . . . . . . . . . . .
p. 50
4.3 Metadados modelados e extraídos dos vídeos televisivos. . . . . . . .
p. 52
4.4 Modelo de Dados do Banco de Dados Multimídia e de Índices. . . . .
p. 54
4.5 Fluxo de dados no sistema pelo Matterhorn. . . . . . . . . . . . . . . .
p. 57
4.6 Esquema para a geração de gráficos discursivos. . . . . . . . . . . . .
p. 64
4.7 Diagrama da partição para a quantidade de acessos. . . . . . . . . .
p. 67
4.8 Diagrama da partição de entrada para o tempo assistido. . . . . . . .
p. 68
4.9 Diagrama da partição para o número de dias sem ser visto. . . . . . .
p. 68
4.10 Diagrama da partição de saída nebulosa para o Nível de Interesse. .
p. 70
4.11 Interface de Administração Multimídia. . . . . . . . . . . . . . . . . . .
p. 74
4.12 Recorte do formulário com os dados de uma exibição do Jornal Minas. p. 75
4.13 Interface de Exibição de Vídeos. . . . . . . . . . . . . . . . . . . . . .
p. 76
5.1 Gráfico sobre os propósitos de pesquisa. . . . . . . . . . . . . . . . .
p. 79
5.2 Gráfico sobre a principal fonte de acesso ao material televisivo. . . . .
p. 79
5.3 Importância do levantamento de gráficos televisivos. . . . . . . . . . .
p. 80
5.4 Gráfico sobre a qualidade dos vídeos disponíveis. . . . . . . . . . . .
p. 81
5.5 Gráfico sobre a necessidade de um banco de dados multimídia. . . .
p. 81
5.6 Gráfico sobre a necessidade de uma ferramenta de análise. . . . . . .
p. 82
5.7 Gráfico sobre a distribuição de temáticas do acervo. . . . . . . . . . .
p. 83
5.8 Capital temático do acervo televisivo. . . . . . . . . . . . . . . . . . . .
p. 84
5.9 Capital temático dos gêneros informativos. . . . . . . . . . . . . . . .
p. 85
5.10 Capital temático dos programas de Debate e Entrevista. . . . . . . . .
p. 86
5.11 Agrupamento de temáticas em gêneros com curvas de sumarização.
p. 87
5.12 Identidade dos participantes nos programas de Debate e Entrevista. .
p. 87
5.13 Agrupamento das identidade de participantes em temáticas. . . . . .
p. 88
5.14 Agrupamento das identidade de participantes em programas. . . . . .
p. 89
5.15 Capital temático telejornalístico.
. . . . . . . . . . . . . . . . . . . . .
p. 90
5.16 Distribuição do tempo dos tipos de matérias. . . . . . . . . . . . . . .
p. 91
5.17 Distribuição do tempo de emissão/imagens. . . . . . . . . . . . . . . .
p. 92
5.18 Distribuição do tempo de temáticas por tipos de matérias. . . . . . . .
p. 93
5.19 Gráfico de eficiência para as 8 consultas modeladas.
. . . . . . . . . p. 101
C.1 Tela da guia do serviço de busca geral. . . . . . . . . . . . . . . . . . p. 128
C.2 Tela da guia do serviço de geração de gráficos discursivos. . . . . . . p. 128
C.3 Tela da guia do serviço de busca avançada. . . . . . . . . . . . . . . . p. 129
Lista de Tabelas
4.1 Lista dos campos com vocabulário controlado para vídeos de gêneros
Debate e Entrevista - (SABINO, 2011). . . . . . . . . . . . . . . . . . .
p. 58
4.2 Metadados textuais com os respectivos pesos na recuperação de vídeos.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 61
4.3 Tabela de regras nebulosas do sistema. . . . . . . . . . . . . . . . . .
p. 71
5.1 Taxa média de palavras erradas (W ERmedia ) por programa.
. . . . . .
p. 95
5.2 Medidas de precisão para cada grupo de metadados. . . . . . . . . .
p. 98
5.3 Medidas de revocação para cada grupo de metadados. . . . . . . . .
p. 99
5.4 Combinação dos valores de precisão e revocação pela métrica F1. . .
p. 99
5.5 Valores finais de precisão, revocação e F1 para a busca geral. . . . . p. 100
5.6 Nível de interesse médio entre os grupos de vídeos definidos. . . . . p. 104
5.7 Níveis de interesse estimulados por indicadores diferentes. . . . . . . p. 104
Lista de Abreviaturas e Siglas
AD Análise do Discurso
BDOO Banco de Dados Orientado a Objetos
CEDOC Centro de Documentação
ER Entidade-Relacionamento
MDC Metadados Dependentes do Conteúdo
MIC Metadados Independentes do Conteúdo
OO Orientação a Objetos
SGBD Sistema de Gerenciamento de Banco de Dados
SRV Sistema de Reconhecimento de Voz
Sumário
1 Introdução
p. 12
1.1 Definição do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 14
1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 15
1.3 Objetivos: Geral e Específicos . . . . . . . . . . . . . . . . . . . . . .
p. 17
1.4 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 17
1.5 Organização do Documento . . . . . . . . . . . . . . . . . . . . . . . .
p. 19
2 Trabalhos Relacionados
p. 20
2.1 Análise Discursiva Automática . . . . . . . . . . . . . . . . . . . . . .
p. 20
2.2 Sistemas de Informação Multimídia . . . . . . . . . . . . . . . . . . . .
p. 23
3 Fundamentação Teórica
p. 27
3.1 Modelos de Dados em Banco de Dados Multimídia . . . . . . . . . . .
p. 27
3.2 Indexação Multimodal de Vídeos . . . . . . . . . . . . . . . . . . . . .
p. 29
3.2.1 Indexação Textual . . . . . . . . . . . . . . . . . . . . . . . . .
p. 30
3.2.2 Indexação Baseada em Sinais de Áudio . . . . . . . . . . . . .
p. 32
3.3 Análise do Discurso Midiático . . . . . . . . . . . . . . . . . . . . . . .
p. 34
3.4 Recuperação de Informação Multimídia . . . . . . . . . . . . . . . . .
p. 39
3.5 Teoria de Lógica Nebulosa . . . . . . . . . . . . . . . . . . . . . . . .
p. 42
3.6 Bibliotecas Digitais e a Abordagem 5S . . . . . . . . . . . . . . . . . .
p. 45
4 Descrição do Sistema de Informação Multimídia
4.1 Os Módulos e a Arquitetura do Sistema . . . . . . . . . . . . . . . . .
p. 48
p. 48
4.2 Módulo de Gerência de Dados . . . . . . . . . . . . . . . . . . . . . .
p. 52
4.3 Módulos de Indexação e Recuperação . . . . . . . . . . . . . . . . . .
p. 56
4.4 Módulo de Geração de Gráficos Discursivos . . . . . . . . . . . . . . .
p. 62
4.5 Módulo de Avaliação do Nível de Interesse . . . . . . . . . . . . . . .
p. 66
4.5.1 Partições Nebulosas de Entrada . . . . . . . . . . . . . . . . .
p. 67
4.5.2 Partição Nebulosa de Saída . . . . . . . . . . . . . . . . . . . .
p. 70
4.5.3 Base de Conhecimento Nebulosa . . . . . . . . . . . . . . . .
p. 71
4.6 Módulo de Interação com o Usuário . . . . . . . . . . . . . . . . . . .
p. 72
5 Resultados Experimentais
p. 78
5.1 Pesquisa de Perfil dos Usuários . . . . . . . . . . . . . . . . . . . . . .
p. 78
5.2 Análise de Gráficos Discursivos . . . . . . . . . . . . . . . . . . . . . .
p. 82
5.2.1 Contagem Temática e o Capital Temático . . . . . . . . . . . .
p. 83
5.2.2 Identidade dos Participantes . . . . . . . . . . . . . . . . . . .
p. 87
5.2.3 Análise dos Espaços Enunciativos . . . . . . . . . . . . . . . .
p. 90
5.3 Reconhecimento de Voz em Sinais de Áudio . . . . . . . . . . . . . .
p. 93
5.4 Testes de Recuperação e Análise dos Resultados . . . . . . . . . . .
p. 96
5.5 Análise do Nível de Interesse de Vídeos . . . . . . . . . . . . . . . . . p. 103
6 Conclusões e Trabalhos Futuros
p. 106
Referências Bibliográficas
p. 109
Anexo A -- Formulário de Pesquisa de Perfil do Usuário
p. 116
A.1 Sessão 01 – Hábitos de pesquisa de vídeos . . . . . . . . . . . . . . . p. 116
A.2 Sessão 02 – Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120
A.3 Sessão 03 – Análise do pesquisador . . . . . . . . . . . . . . . . . . . p. 123
Anexo B -- Lista de vídeos relevantes para os testes de recuperação
p. 124
Anexo C -- Telas das Guias de Serviços da Interface de Exibição de Vídeos
p. 128
12
1
Introdução
O aumento da produção de informações audiovisuais nos últimos anos, em especial informações produzidas por emissoras de televisão, tem intensificado a demanda
por sistemas de informação multimídia que sejam capazes de armazenar e recuperar eficientemente arquivos desta natureza em grandes bases de dados (PETRELLI;
AULD, 2008). A criação de novos tipos de metadados e padrões de descrição de
conteúdo multimídia vêm sendo tópico de pesquisa, visando melhorar a qualidade na
busca e análise de acervos audiovisuais nos diversos sistemas de informação.
Em alguns países, tal acervo é considerado um repositório valiosíssimo de informações, mas ainda na prática um tesouro oculto, uma vez que as descrições sobre
seus conteúdos poucas vezes incluem algo mais que títulos e curtas sinopses (BARRETO, 2007). Neste contexto, amplos esforços têm sido empreendidos para a concepção de ferramentas computacionais que permitam o acesso inteligente a dados
registrados em vídeos (DIMITROVA et al., 2002). Estes esforços são respaldados por
investimentos de diversos órgãos públicos e privados, tais como filmotecas, museus e
empresas produtoras de mídia, que buscam oferecer conteúdo audiovisual personalizado via Internet e Televisão Digital (BERTINI; BIMBO; PALA, 2001).
Em 1992, a França tornou-se o primeiro país a estender o depósito legal de suas
publicações ao domínio do audiovisual e criou, em 1995, a Inathèque de France, órgão
responsável por registrar, arquivar, classificar, descrever e disponibilizar para pesquisadores todo material produzido em emissoras francesas de rádio e televisão. Nota-se
a dupla função que a Inathèque de France tem realizado ao preservar esta memória
audiovisual, bem como sua difusão para fins de pesquisa, contribuindo para a construção de novos conhecimentos em diversas áreas (DAVID-SILVA, 2005).
No Brasil, conforme a lei federal dos Direitos Autorais (Lei No 9.610/98), as emissões televisivas pertencem ao domínio público somente no momento de suas transmissões (DAVID-SILVA, 2005). Sendo assim, após a etapa de transmissão, as emis-
1 Introdução
13
Figura 1.1: Exemplos típicos de Centros de Documentação (CEDOCs)
soras tornam-se proprietárias desses conteúdos, cabendo a elas o direito de autorizar
a cessão do registro de um programa para qualquer finalidade. Para gerenciar o armazenamento de suas programações, cada emissora possui um Centro de Documentação (CEDOC), o qual atende predominantemente a demandas internas, inclusive para
produções telejornalísticas (ver Figura 1.1). De fato, um CEDOC não objetiva disponibilizar informações à sociedade de uma forma geral. Em se tratando de demandas
externas, os casos são analisados e, muitas vezes, os arquivos solicitados não são
disponibilizados (DAVID-SILVA, 2005).
Considerando que no Brasil o depósito legal restringe-se à produção escrita, a
pesquisa sobre a televisão, reconhecidamente um dos veículos de informação e entretenimento de maior abrangência no país, tem esbarrado em uma série de dificuldades.
Em especial, ao se buscar a composição de um corpus a ser analisado, o pesquisador
se depara com o seguinte desafio: como conseguir as gravações de que necessita,
bem como as respectivas informações discursivas, devidamente descritas?
Outro aspecto que merece ser ressaltado refere-se à forma como se realizam os
arquivamentos das programações nos CEDOCs das emissoras de televisão. Em geral,
uma programação não é arquivada integralmente, excluindo-se, por exemplo, os intervalos entre programas e as publicidades. Além disso, informações discursivas como
temas, identidades dos participantes, planos fílmicos, dentre outras, não são incluídas
na descrição desses materiais audiovisuais, prejudicando o trabalho de pesquisadores que necessitem acessar informações para a caracterização da grade programática
(DAVID-SILVA, 2005). Neste contexto, visando dar suporte aos pesquisadores sobre
o sistema de televisão brasileiro, este trabalho propõe um sistema de informação multimídia para apoiar a análise discursiva de vídeos de programações televisivas.
Este trabalho conta com o apoio do canal de televisão aberta Rede Minas, mediante um Termo de Cooperação Técnica firmado junto ao CEFET-MG. Por meio deste
1.1 Definição do Problema
14
termo, o canal Rede Minas concede o direito de registro e arquivamento de sua programação aos pesquisadores proponentes deste projeto, viabilizando-se assim sua
execução em perfeito atendimento ao disposto na lei brasileira dos Direitos Autorais.
Duas áreas de conhecimento, a Ciência da Computação e os Estudos de Linguagens,
fundamentam a metodologia e as técnicas utilizadas durante o desenvolvimento do
sistema de informação proposto, o qual representa um dos pilares do Centro de Apoio
a Pesquisas Sobre Televisão (CAPTE) que vem sendo estruturado no Centro Federal
de Educação Tecnológica de Minas Gerais (CEFET-MG).
1.1 Definição do Problema
Este trabalho aborda o uso de técnicas para descrição, indexação e recuperação
de vídeos, especificamente televisivos, visando a criação de um sistema de informação multimídia, disponibilizado na Internet, que contenha ferramentas de apoio à análise discursiva do conteúdo audiovisual produzido pelo sistema brasileiro de televisão.
Pela própria característica intrínseca aos vídeos, a indexação multimodal apresentase como uma alternativa promissora, obtendo eficientemente metadados de áudio,
imagens e texto durante o processo de indexação. Além disso, para a construção do
sistema de informação proposto, são levados em consideração três aspectos principais: (i) os objetivos de pesquisa dos usuários, (ii) as modalidades de consulta e (iii) o
levantamento de gráficos sobre as informações discursivas dos objetos de pesquisa.
Usuários distintos podem possuir objetivos completamente diferentes quando realizam
suas pesquisas. Compreender estes objetivos é fundamental para a implementação
de um sistema que atenda às expectativas de seu público potencial.
Neste cenário, o desenvolvimento de um sistema de informação multimídia, que
seja capaz de gerenciar acervos desta natureza e permitir a seus potenciais usuários
alcançarem efetivamente seus objetivos informacionais, representa um trabalho com
grande relevância social, científica e tecnológica. A sociedade brasileira, em especial, é profundamente carente de instrumentos legais relativos à preservação de sua
produção audiovisual, incluindo descrições completas desses arquivos quanto à natureza discursiva dos mesmos. Com o passar do tempo, os arquivos não são integrados aos sistemas existentes nos CEDOCs ou não são devidamente tratados por um
processo de indexação compatível com o conhecimento específico que os usuários
desses acervos possuem.
1.2 Motivação
15
A arquitetura do sistema de informação multimídia proposta neste trabalho contempla não somente a utilização de metadados independentes de conteúdo (MIC),
como também metadados dependentes de conteúdo (MDC). Metadados do tipo MIC
são dados que não se referem diretamente ao conteúdo informacional do arquivo de
vídeo, mas que descrevem o próprio documento em si, como data de criação, autoria, título, duração, data de exibição, dentre outros. Por outro lado, metadados do
tipo MDC podem ser textuais ou não, dependendo das técnicas que se utiliza para
determiná-los, sendo obtidos tanto automaticamente (a partir do sinal de áudio e frames do vídeo) como manualmente, por meio de documentaristas. Neste trabalho, a
arquitetura do sistema proposto foi concebida para trabalhar com os metadados textuais do tipo MDC que se seguem: (i) metadados discursivos, (ii) metadados baseados
no conteúdo de áudio e (iii) metadados baseados no conteúdo visual.
Os metadados discursivos são determinados por documentalistas, com base em
técnicas de Análise do Discurso e, portanto, são metadados textuais. Os metadados
baseados no conteúdo visual dos vídeos são estimados automaticamente por técnicas
de processamento e análise de imagens e, embora a arquitetura proposta contemple
a utilização dos mesmos, tais metadados e suas técnicas de obtenção não são objeto
de estudo neste trabalho. Finalmente, os metadados baseados no conteúdo de áudio são estimados automaticamente por técnicas de processamento de sinais desta
natureza em sistemas de reconhecimento e transcrição automática de fala. Neste trabalho, é feito um estudo com metadados baseados no conteúdo de áudio, utilizando-se
o sistema de reconhecimento de voz Julius (AKINOBU, 2011), bem como o dicionário
fonético e os modelos acústico e linguístico desenvolvidos no Laboratório de Processamento de Sinais (LaPS) pelo projeto FalaBrasil da Universidade Federal do Pará
(SILVA; NETO; KLAUTAU, 2009).
1.2 Motivação
O sistema de televisão está intimamente ligado ao cotidiano das pessoas. Seus
programas constituem um erário capaz de remetê-las a, por exemplo, lembranças da
infância e a costumes de uma época. Por meio de suas imagens, revive-se o passado,
bem como pode-se analisar o presente (JOST, 1999). Além disso, seus programas
são fontes inesgotáveis de pesquisas para diferentes áreas do conhecimento. No
entanto, para que essas pesquisas possam ser realizadas, é necessário, fundamen-
1.2 Motivação
16
talmente, ter um acervo no qual se preserve esse patrimônio e ao qual se permita
o acesso. Essa demanda foi observada em uma pesquisa de opinião realizada para
esse trabalho, discutida na Seção 5 sobre os resultados experimentais.
Os CEDOCs das emissoras de televisão buscam, sob uma abordagem sistêmica
mais simples, realizar trabalhos de gerenciamento dos acervos correspondentes às
suas programações. Entretanto, esses centros servem, sobretudo, a demandas internas, em especial, para a produção telejornalística. O funcionamento dos CEDOCs
não prevê a disponibilização de informações à sociedade de uma forma geral, porém, observa-se que os usuários potenciais dos CEDOCs, ou seja, os jornalistas, se
deparam cada vez mais com grandes problemas: como encontrar o que se deseja
em acervos com milhões de horas de conteúdo, cujas extensões e complexidades
aumentam substancialmente com o passar do tempo? E, quando encontrado, o conteúdo audiovisual correspondente possui informações importantes que demonstram
criteriosamente a análise à qual foi submetido quanto às suas modalidades discursivas, além de título e descrição geral? Ele é realmente interessante como fonte de
pesquisa? É possível recuperá-lo e estudá-lo sob a perspectiva dessas modalidades?
Neste contexto, este trabalho aborda a aplicação e desenvolvimento de novas técnicas para processamento, indexação, recuperação e análise de informações multimídia (em especial, vídeos), as quais são de grande importância para assegurar o
sucesso de diversos serviços, especialmente, aqueles relacionados à produção de
conteúdo. Recentemente, tem-se observado a proposição frequente de novos métodos com esta finalidade, principalmente, métodos baseados em chaves de pesquisa
construídas a partir dos próprios conteúdos dos arquivos (por exemplo, imagens e sinais de áudio) e por meio de técnicas da Análise do Discurso (SABINO, 2011). Os
métodos baseados em conteúdo audiovisual beneficiam-se do fato de que as chaves
de busca são extraídas automaticamente, não sendo necessária a geração de anotações textuais. Já as técnicas da Análise do Discurso Midiático, embora processadas
de forma manual por um especialista, permitem a modelagem de dados mais semânticos e próximos do conteúdo informacional dos vídeos sob a perspectiva das áreas
linguística, jornalística e televisiva, promovendo padrões de intencionalidade comunicativa, estratégias e categorização programática, dentre outros.
1.3 Objetivos: Geral e Específicos
17
1.3 Objetivos: Geral e Específicos
O objetivo principal deste trabalho consiste em desenvolver um sistema de informação multimídia, acessível pela Internet, para apoio à análise discursiva de vídeos
televisivos, visando dar suporte aos pesquisadores de diversas áreas quanto a recuperação e análise da produção audiovisual do sistema de televisão brasileiro.
Para tanto, foram perseguidos os seguintes objetivos específicos:
• Concepção e implementação de um módulo de interface Web no sistema de
informação para a interação com o usuário;
• Modelagem e implementação de um módulo de gerência de banco de dados
multimídia, bem como o banco de índices, os quais são responsáveis pelo armazenamento e o acesso aos vídeos das programações televisivas;
• Pesquisa e implementação de algoritmos para recuperação de vídeo por meio de
metadados dos tipos MIC e MDC, os quais compõem os módulos de indexação
e recuperação de informação do sistema proposto;
• Contribuição para a discussão sobre gêneros televisivos a partir do levantamento
de critérios de classificação e descrição da programação registrada;
• Análise e implementação de um módulo de levantamento de gráficos baseados
em metadados discursivos a fim de se mensurar alguns indicadores de conteúdo
comunicacional existente nos vídeos;
• Implementação de um módulo de avaliação de níveis de interesse na recuperação de vídeos.
• Indexação de vídeos televisivos informativos, identificados pelos gêneros Debate, Entrevista e Telejornal.
• Contribuição para o diálogo entre diferentes áreas do conhecimento, especificamente, os Estudos de Linguagens e a Ciência da Computação.
1.4 Contribuições
O trabalho realizado permitiu a modelagem e o desenvolvimento de um sistema
que reúne novas técnicas para indexação, recuperação e análise de informações mul-
1.4 Contribuições
18
timídia, em especial vídeos televisivos, sob os conceitos da Análise do Discurso e do
processamento digital. Dessa forma, além do processamento do conteúdo audiovisual, em que somente os componentes do vídeo são analisados, permitiu-se a análise, a descrição e o armazenamento do conteúdo semântico dos vídeos (conteúdo
informacional), promovendo uma discussão sobre a significância de seus elementos,
representados por meio de metadados baseados em parâmetros da Análise do Discurso em conjunto com técnicas da Ciência da Computação, algumas delas da área
de Inteligência Artificial.
O diferencial do sistema de informação proposto é o suporte que o mesmo oferece
para a análise discursiva de vídeos televisivos por meio da implementação e geração automática de uma lista extensa de gráficos referentes aos elementos discursivos
advindos dos metadados modelados. Esses gráficos podem subsidiar estudos mais
específicos como a caracterização da grade programática, a descoberta de estratégias retóricas e intencionalidade comunicativa, a identificação de público-alvo, dentre
outros (CHARAUDEAU; GHIGLIONE, 1997). Foram utilizadas também técnicas computacionais para medir o nível de interesse na recuperação de vídeos que, associado
aos principais indicadores armazenados no sistema, contribui com a análise de informações sobre o capital temático do acervo digital, a distribuição de identidades sociais
dos participantes sobre os temas e assuntos abordados, a classificação de gêneros
televisivos em relação às modalidades enunciativas dos interlocutores, o estudo dos
planos fílmicos projetados na transmissão dos programas, dentre outras.
No âmbito da área de Recuperação de Informação (RI), houve contribuições quanto
à análise da eficácia e da eficiência dos metadados textuais modelados na recuperação de vídeos, principalmente sobre os metadados discursivos por formarem a estrutura do objeto de estudo desse trabalho. Com essa análise, pôde-se estabelecer
os valores dos pesos associados aos grupos de metadados, divididos em metadados
básicos, discursivos e de conteúdo, por meio do percentual de vídeos relevantes encontrados em diversos subconjuntos de vídeos recuperados para uma determinada
consulta. Os grupos de metadados foram analisados separadamente para discutir a
contribuição de cada grupo na recuperação de vídeos televisivos.
Outro artefato gerado por este trabalho foi a implementação de um módulo de
indexação textual do conteúdo transcrito dos sinais de áudio dos vídeos. Utilizandose da aplicação de um sistema de reconhecimento de voz e modelos de linguagem
já estabelecidos para o idioma português do Brasil, pôde-se avaliar a contribuição de
1.5 Organização do Documento
19
metadado baseado em conteúdo na recuperação de vídeos.
Além disso, este trabalho permitiu uma breve discussão acerca da atual conjuntura promovida pela TV Digital na era da informação e sobre a necessidade de se
obterem mais esforços para atender tanto às inovações tecnológicas quanto as estratégias de comunicação que afetam a sociedade. Para isso, visto que a análise do
conteúdo semântico e informacional dos vídeos é pouco trivial, este trabalho abre um
vasto campo para oportunidades de pesquisa como o reconhecimento de locutor nos
sinais de áudio, que contribuirá no levantamento do capital verbal dos programas; o
reconhecimento de faces dos vídeos, que contribuirá no estudo do capital visual dos
mesmos; e o efetivo controle na preservação do acervo audiovisual e televisivo do
país.
1.5 Organização do Documento
Este trabalho está dividido em 6 capítulos, incluindo o Capítulo 1 de introdução.
O Capítulo 2 apresenta alguns dos principais trabalhos relacionados existentes na
literatura, fazendo-se uma análise crítica de seus resultados e suas contribuições,
bem como estabelecendo-se comparações entre os mesmos e o presente trabalho.
O Capítulo 3 apresenta a fundamentação teórica deste trabalho, abordando os
principais conceitos utilizados para desenvolver o sistema de informação multimídia
proposto. Já o Capítulo 4 é dedicado à descrição do sistema desenvolvido.
O Capítulo 5 apresenta os resultados experimentais alcançados, sendo discutidos
a pesquisa de perfil dos usuários feita para este trabalho e os testes de processamento. Os testes utilizaram uma base de dados composta por 49 vídeos indexados
por meio de descrição textual manual, incluindo nessa descrição os metadados discursivos modelados, e da transcrição gerada pelo reconhecimento automático do áudio
falado nos vídeos no idioma português brasileiro.
E, finalmente, no Capítulo 6 são apresentadas as conclusões extraídas e alguns
trabalhos futuros que esta dissertação sugere para aprofundamento.
20
2
Trabalhos Relacionados
Neste capítulo, são apresentados alguns dos principais trabalhos da literatura que
contribuíram significativamente para o avanço das pesquisas na área. Estes trabalhos envolvem o desenvolvimento de ferramentas de análise discursiva automática,
proposição de modelos formais de análise discursiva e implantação de sistemas de
informação multimídia que se basearam no uso de técnicas robustas para a recuperação de informações audiovisuais. Uma análise sobre os resultados encontrados e
metodologias adotadas é realizada com o intuito de justificar o desenvolvimento desta
dissertação e relatar as diferenças entre as abordagens apresentadas.
2.1 Análise Discursiva Automática
Recentemente, vários trabalhos vêm se destacando no que se refere à proposição
de modelos formais, metadados e metodologias para o desenvolvimento de sistemas
de análise discursiva de documentos sob a semântica de diversas línguas, como o português do Brasil (PARDO; NUNES, 2006; SABINO, 2011) e a língua inglesa (MARCU;
ECHIHABI, 2002; MARCU, 2005; REITTER; MOORE, 2007; VERHAGEN et al., 2009).
Para possibilitar a análise discursiva automática de um documento, estes trabalhos
usam uma grande variedade de recursos como marcadores discursivos presentes no
texto, informações sintáticas, aspectos da representação semântica das sentenças
e dados estatísticos que podem ser processados automaticamente. Muitos destes
trabalhos estão mais ligados à descoberta automática de elementos nos documentos que apoiem a análise do discurso ou parte dela do que à análise propriamente
dita. Um exemplo são os diversos esforços por meio de analisadores discursivos que
estabelecem, automaticamente, as relações retóricas existentes em um documento,
porém ficando a cargo do especialista evidenciar o objetivo comunicativo que o autor
quis alcançar ao se usar tais relações. A análise do discurso trata-se de uma tarefa
complexa constantemente realizada pelo usuário indexador (SABINO, 2011).
21
Dentre alguns esforços para a automação da análise discursiva de textos, destacase o desenvolvimento do primeiro parser retórico para textos em inglês do gênero jornalístico (MARCU; ECHIHABI, 2002; MARCU, 2005). A metodologia desenvolvida e
a formalização proposta formam a base de diversos trabalhos em análise discursiva
automática, incluindo a teoria de estruturação retórica de textos conhecida pela sigla
RST (do inglês, Rhetorical Structure Theory ) (PARDO; NUNES, 2006). Nesse trabalho, foram identificados e tratados problemas para a automação da análise discursiva
como a delimitação dos segmentos textuais que expressam proposições simples; a
identificação das relações retóricas intra e intersentenciais de forma automática; a
classificação de proposições das relações; e a construção das estruturas retóricas
válidas de um texto a partir dessas relações. Com isso, este trabalho avançou nas
pesquisas da análise do discurso ao propor uma metodologia para o estudo da intencionalidade comunicativa de um texto por meio dos marcadores discursivos mapeados
previamente para cada relação.
Em 2007, tem-se o desenvolvimento de classificadores para a realização de análise discursiva automática de documentos textuais e de áudio por meio da técnica de
Aprendizado de Máquina SVM (Support Vector Machine) em que documentos são
agrupados por similaridade retórica (REITTER; MOORE, 2007). Este trabalho analisa
as repetições lexical e sintática em diálogos para o alinhamento linguístico dos interlocutores. Para isso, os classificadores combinam diversas SVMs, cada uma treinada
com dados estruturados para cada tipo de teoria discursiva, aplicando sobre as mesmas a probabilidade de ocorrência de cada relação retórica, conforme as repetições
do texto analisado, escolhendo a relação com maior probabilidade. Esse trabalho subsidia a análise discursiva de forma mais extensiva com a descoberta de relações mais
confiáveis e especificadas, porém o poder de processamento aumenta, visto que a
técnica SVM processa os segmentos textuais em pares (REITTER; MOORE, 2007).
No ano seguinte, foi proposto a implementação de um conversor léxico, o Discourse Marker Lexicon (DIMLEX), baseado em análise de coerência local para o reconhecimento de relações retóricas causais (STEDE, 2008) . O DIMLEX processa, além
da repetição lexical de termos no texto, a coerência de tais termos em cada relação e
a dependência sintática entre as relações a fim de obter marcadores discursivos em
toda a estrutura do documento.
Durante a análise discursiva de um documento textual, uma determinada estrutura
parcial de relações retóricas pode não contemplar todos os segmentos do documento,
22
principalmente se faltar em alguns marcadores discursivos ou ocorrer ambiguidade
retórica. Neste contexto, o trabalho proposto em (VERHAGEN et al., 2009) consiste
na implementação de um arcabouço para identificar relações temporais no texto, aplicando técnicas de RI para auxiliar na análise discursiva, utilizando o modelo vetorial
para comparar cada segmento textual com os metadados do título do documento analisado. Recebem as maiores pontuações os segmentos mais próximos do vetor do
título e estes são considerados como categorias específicas, permitindo que segmentos mais distantes sejam especializados dentro da árvore estrutural retórica criada.
Em relação aos analisadores supracitados, o sistema de informação proposto contempla, além do título dos vídeos, metadados discursivos e baseados em conteúdo do
áudio, permitindo analisar a função semântica entre os elementos televisivos representados, bem como realizar a recuperação de vídeos utilizando técnicas de RI sobre
essa variedade de metadados.
No Brasil, o analisador discursivo automático DiZer (DIscourse analyZER) merece
destaque no processamento discursivo de textos para o idioma português brasileiro
(PARDO; NUNES, 2006). Este trabalho utiliza técnicas da Inteligência Artificial (IA)
para identificar relações retóricas no documento por meio de marcadores ou metadados discursivos, palavras e frases indicativas, e agrupa tais relações para apresentar
ao especialista, de forma sequencial e fácil de ser entendida, a estrutura retórica geral
do conteúdo. Além disso, o analisador descreve, de forma simples e utilizando frases
conhecidas na literatura, as intenções do autor entre cada relação. O analisador foi
implementado para um repositório contendo 740 padrões de análise discursiva que
especificam o relacionamento entre relações retóricas e seus metadados textuais. Por
meio de técnicas textuais de casamento de padrões, cada segmento extraído do texto
é processado e a estrutura simbólica gerada é consultada no repositório. Além disso,
o analisador permite a realimentação da base à medida que os usuários especialistas
colaboram com anotações textuais sobre os documentos do acervo.
No contexto dos arquivos audiovisuais, o problema da análise discursiva de vídeos
é tratado e discutido em (SABINO, 2011). Semelhantemente, no presente trabalho,
são utilizadas técnicas de análise do discurso midiático (CHARAUDEAU; GHIGLIONE,
1997) para a geração de metadados textuais para a descrição e indexação de vídeos
televisivos. Sobre um acervo contendo vídeos de programas dos gêneros Debate,
Entrevista e Telejornal, discuti-se o papel dos modos de organização do discurso para
o funcionamento da comunicação entre os locutores participantes no programa. Dessa
forma, pôde-se determinar categorias em função de finalidades discursivas de um ato
2.2 Sistemas de Informação Multimídia
23
de comunicação sobre as quais o conteúdo informacional do vídeo fosse descrito e
indexado, subsidiando a recuperação e análises futuras desses arquivos audiovisuais.
O sistema de informação desenvolvido nessa dissertação destaca-se por apoiar
a análise do discurso de documentos audiovisuais, utilizando-se metadados discursivos mapeados para cada relação entre o conceito midiático e o respectivo conteúdo
informacional. Além disso, o sistema realiza a recuperação dos vídeos e o levantamento de infográficos por meio desses metadados ou marcadores, combinando-os e
explicitando-os sobre as relações midiáticas existentes no acervo digital analisado, a
fim de se facilitar a análise discursiva dos vídeos televisivos por especialistas.
Entre alguns dos principais trabalhos recentes focados no desenvolvimento de sistemas de informação similares ao proposto neste projeto de pesquisa, pode-se destacar: o Open Video Digital Library Project (MARCHIONINI; WILDEMUTH; GEISLER,
2006), o Físchlár (LEE; SMEATON, 2006; SMEATON; LEE; MCDONALD, 2004), o Informedia (WACTLAR et al., 1999) e o Opencast Matterhorn (KETTERL; SCHULT; HOCHMAN, 2009, 2010). Estes projetos contribuíram significativamente para o avanço
das pesquisas na área e se basearam no uso de técnicas robustas para a recuperação de informações audiovisuais, tais como técnicas de sumarização e visualização de
conteúdos de vídeo (HUGHES et al., 2003; CHRISTEL et al., 1998) e reconhecimento
de voz (BROWN et al., 2001).
O projeto Open Video Digital Library (MARCHIONINI; WILDEMUTH; GEISLER,
2006) iniciou-se em meados da década de 90, objetivando desenvolver um sistema
de informação que fornecesse conteúdos multimídia para atividades educacionais e
de pesquisa em escolas norte-americanas. Uma biblioteca digital inovadora foi desenvolvida, contendo não somente vídeos, como também páginas Web, textos e imagens
referentes a, por exemplo, documentários produzidos pelo governo norte-americano e
pelo Canal de TV Discovery. Por meio deste projeto, foram desenvolvidas novas interfaces de consulta e técnicas para recuperação de informação baseada em conteúdo
(GEISLER, 2003; MU; MARCHIONINI, 2003; GEISLER et al., 2002; DING; SOERGEL; MARCHIONINI, 1999). O sistema desenvolvido possui interface Web e utiliza
tecnologias abertas, tais como, o sistema operacional Linux, o servidor Web Apache
e o banco de dados MySQL. Devido ao grande volume de informações existente na
24
biblioteca desenvolvida, os arquivos de vídeos são armazenados em vários servidores
distribuídos.
No projeto do sistema Físchlár (SMEATON; LEE; MCDONALD, 2004), criado pelo
Centro para Processamento Digital de Video da Universidade da Cidade de Dublin, Irlanda, foram analisadas e desenvolvidas técnicas para processamento e recuperação
de vídeos, tais como, segmentação de vídeos em tomadas (camera shot boundary
detection), extração de quadros-chave, análise de legenda oculta e arquiteturas XML
para tarefas de recuperação de vídeos. Um sistema com interface Web foi desenvolvido, o qual suporta operações de captura, indexação, armazenamento, busca e sumarização de vídeos em aplicações como: uma biblioteca digital de conteúdos genéricos
transmitidos por oito canais de TV (Físchlár-TV), uma biblioteca digital focada em programas de notícias de TV (Físchlár-News) e uma biblioteca digital contendo vídeos de
ensino de enfermagem (Físchlár-Nursing). Todas estas aplicações compartilham de
uma mesma arquitetura XML. O padrão MPEG-7 é utilizado para a representação e
intercâmbio de metadados.
O sistema Informedia da Universidade Carnegie Mellon (WACTLAR et al., 1999)
representa um dos trabalhos mais relevantes na área de recuperação automática de
informação multimídia. Este sistema oferece diversas possibilidades de realização de
pesquisa e recuperação de programas de TV e rádio (programas atuais e antigos),
baseadas nos processamentos dos conteúdos das informações pesquisadas. Técnicas de processamento e análise de fala, imagens e linguagem natural (Hauptmann et
al., 2008; Christel and Wactlar, 2006) são amplamente utilizadas, buscando-se automatizar o processo de descrição, segmentação e indexação de vídeos. É interessante
ressaltar que esforços de pesquisa têm sido realizados para potencializar este sistema
com a capacidade de sintetizar em um único documento (um resumo) as informações
contidas em múltiplos tipos de dados (textos, imagens, áudio e vídeo) sobre um determinado tema.
O Opencast Matterhorn (KETTERL; SCHULT; HOCHMAN, 2009, 2010) é um projeto de software de código aberto para produzir, gerir e distribuir arquivos audiovisuais
de conteúdo acadêmico, criado pela Opencast Community, uma iniciativa da Universidade da Califórnia (US Berkeley) em 2008 que, atualmente, reúne 13 instituições da
América do Norte e da Europa. O projeto combina as experiências e soluções individuais de diferentes universidades em um único produto com licença livre. A criação
de um sistema unificado com um processo de desenvolvimento aberto foi projetado
25
para promover a interoperabilidade de conteúdos educativos. O sistema disponibiliza
uma interface web bem simples para que o usuário possa indexar e recuperar os vídeos existentes na base. Pela interface de administração de conteúdo, a indexação
pode ser feita por meio do upload de um arquivo audiovisual existente na máquina
do usuário ou selecionando arquivos listados no servidor, adquiridos por algum meio
de captura de áudio e vídeo. Além dessa descrição manual de texto feita pelo usuário indexador, o sistema processa dados intrínsecos aos vídeos como tamanho, duração e nome do arquivo bem como realiza a segmentação simples dos vídeos em
quadros-chave ou key-frames, selecionados por um algoritmo de detecção de bordas.
Na interface de busca, o sistema permite a recuperação textual e a visualização dos
vídeos utilizando como ranqueamento a quantidade de acessos. O Matterhorn utiliza
os padrões Dublin Core e MPEG-7 como esquemas de metadados para indexação e
permite a implementação de diversos serviços personalizados.
No Brasil, os trabalhos realizados pelo Núcleo de Processamento Digital de Imagens (NPDI) do Departamento de Ciência da Computação da Universidade Federal de
Minas Gerais (UFMG) merecem especial destaque, sobretudo aqueles voltados para
o desenvolvimento de aplicações hipermídia para gerenciamento de documentos multimídia e preservação de acervos digitais (NUNES; ARAÚJO; SOUZA, 2004; VALLE,
2003; SOUZA et al., 2002; ARAÚJO; GUIMARÃES, 2000).
Em (NUNES; ARAÚJO; SOUZA, 2004; SOUZA et al., 2002), os autores discutem o processo de digitalização de acervos e a utilização de sistemas de informação
para permitir um acesso ágil aos mesmos, utilizando como estudo de caso o Centro
de Conservação e Restauração de Bens Culturais Móveis (CECOR) da UFMG. Nestes
trabalhos, os autores apresentam o protótipo de um sistema de informação multimídia,
chamado Restaure, para armazenar e gerenciar a consulta de documentos digitalizados pertencentes ao acervo de fotografias e slides do CECOR.
Em (VALLE, 2003) explora-se detalhadamente os benefícios e desafios trazidos
pela aplicação de sistemas de informação multimídia aos acervos de valor permanente, identificando os principais requisitos para sistemas de gestão documental, sistemas de controle do fluxo de trabalho e plataformas de representação e recuperação
da informação que visem beneficiar o usuário do universo arquivístico. Um modelo
de sistema de gestão documental é apresentado, sendo aplicado especificamente ao
acervo de fotografias do Arquivo Público Mineiro (APM).
A problemática da indexação e recuperação de imagens e vídeos baseada em con-
26
teúdo visual é abordada em (ARAÚJO; GUIMARÃES, 2000). Os autores expõem os
principais benefícios deste tipo de abordagem, a qual se mostra especialmente atraente em um mundo onde os usuários buscam cada vez mais atingir, de maneira rápida
e precisa, seus objetivos informacionais. De fato, estas técnicas tem sido amplamente
estudadas por diversos pesquisadores (ENSER, 2008), constituindo uma área de pesquisa bem característica, referenciada pelas siglas CBVR (do inglês, Content-Based
Video Retrieval) e CBIR (do inglês, Content-Based Image Retrieval).
O presente trabalho se enquadra no contexto de desenvolvimento de sistemas de
informação multimídia, utilizando técnicas e conceitos empregados em trabalhos recentes relacionados com a representação, descrição, classificação e processamento
de vídeos digitais (PEREIRA et al., 2011; FREITAS; PÁDUA; BARROS, 2011; MUTHUKUMAR; SEETHA; PÁDUA, 2011; SOUZA et al., 2011; PEREIRA et al., 2010; LIMA
et al., 2010), combinando metadados gerais independentes do conteúdo com metadados dependentes de conteúdo determinados por meio de dados textuais obtidos do
reconhecimento automático de voz (áudio) e de técnicas de análise do discurso sobre
acervo midiático (DAVID-SILVA, 2005). Além disso, foram aplicadas algumas abordagens propostas por diversos pesquisadores ao longo dos últimos anos, tais como a
implementação de interfaces de interação com o usuário, padrões de indexação de
arquivos audiovisuais, modelagem de banco de dados multimídia e recuperação de
informação (KETTERL; SCHULT; HOCHMAN, 2010; LEW et al., 2006; MARCHIONINI; WILDEMUTH; GEISLER, 2006; WACTLAR et al., 1999; SMEATON; LEE; MCDONALD, 2004).
27
3
Fundamentação Teórica
Nesse capítulo, são apresentados alguns dos principais conceitos e ferramentas
tecnológicas que fundamentam o desenvolvimento do sistema de informação multimídia proposto nesse trabalho, tais como modelagem conceitual em bancos de dados
multimídia; técnicas de análise do discurso midiático; técnicas de indexação e recuperação de informação; lógica e teoria de conjuntos nebulosos; e uma abordagem para
modelagem de bibliotecas digitais.
3.1 Modelos de Dados em Banco de Dados Multimídia
Nas últimas décadas, a computação vem evoluindo no que se refere às metodologias e às tecnologias de modelagem e armazenamento de dados. Além disso, têm-se
os diversos tipos de bancos de dados que armazenam grande quantidade de informação em um curto espaço de tempo. Neste cenário, o modelo de dados a ser utilizado
deve fornecer uma visão precisa e objetiva de como os dados serão armazenados
a fim de favorecer o entendimento de conceitos, especificações e regras durante o
projeto de banco de dados (BORBA; MORALES, 2006).
Para a implementação de um banco de dados, é necessário definir o modelo de
dados para a aplicação. Um modelo de dados é uma coleção de conceitos que podem
ser usados para descrever um conjunto de dados e operações para manipular esses
dados. Os modelos de dados podem ser classificados em modelo conceitual, lógico e
físico, conforme a etapa de desenvolvimento do projeto do banco em que o modelo é
utilizado (ELMASRI; NAVATHE, 2002). Nesse trabalho, o modelo conceitual é utilizado
na criação de algumas tabelas do módulo de gerência de dados descrito na Seção 4.2,
ajustando-se os modelos lógico e físico do arcabouço Matterhorn.
O modelo conceitual representa as entidades e seus relacionamentos conforme
observadas ou expostas no mundo real durante a fase de análise, desconsiderando
3.1 Modelos de Dados em Banco de Dados Multimídia
28
detalhes impostos pela tecnologia, metodologias ou dispositivos físicos. No modelo
lógico, construído a partir do conceitual, as entidades e relacionamentos mapeados
são representadas por um padrão mais técnico e formal, considerando as limitações
tecnológicas e decisões de projeto, mas ainda se abstém do ambiente físico onde os
dados serão armazenados no computador. Já no modelo físico, tem-se a criação do
banco de dados (ELMASRI; NAVATHE, 2002).
Os modelos de dados aqui discutidos possuem elementos que contribuem para
modelar quaisquer tipos de bancos de dados. No entanto, algumas características
foram estendidas para permitir a implementação de bancos de dados multimídia, uma
abordagem atual para armazenamento e gerenciamento de arquivos audiovisuais. Em
outros termos, não somente campos com valores textuais devem ser persistidos, mas
também arquivos de áudio, imagem e vídeo, bem como seus respectivos metadados.
Dentre as principais implementações de um banco de dados multimídia, encontramse o paradigma da Orientação a Objetos (OO), o armazenamento de referências externas e a persistência de dados multimídia não interpretados (LI et al., 2004). A
persistência de objetos oferece mecanismos para definição de tipos, extensão de tipos existentes e a modelagem de relacionamentos complexos entre as entidades. Isso
permite representar objetos multimídia estruturados complexos e definir tipos de mídia
abstratos. O armazenamento de referências externas possui referências para arquivos
que contêm os objetos multimídia, permitindo acessá-los de forma simplificada, porém
não garantindo a consistência desses arquivos, uma vez que estão externos ao seu
controle. Já a abordagem para o armazenamento de dados multimídia não interpretados, uma sequência de bytes em campos do tipo BLOB (Binary Large Object), permite
que os mesmos sejam persistidos diretamente no banco que mantém a consistência
da base, continuando o problema de acesso rápido a dados complexos.
Neste trabalho, um banco de dados multimídia foi modelado para armazenar as
referências aos arquivos de vídeos e às respectivas transcrições obtidas do processamento de áudio. Além disso, sobre a estrutura de banco de dados existente no
Matterhorn, arcabouço utilizado para realizar a gerência de vídeos, funções de agregação e atributos derivados foram adicionados a fim de obter metadados para auxiliar
o processo de avaliação automática de vídeos. Os demais metadados modelados
para esse trabalho foram implementados em um banco de dados de índices sobre os
quais os serviços de recuperação de vídeos atuam. Estes módulos e os metadados
mencionados são detalhados nas próximas seções.
3.2 Indexação Multimodal de Vídeos
29
Para organizar arquivos multimídia, sejam em servidores, páginas ou mesmo em
discos locais, e garantir ou melhorar o acesso aos mesmos, é necessário criar métodos eficientes de indexação e de pesquisa. A etapa de indexação é muito importante
para que os arquivos sejam armazenados sob uma lógica que possibilite a localização
rápida dos mesmos por meio de metadados. Pela grande abstração existente em sua
semântica, destaca-se a indexação de vídeos, sendo esta uma etapa crítica sobretudo
em aplicações na Internet que demandam a rápida exibição de vídeos a usuários.
Os metadados são dados estruturados e codificados que representam as informações de um recurso informacional em meio digital ou não, contendo uma série de
características descritas por meio de padrões, ou seja, os metadados são os dados
que descrevem os dados de uma aplicação (ROSETTO, 2004). Os metadados que
visam identificar uma informação de forma suficiente para que ela seja acessada rapidamente são comumente chamados de índices (LANCASTER, 2004). Em pesquisas
sobre recuperação de vídeos, é interessante utilizar indexação multimodal para extrair
não somente metadados textuais, mas também áudio e imagem. A combinação entre
esses formatos de dados vem ganhando espaço na comunidade científica por meio
de pesquisas de técnicas viáveis para processos automáticos (CHRISTEL, 2007).
Sistemas de recuperação de informações multimídia, especificamente vídeos, fazem uso constante de metadados, taxonomias e linguagens documentárias para descrever e indexar os conteúdos dos arquivos de dados (LANCASTER, 2004).
Para se obter esses metadados, a extração automática das características do vídeo mostra-se como uma opção muito útil, mas esse tipo de abordagem pode não
ser viável, pois quanto maior for o nível de abstração, maior a dificuldade em extrair
metadados automaticamente, sendo necessário descrevê-los de forma manual bem
como combinar técnicas automáticas, para a obtenção de informações mais precisas
que gerem os índices na indexação.
As próximas subseções descrevem as formas de obtenção de metadados utilizadas nesse trabalho sob o âmbito da indexação textual, incluindo o processo de
aquisição e transformação de texto para a geração de índices; as técnicas de Parser, Stopping e Stemming; bem como o processo de reconhecimento de voz sobre os
sinais de áudio dos vídeos.
30
3.2.1 Indexação Textual
A indexação textual baseia-se no ato de selecionar ou definir termos, palavras ou
expressões, que irão descrever o conteúdo de um documento, levando em consideração um público específico (BORGES; MACULAN; LIMA, 2007), ou seja, processar
os documentos e colocar o texto correspondente em índices, dados estruturados que
possam ser pesquisados rapidamente.
Por meio da aquisição de conteúdo textual, transformação e criação de índices, o
processo de indexação textual constrói a estrutura que habilita a pesquisa de documentos. A aquisição do texto identifica e extrai o conteúdo textual dos documentos,
disponibilizando-os para pesquisa. Nessa fase, a extração de texto pode ocorrer pela
simples leitura de um documento, bem como por métodos computacionais mais avançados. Após esse processamento, o texto obtido é gravado em uma base de dados e
utilizado na etapa de transformação. A base de dados armazena o conteúdo textual
extraído de todos os documentos e seus respectivos metadados como tamanho do
arquivo, estrutura, tipo, dentre outros. Na etapa de transformação, o texto extraído é
normalizado em termos de indexação (palavras-chave) e armazenados em estruturas
de dados chamadas de índices em uma base de dados (criação de índices).
A transformação ou normalização do texto é obtida por meio de técnicas de Parser, Stopping e Stemming, dentre outras. O Parser realiza a análise morfo-sintática do
texto, a fim de se obter informação linguística. A técnica de Stopping elimina do texto
palavras irrelevantes ou que contribuem pouco para indexação (stop words). A radicalização das palavras do texto é realizado por meio do Stemming, permitindo buscas
futuras pelo radical da palavra informada (GONZALEZ; LIMA; LIMA, 2006).
Coleção de Documentos
Aquisição
do
Texto
Criação
de
Índices
Email, notícias,
artigos, formulários,
páginas web, cartas
Índices
Transformação
do
Texto
Figura 3.1: Processo de indexação textual (CROFT; METZLER; STROHMAN, 2010).
31
Figura 3.2: Estrutura de uma lista invertida para índices textuais.
Em muitos sistemas para obtenção de dados, os índices de pesquisa textual são
organizados como listas invertidas (ver Figura 3.2), em que cada palavra é uma chave
que aponta para os documentos nos quais ocorre (BAEZA-YATES; RIBEIRO-NETO,
1999). O conceito existente no processo de indexação sobre o estudo teórico das
análises léxica, sintática e semântica de uma determinada linguagem, principalmente
no que se refere a técnicas de análise do discurso, já se trata de uma pesquisa à
parte, merecendo um espaço na Seção 3.3 desse capítulo. Dessa forma, o conceito
de indexação será abordado de forma mais objetiva, explicando a estrutura de índices
em que as pesquisas irão atuar.
Além da estrutura dos documentos, as aplicações que utilizam indexação textual
devem acessar o conteúdo dos mesmos. Dessa forma, é necessário extrair o texto de
interesse antes de indexá-lo. Basicamente, nesse trabalho, propõe-se que as descrições textuais associadas aos vídeos televisivos sejam obtidas de duas formas: (i) por
meio de anotações textuais feitas por documentalistas e (ii) por meio de abordagens
automáticas baseadas na análise dos conteúdos dos sinais de áudio dos vídeos. No
primeiro caso, os metadados são obtidos manualmente por meio de um formulário
específico para a descrição de vídeos televisivos, respondendo a questões subjetivas
que abordam as estratégias, o resumo, a intencionalidade comunicativa, o públicoalvo e demais características para a geração de metadados dependentes do conteúdo.
32
Nesse caso, utiliza-se técnicas da Análise do Discurso para subsidiar o processo de
descrição (CHARAUDEAU; GHIGLIONE, 1997; DIAS; NAVES, 2007). Já na extração
automática, utiliza-se o reconhecimento de voz dos sinais de áudio, gerando conteúdo
textual a partir de um processo de transcrição.
O sistema propõe uma maneira para indexação e recuperação de vídeos por meio
das bibliotecas Lucene e Solr, desenvolvidas pela Fundação Apache (GOSPODNETIĆ; HATCHER, 2005). Essas bibliotecas possuem métodos para realizar a indexação
de textos com alto desempenho, sendo possível recuperar qualquer dado que possa
ser convertido em texto ou que possa ser extraído dele metadados textuais. As bibliotecas Lucene e Solr possuem como característica a simplicidade, não sendo necessário que o desenvolvedor conheça profundamente o funcionamento das mesmas:
basta utilizar um conjunto de classes que abstraem toda a complexidade de indexação
e recuperação, facilitando o processo de implementação.
3.2.2 Indexação Baseada em Sinais de Áudio
A informação presente nos sinais de áudio em vídeos televisivos é algo valioso a
ser indexado para a posterior recuperação, uma vez que a mesma está diretamente
conectada ao conteúdo informacional dos vídeos. Para um indexador, seria uma tarefa árdua observar o áudio embutido em vídeos e destacar palavras-chave para que,
assim, crie os índices correspondentes. Com base nisso, procura-se por uma solução
em que seja implementada uma tarefa computacional em que não exista o esforço
humano para desempenhar a indexação de vídeos utilizando sinais de áudio.
O estudo sobre Sistemas de Reconhecimento de Voz (SRV) envolve áreas de pesquisa interdisciplinares como processamento de sinais, reconhecimento de padrões,
linguagem natural e linguística. Esses sistemas, que têm aplicações em uma ampla
gama de problemas de processamento de sinal, representam uma revolução na área
de Processamento de Sinais Digitais (DSP, do inglês Digital Signal Processing). Os
sistemas supracitados são capazes de compreender a entrada de fala contínua de
vocabulário de centenas de milhares de palavras em ambientes operacionais.
O fato de existir poucos trabalhos sobre tais sistemas, para a língua portuguesa,
acarreta a deficiência de sistemas de busca audiovisual com indexação automática,
tornando mais difícil a atuação de pesquisadores na área de recuperação de vídeos
brasileiros. A dificuldade em obter um sistema robusto está ligada à própria com-
33
plexidade do problema e à de um corpus de voz digitalizado de boa qualidade, com
suas respectivas transcrições, somado a recursos específicos para o português brasileiro. A fim de melhorar o estado da arte para o problema, existe um grande esforço
realizado por pesquisadores do Laboratório de Processamento de Sinais (LaPS) da
Universidade Federal do Pará. Utilizando-se um modelo acústico desenvolvido pelo
LaPS, este trabalho apresenta uma solução ao problema de coletar automaticamente
palavras ditas em um vídeo e utilizá-las para indexar tal vídeo.
Um SRV típico deve receber, como entrada, um determinado vídeo ou, mais precisamente, o sinal de áudio do vídeo, e produzir a transcrição das palavras ditas na
respectiva faixa de áudio, que são as palavras-chave a serem indexadas (HANSEN
et al., 2006; HUANG; ACERO; HON, 2001). Para extrair a parte de áudio de um vídeo, pode ser utilizado um conversor de Áudio/Vídeo, utilizado na etapa de divisão de
componentes do vídeo (Demux). O bloco Front-End em conjunto com o bloco Decodificador compõem a Engine do SRV, contendo algoritmos essenciais para se trabalhar
com fala em qualquer língua. O Front-End tem como objetivo transformar a faixa de
áudio pura em parâmetros que são capazes de descrever melhor o sinal de áudio.
Com o suporte dos Modelos Acústico e Linguístico, o Decodificador mapeia os parâmetros oriundos da faixa de áudio, que foi extraída do vídeo de entrada, em uma
sequência de caracteres. Os Modelos Acústico e Linguístico, somados ao Dicionário Fonético, compõem a Base de Conhecimento necessária para trabalhar com voz
sobre uma determinada língua. A Figura 3.3 fornece uma visão geral da arquitetura
Figura 3.3: Arquitetura de um SRV típico.
3.3 Análise do Discurso Midiático
34
de um SRV. No escopo desse trabalho, a base de conhecimento foi específica para o
idioma português brasileiro.
No processo de descrição dos documentos para a conversão da linguagem presente no documento para a linguagem documentária, que inclui elementos como descritores e palavras-chave, tem-se a necessidade de um vocabulário controlado a fim
de se expressar o conteúdo do documento e contornar diversos fenômenos linguísticos que englobam os problemas relativos à semântica (SABINO, 2011). Dessa forma,
conforme a particularidade da linguagem televisiva, tem-se como recurso a utilização
de técnicas de Análise do Discurso (AD) para subsidiar a descrição e a extração de
padrões multimodais no processo de indexação de documentos que, nesse trabalho,
se limitam a arquivos audiovisuais, especificamente vídeos televisivos.
A definição de discurso envolve os conceitos de enunciado, referente ao que é
dito, e de enunciação, que corresponde à forma de dizer, estabelecendo-se entre esses conceitos uma relação de existência mútua (BENVENISTE, 1976). Além disso,
a enunciação pode ser definida como o ato de produzir um enunciado, que inclui os
sujeitos da troca comunicativa, o enunciador e o enunciatário. Este se refere ao sujeito para quem o dito é dirigido, e aquele, ao sujeito que fala. Dessa forma, um dos
focos de estudo da Análise do Discurso é essa relação entre enunciado e enunciação,
bem como entre os sujeitos correspondentes. Além de se ater ao que é dito em um
programa, trata-se também de analisar a relação Eu-Tu estabelecida entre os sujeitos
da enunciação, trabalhando sobre os dispositivos enunciativos que refletem as formas
de disponibilizar a informação (RINGOOT, 2006; DAVID-SILVA, 2005).
A condição para a compreensão entre os interlocutores é a existência de um contrato de comunicação que interfere na construção do sentido: todo ato de linguagem
depende de um contrato de comunicação (CHARAUDEAU, 1994). O contrato de comunicação é o que estrutura uma situação de comunicação entre o enunciador (locutor) e o enunciatário (alocutor), permitindo a realização dos atos de linguagem. A
linguagem está intimamente associada à situação concreta de enunciação. Os participantes envolvidos nas trocas comunicativas e o contexto em que se inserem determinam o uso da linguagem. A finalidade comunicativa (para que é dito), a temática
(sobre o que se diz algo), a identidade dos participantes (quem diz a quem) e as
35
condições de produção (quais as circunstâncias do dizer) são determinadas pela situação de interação. Desse modo, pode-se compreender que não é possível separar a
linguagem de seu uso concreto (DAVID-SILVA, 2005).
A finalidade norteia os outros elementos intrínsecos à situação de comunicação,
como a identidade, o lugar e o propósito, ou seja, toda a cena enunciativa nos termos
de (MAINGUENEAU, 2007). A finalidade comunicativa é considerada um dos elementos essenciais para a análise do ato de linguagem e seleciona um tipo de visada,
que orientará discursivamente a comunicação, definida pelas atitudes enunciativas da
instância de produção em relação à instância de recepção, devidamente reconhecidas
pelos interlocutores (CHARAUDEAU, 2001). As visadas também correspondem a uma
intencionalidade que determina a expectativa do ato de linguagem e possuem seis tipos: visada de prescrição, de solicitação, de incitação, de informação, de instrução
e de demonstração. Nos programas de informação televisiva, a visada predominante
é a informação, em que o Eu encontra-se em posição superior ao Tu, uma vez que
domina a informação (ele sabe) e o Tu encontra-se na posição de “dever saber”.
A temática faz parte das condições de produção de todo ato de linguagem e se
insere na estrutura de um produto televisual, referindo-se ao espaço público de abordagem do que será tratado no discurso, conforme o gênero discursivo identificado no
documento. Em telejornais, a temática também determina a ordem da divulgação dos
acontecimentos (DAVID-SILVA, 2005).
A identidade dos participantes depende de categorias de ordem psicossocial que
podem ser analisadas por meio de diversos aspectos, bem como em relação ao aspecto sócio-profissional do sujeito. Os participantes, bem como suas identidades,
refletem como será tratada a temática em questão, pois eles representam um determinado espaço público e os imaginários sociais que ali circulam (CHARAUDEAU;
GHIGLIONE, 1997).
As condições de produção referem-se às circunstâncias físicas da troca linguageira no processo comunicativo que, em emissões televisivas, criam um dispositivo de
encenação. A informação sofre adaptação em relação ao tempo, espaço, condições
materiais, dentre outras circunstâncias, fornecendo instruções para a encenação do
ato de linguagem, articulado e inserido em dois tipos de espaços: o espaço interno,
que representa a organização do dizer ; e o espaço externo ou psicossocial, que representa o fazer (DAVID-SILVA, 2005). Quando o sujeito enunciador utiliza-se de sua
enunciação para estabelecer os papéis discursivos de cada participante, tem-se o as-
36
pecto cênico do ato de comunicação (CHARAUDEAU, 2001).
No processo de indexação, a AD contribui com a análise conceitual e a tradução,
que são duas etapas que integram esse processo. A partir dessas duas etapas, temse a atribuição de descritores significativos de um determinado documento, tendo em
vista a implementação de um vocabulário controlado (a linguagem documentária), a
fim de garantir a recuperação do mesmo de forma mais eficaz (LANCASTER, 2004).
Ao subsidiar esse processo utilizando as contribuições da AD, os documentos são descritos de acordo com o significado semântico de seu conteúdo em relação ao universo
da aplicação para a qual ele será utilizado. Em outros termos, para esse trabalho, o
processo de indexação utiliza a AD para descrever semanticamente os vídeos televisivos, que permitirá aos usuários recuperar os mesmos e, principalmente, analisá-los
graficamente em relação aos metadados discursivos modelados. Esse tipo de abordagem mostra-se cada vez mais relevante para arquivos audiovisuais, cada vez mais
complexos, principalmente quando se intenta promover não apenas conteúdo descritivo ou textual, mas também informativo.
Considerando prováveis problemas referentes à descrição semântica, tem-se nos
vídeos televisivos, que se constituem por imagens em movimento, os seguintes fatores: mapeamento dos elementos sonoros como, por exemplo, espaços de silêncio,
entonações de diálogo, tempo de fala, músicas; de elementos iconográficos como
cores, planos de enquadramento de câmera, eixos de visão, dentre outros; que podem ser analisados no processo de indexação. O conceito de eixos de visão utilizado
nesse trabalho refere-se à relação entre o que é mostrado por meio de uma câmera
e o espectador, realizando movimentos conforme o que a instância midiática deseja
(CHARAUDEAU; GHIGLIONE, 1997).
Os gêneros discursivos são percebidos como ocorrências linguísticas constituídas
e situadas sócio-historicamente, regendo a prática comunicativa entre os sujeitos do
discurso. Os gêneros televisivos podem ser classificados nas categorias entretenimento, informação, educacional e publicidade (SOUZA, 2004).
O gênero televisivo Debate tem como característica a presença de um moderador e pode apresentar conflito verbal entre os participantes, que confrontam crenças,
valores e opiniões a fim de manter a palavra e convencer o outro, telespectador e participantes envolvidos na troca comunicativa (SABINO, 2011). Dessa forma, a dimensão
argumentativa inerente ao debate reflete um caráter polêmico e a gestão do moderador sugere a intenção de ser se propagar um espetáculo midiático predominantemente
37
e com visada de informação.
No gênero Entrevista, tem-se o posicionamento dos participantes, geralmente
duas pessoas, fisicamente um de frente para o outro, sem conflito verbal: os participantes têm direito a uma alternância nos momentos de fala em que um sujeito
possui o papel de “questionador” e o segundo sujeito em um papel de “questionadocom-razões-para-ser-questionado” (CHARAUDEAU, 2001). Enquanto que em debates observa-se a finalidade comunicativa de avaliar o que é dito, a entrevista visa
informar, permitindo um cenário neutro, na tentativa de se conferir credibilidade, com
foco no que é dito e em quem diz (SABINO, 2011).
Para os gêneros supracitados, foram estabelecidos os seguintes elementos discursivos: Temática, Identidade dos participantes, Gestão, Disposição dos participantes, Eixos de visão, Planos fílmicos, Sequencialização e Modo enunciativo. O modo
enunciativo diz respeito a relação entre os interlocutores, visando estabelecer uma
relação de influência entre os mesmos. Já a sequencialização consiste em proceder
a certo tipo de encadeamento e sincronia entre as imagens apresentadas no vídeo
e as respectivas referências discorridas em áudio, ou seja, se o interlocutor é visualizado simultaneamente à sua fala, bem como a apresentação visual de uma situação
e a sua descrição verbal (CHARAUDEAU, 2001). Os demais elementos descrevem a
situação de comunicação e interação do ato de linguagem. A partir desses elementos, identifica-se elementos sonoros e visuais que auxiliam a análise semântica dos
vídeos. Cada descritor discursivo possui valores pré-determinados por meio de um
vocabulário controlado, que será detalhado no Capítulo 4 dessa dissertação.
O gênero Telejornal tem como finalidade comunicativa informar. Assim como o
gênero Entrevista, possui também estratégias de encenação, incluindo a utilização
de recursos próprios aos efeitos e narrativa ficcionais, efeitos de patemização (com
a finalidade de captação ao se socializar a intimidade, ou seja, tende-se a manipular
a sensibilidade sobre a informação objetivando mais a captação do público do que
o ato de informar) e efeitos de realidade, visando sobre esse último a credibilidade
e a autenticidade da notícia (DAVID-SILVA, 2005). Assim, os telejornais, por serem
discursivamente complexos, possibilitam diferentes análises sobre sua estruturação,
combinação de matérias e temáticas. Os respectivos gráficos gerados são analisados
na Subseção 5.2 que discute os resultados experimentais desse trabalho.
Considerando a mídia televisiva, o tempo de recepção ou abertura de um telejornal
é incorporado na enunciação das suas mensagens com o intuito de captar o telespec-
38
tador para o universo da informação, ou seja, existe uma transição de contrato do
ficcional televisivo para anuncia-se o contrato da informação.
Os documentos do gênero Telejornal são analisados por meio dos espaços enunciativos interno e externo. O espaço interno refere-se ao ambiente de estúdio utilizado
pelos participantes, incluindo o apresentador que possui papel fundamental na condução informativa. É um espaço que comporta algumas formas de enunciação como
as chamadas de matéria, as notas peladas ou simples, as notas-pé e as entrevistas.
Já o espaço externo é constituído pelas reportagens e notas cobertas, outros tipos de
matérias que apresentam imagens do mundo fatual, ambientes externos do acontecimento sobre o qual deseja-se informar (DAVID-SILVA, 2005).
As chamadas de matéria tratam-se da apresentações de reportagem pelo âncora
como forma de introduzir o assunto que será exibido, sendo também conhecida como
chamada de cabeça. As notas peladas são notícias e outras informações apresentadas pelos apresentadores, tendo como principal característica a ausência da cobertura por imagens. Já as notas cobertas possuem o mesmo objetivo informativo das
notas peladas, porém existe a cobertura por imagens, enquanto o apresentador fica
ausente de qualquer enquadramento de câmera, como narrador do fato. As notas-pé
referem-se a uma informação adicional, prestada pelo apresentador do telejornal, sobre o assunto da matéria que acabara de ser exibida, ou seja, é um fechamento, que
pode compreender não apenas um complemento do que foi veiculado, mas um editorial como a opinião do noticiário, da emissora e/ou do próprio âncora. A reportagem
refere-se a uma matéria produzida em ambiente externo por uma equipe jornalística,
com vistas à apresentação de um determinado conteúdo (DAVID-SILVA, 2005).
Além dos espaços enunciativos, tem-se outros tipos de elementos que merecem
atenção na AD: as vinhetas e os intervalos. Esses elementos podem ser encontrados
em todos os gêneros, porém, para esse trabalho, tiveram os respectivos tempos de
emissão medidos somente para telejornais, uma vez que até o momento da concepção dos testes sobre a base de dados, apenas os vídeos com esse gênero continham
vinhetas associadas. As vinhetas aparecem na abertura dos telejornais e possuem
função fática para a captação do telespectador, carregando elementos sonoros e iconográficos em destaque criados para caracterizar o telejornal e simbolizar um mundo
controlado, tornando-o próximo e disponível pela mediação televisiva. Os intervalos,
por sua vez, correspondem a outro universo, geralmente ligado à publicidade comercial dos patrocinadores dos programas, que podem ser analisados quanto à sua es-
3.4 Recuperação de Informação Multimídia
39
tratégia ou intenção de comunicação, bem como à sua influência no tempo líquido de
emissão que o programa possui na grade programática (SOUZA, 2004).
No âmbito deste trabalho, foram gerados, por meio da análise estrutural, metadados textuais dependentes do conteúdo, também chamados de discursivos, tendo
em vista a sua correspondência a categorias importantes na análise discursiva dos
gêneros televisivos informacionais, possibilitando ao usuário, por meio do sistema de
informação proposto, analisar graficamente a distribuição de emissão/imagens e matérias dos vídeos telejornalísticos, bem como recuperar e acessar os mesmos por meio
das interfaces de busca implementadas.
Após o processo de indexação, a próxima etapa é definir o processo de recuperação conforme a lógica e a organização dos índices e dos demais metadados do
arquivo pesquisado. A RI é uma área da Ciência da Computação que lida com armazenamento automático e recuperação de arquivos de diferentes tipos (CARDOSO,
2000). Em especial, a recuperação de informação multimídia estuda as técnicas de
armazenamento e recuperação de arquivos audiovisuais. A crescente complexidade
dos objetos armazenados e o grande volume de dados exigem processos de recuperação cada vez mais sofisticados. Dessa forma, a recuperação de informação apresenta
continuamente novos desafios e se configura como uma área de grande significância
e caráter interdisciplinar (CARDOSO, 2000).
O conceito de armazenamento tratado acima não se refere somente à persistência
dos dados de interesse, mas também do processo de indexação que produz metadados importantes para armazenar a localização dos arquivos, gerando assim maior
eficiência no processo de busca pelos usuários. O cerne da recuperação de informação é modelar como as pessoas comparam conteúdos, o que elas realmente buscam
e desenvolver algoritmos para realizar de forma precisa esse processo.
A interação com o usuário, a ordenação e a avaliação são os componentes mais
importantes no processo de recuperação da informação, conforme a Figura 3.4 (CROFT;
METZLER; STROHMAN, 2010). A interação com o usuário fornece a interface entre
o indivíduo pesquisador e a máquina de busca, capturando a consulta do usuário e
transformando-a em termos de indexação. A interface deve também apresentar a lista
dos dados de resposta, ordenados conforme um critério de ordenação. Para isso, a
40
Dados dos Documentos
Interação
com
Usuário
Ordenação
Índices
Avaliação
Dados de log
Figura 3.4: Processo de recuperação da informação.
consulta fornecida pelo usuário deve ser avaliada por meio de uma base histórica de
dados de consulta (log) que melhora a ordenação das informações buscadas ao longo
do tempo. Técnicas como a realimentação por relevância tendem a executar a fase de
avaliação com o mesmo usuário, porém, em diversas iterações de consulta, a avaliação não é um processo online. Já a etapa de ordenação, uma das mais importantes
em máquinas de busca, ocorre imediatamente após a consulta e gera uma lista ordenada de índices baseando-se em pontuações (scores) obtidas por um modelo de
recuperação. Esses índices apontam para os dados e metadados dos documentos
armazenados e cabe à interface de pesquisa apresentar os respectivos documentos
na interação com o usuário.
As formas de pontuação de índices indicam como os modelos de recuperação tratam a relevância dos documentos recuperados. Os modelos clássicos de recuperação
consideram que cada documento d j é descrito por um conjunto de palavras-chave,
chamadas termos de indexação (ti ), existindo um peso wi j ≥ 0 associado para quantificar essa correlação (CARDOSO, 2000). O modelo booleano, por exemplo, verifica
se um termo aponta ou não para um documento, retornando-o em caso afirmativo. O
modelo citado é de fácil implementação, porém a ordenação da lista de documentos é
inexistente. Já no modelo vetorial (BAEZA-YATES; RIBEIRO-NETO, 1999), os índices
possuem o número de ocorrências de um termo ti nos documentos da base, tendo
as maiores ocorrências um critério de ordenação. Além disso, o peso da consulta é
baseado na relevância dos termos pesquisados no espaço n-dimensional, em que n
é o número de palavras existentes na base, melhorando a ordenação. O modelo probabilístico calcula a ocorrência dos termos em relação a cada documento e a base
41
de dados inteira, calculando a probabilidade de que um documento é relevante dado
aquele termo.
Para se obter sucesso no processo de recuperação, é necessário considerar o
contexto social aplicado pelo usuário na necessidade de se buscar informações, pois
a situação e o conhecimento do usuário mudam continuamente. A Figura 3.5 ilustra
o ciclo de vida da informação que passa pelas fases de criação, busca e utilização,
não necessariamente sequenciais. A informação pode estar ativa (matéria bruta),
semi-ativa (estagnada, para pesquisa) e inativa (matéria-prima para novas publicações). Esse ciclo mostra que a informação é criada utilizando-se de outras informações, sendo modificada ou acertada à medida que outras informações são utilizadas.
Essa informação é então registrada por um ou mais autores. Em seguida, a informação criada é organizada, conforme regras específicas, e indexada, possibilitando a sua
recuperação. Agora a informação está disponível para busca e, obtendo-se sucesso
nessa fase, a informação será acessada, porém apenas parte dela pode ser útil para
o usuário. Dessa forma, a informação é filtrada, bem como outras informações utilizadas, em um processo de mineração e retenção de dados importantes, servido de
insumo para novas informações. Os dados não usados são descartados, até mesmo
pela falta de manutenção do ambiente publicador.
No contexto da informação multimídia, em especial vídeos televisivos, os princi-
Ativa
Autoria
Modificação
Uso
Criação
C
CONTEXTO
SOCIAL
Acesso
Filtros
Semi-ativa
A
A
ÇÃ
O
SC
UT ILIZ
Retenção
Mineração
Organização
Indexação
R IAÇÃ O
BU
Armazenamento
Recuperação
Descartada
Disposição
Distribuição
Rede
Inativa
Figura 3.5: Ciclo de vida da informação - Adaptado de (BORGMAN, 1996).
3.5 Teoria de Lógica Nebulosa
42
pais problemas ocorrem nas fases de busca e utilização, refletindo indiretamente na
criação de documentos científicos que utilizam esses recursos. Como informado anteriormente sobre os CEDOCs, a qualidade no processo de busca por vídeos televisivos
no Brasil ainda está muito abaixo do esperado pelos pesquisadores. Não existem ferramentas de pesquisa satisfatórias para esse tipo de produção audiovisual e, quando
encontrados, os vídeos possuem baixa qualidade de resolução: edição demasiada,
remoção de chamadas e descrição pobre (apenas título e um resumo geral). Os
mesmos não são mantidos por longos períodos em uma mesma localização, principalmente na Web, pela falta de preocupação em se manter um acervo digital.
Esse problema é percebido também em outras áreas do conhecimento que necessitam de ferramentas de pesquisa e manutenção de acervo como, por exemplo,
museus, instituições de ensino à distância e bibliotecas virtuais. Dessa forma, cada
vez mais, as aplicações de recuperação de informação envolvem documentos audiovisuais estruturados, com conteúdo textual relevante e outras mídias. Informações
multimídia geralmente incluem imagens, vídeos e áudio (música e discurso). Em algumas aplicações, documentos escaneados também são importantes. Comparar e
descrever o conteúdo dessas mídias é uma tarefa morosa para ser feita manualmente
e difícil no contexto da automatização (CROFT; METZLER; STROHMAN, 2010).
Em muitas aplicações, tem-se o emprego da lógica clássica de Aristóteles baseada
no raciocínio de premissas e conclusões, ou seja, é uma lógica binária que declara
uma sentença ser falsa ou verdadeira, não podendo ser parcialmente verdadeira e
parcialmente falsa (BITTENCOURT, 2006). Esse tipo de lógica está presente na teoria
tradicional de conjuntos em que operadores indicam se um elemento pertence ou não
a um conjunto, utilizando-se disso para estender outras operações fundamentais tais
como união, interseção, diferença e complemento. Dessa forma, pode-se inferir, por
exemplo, que a união entre um conjunto U e seu complemento não-U cobre-se todas
as possibilidades da aplicação que esses conjuntos representam.
A Lógica Nebulosa viola essas suposições por meio do conceito de dualidade que
estabelece que algo pode coexistir com o seu oposto (ZADEH, 1965). A lógica clássica trata dos valores “verdade” das afirmações, classificando-os como verdadeiras
ou falsas. Não obstante, muitas das experiências humanas não são classificadas sim-
43
plesmente como verdadeiras ou falsas: um sim ou um não a certas questões pode
tornar a resposta incompleta na maioria das aplicações.
O princípio da Lógica Nebulosa implica que a classificação clássica de pertinência de elementos em conjuntos, que pode ser representada pelos estados 0 (nãopertence) ou 1 (pertence), possuem uma probabilidade positiva em relação à uma
função de pertinência do elemento a um determinado conjunto, gerando estados no
intervalo real contínuo [0, 1]. Diferentemente dos conjuntos clássicos em que a transição entre os mesmos ocorre de forma abrupta, nos conjuntos nebulosos esta transição ocorre de forma gradual, conforme a função de pertinência definida para cada
conjunto. As fronteiras entre eles não são nitidamente definidas e um elemento pode
pertencer a um conjunto com certo grau que varia entre 0 e 1 (ZADEH, 1965). Com
isso, a Lógica Nebulosa suporta os modos de raciocínio aproximados, em vez de exatos, como o ser humano naturalmente pensa (CHAN; AU, 1997).
A Lógica Nebulosa é uma técnica que permite modelar o modo impreciso e aproximado de raciocínio humano expresso por um conjunto linguístico, em termos de
conceitos qualitativos. Para o processamento de informações utilizando-se essa técnica, é usual modelar os principais componentes de um sistema Nebuloso, conforme
a aplicação. Os principais componentes de um sistema Nebuloso são o fuzzyficador,
a máquina de inferência e o defuzzyficador, ilustrados na Figura 3.6.
O fuzzyficador é composto por partições de conjuntos nebulosos de entrada sobre
os quais ocorre o mapeamento de um valor numérico real X da aplicação em valores
numéricos nebulosos: as pertinências de X em cada conjunto nebuloso de entrada.
Já o defuzzyficador mapeia um valor numérico nebuloso para um valor numérico real,
Figura 3.6: Componentes de um sistema típico de processamento nebuloso.
44
conforme a aplicação, por meio de métodos nebulosos aplicados aos conjuntos nebulosos de saída depois do processo de inferência. A máquina de inferência nebulosa é
composta por um conjunto de regras modeladas para a aplicação: a base de conhecimento (NEGNEVITSKY, 2005).
A função de pertinência de um conjunto nebuloso A é definida sobre um determinado universo de discurso U, sendo caracterizada pela função µA : U → [0, 1], que
mapeia cada elemento X ∈ U a um número real no intervalo [0, 1] que representa o
grau de pertinência do elemento no conjunto A (ZHAOMING et al., 2009). As funções
de pertinência podem ser então definidas como ferramentas matemáticas simples, utilizadas para modelar o significado dos rótulos linguísticos associados aos conjuntos,
podendo representar, ainda, a maneira subjetiva pela qual um indivíduo entende uma
determinada classe de objetos de uma aplicação.
Sobre a base de conhecimento, existem operadores que disparam regras específicas de acordo com o processamento dos graus de pertinência obtidos nas partições
de entrada, seccionando os conjuntos nebulosos de saída, durante o processo de inferência. Para isso, é necessário definir, no projeto do sistema Nebuloso, qual o tipo
de modelo de inferência a ser utilizado: modelo baseado em dados ou modelo baseado em especialistas. Nos modelos de inferência baseados em dados, as regras
são extraídas a partir de padrões ou categorias encontrados em massas de dados
históricas coletadas estatisticamente nos sistemas que se deseja representar. Nos
modelos baseados em especialistas, o conhecimento é levantado a partir de sessões
de engenharia do conhecimento por meio da percepção dos especialistas de negócio
sobre a aplicação. As regras da base de conhecimento possuem o formato se A então
B, em que A é o antecedente e B é o consequente, definindo qual conjunto nebuloso
de saída será selecionado. Dependendo do modelo de inferência adotado, a criação
da base de conhecimento pode se tornar uma tarefa difícil, principalmente quando se
trata de obter regras a partir do conhecimento de especialistas ou de cálculos complexos sobre grandes base de dados (DANTAS, 2010).
Para o módulo de avaliação do nível de interesse da recuperação de vídeos no
sistema proposto, foram implementadas três partições de entrada, uma de saída e
uma máquina de inferência baseada no modelo de Mamdani (MAMDANI, 1974) sobre
uma base de conhecimento com 25 regras. Por simplificação, optou-se por modelar
todas as combinações possíveis entre as três variáveis de entrada, gerando 27 regras
de produção, porém as três regras que modelam vídeos com baixo número de acessos
3.6 Bibliotecas Digitais e a Abordagem 5S
45
e pouco tempo de visualização foram reduzidas a uma só, que implica em vídeos
pouco interessantes. Essa modelagem está descrita detalhadamente na Seção 4.5.
Atualmente, existe uma grande quantidade de informação gerada em formato digital que poderia estar disponível através de bibliotecas digitais. Em função disso, existe
uma grande demanda pela construção desses ambientes cujos serviços especializados possam atender apropriadamente as preferências e necessidades de diferentes
tipos de usuários. Dessa forma, as bibliotecas digitais vêm sendo amplamente estudadas como ambientes eletrônicos que disponibilizam diversos materiais e diferentes
serviços, analogamente às bibliotecas físicas. Assim, podem ser consideradas como
sistemas de informação bastante complexos e que devem tratar problemas como (i) a
interface com o usuário; (ii) a modelagem e tratamento dos dados; (iii) a interoperabilidade e redes; (iv) e o armazenamento dos dados (GONÇALVES et al., 2004).
O conceito de biblioteca digital possui diferentes pontos de vista como em (LEVY;
MARSHALL, 1995) que definiram bibliotecas digitais como conjuntos de padrões que
intra-relacionam documentos, tecnologia e trabalho. Uma biblioteca digital é um ambiente que agrega arquivos, serviços e pessoas no suporte ao ciclo de vida completo da
informação que envolve a criação, disseminação, uso e preservação de dados (DUGUID; ATKINS, 1997). Em termos gerais, trata-se de um sistema aberto composto de
diversos subsistemas que envolve um ambiente organizacional, interdisciplinaridade
entre profissionais de diferentes áreas, recursos informacionais, usuários definidos,
tecnologia de informação, procedimentos, padrões e protocolos, visando o compromissos de longo prazo sobre os dados de interesse (SAYÃO, 2007).
Os aspectos que caracterizam uma biblioteca digital são a quantidade e a qualidade dos serviços e do conteúdo oferecidos por ela (POZO et al., 2004). Dependendo
dos objetivos e da tecnologia utilizada, os serviços dentro de uma biblioteca digital
podem ser bastante complexos e devem permitir expor funções específicas para os
usuários e satisfazer suas necessidades de informação. Entretanto, a especificação e
construção de uma biblioteca digital requerem esforços significativos quando não são
apoiados por metodologias e ferramentas que suportem o ciclo de vida completo de
especificação, prototipação e geração de código (POZO et al., 2004). Neste contexto,
surge a abordagem 5S, uma técnica que define um arcabouço para modelagem de
46
bibliotecas digitais por meio de cinco dimensões denominadas streams, structures,
spaces, scenarios e societies (GONÇALVES et al., 2004). Além disso, esta abordagem permite o mapeamento de elementos de bibliotecas digitais em sistemas de
informação que possuem tais características.
A dimensão streams descreve o tipo de conteúdo e os formatos suportados pela
biblioteca digital tais como, áudio, vídeo ou dado textual que são representados por
meio de tipos MIME (do inglês, Multipurpose Internet Mail Extensions) para manter
compatibilidade com os padrões atuais do W3C (do inglês, World Wide Web Consortium). As estruturas ou structures definem o modo como as partes de um todo são
arranjadas ou organizadas. Em bibliotecas digitais, estruturas podem descrever os catálogos de metadados, representar hipertextos, taxonomias, conexões do sistema ou
relacionamentos entre arquivos do usuário (GONÇALVES, 2004). Livros, por exemplo,
podem estar estruturados conceitualmente em capítulos, seções e subseções; ou fisicamente em capa, páginas e marcadores, dentre outros. O modelo spaces define os
ítens que especificam se os modelos utilizados para a recuperação de informação são
probabilísticos ou vetoriais, incluindo aspectos relacionados aos índices das coleções
e à interface de usuário (GONÇALVES et al., 2004). O conceito envolvido no modelo
societies é o de comunidade, que representa um conjunto de entidades com as mesmas características e comportamento. Já os scenarios descrevem serviços, atividades
e tarefas executadas pelas entidades nas bibliotecas digitais, especificando os aspectos dinâmicos dos sistemas. Na modelagem dos scenarios, geralmente utilizam-se os
conceitos de estado e evento, onde um estado é uma condição ou situação de uma
entidade, conforme os valores de seus atributos e relações com outras entidades, e
um evento é uma ação que a entidade executa para modificar seu estado (POZO et
al., 2004).
Basicamente, o sistema proposto neste trabalho pode ser caracterizado como uma
biblioteca digital, pois, além de propor um ambiente de pesquisa sobre um acervo
digital televisivo e de disponibilizar serviços, dentre os quais a geração de infográficos
discursivos, seus principais elementos podem ser caracterizados pela abordagem 5S:
• streams: os vídeos como principais recursos de conteúdo suportados pelo sistema;
• structures: os vídeos indexados textualmente por meio de metadados Dublin
Core (JOHNSTON; POWELL, 2008) e MPEG-7 obtidos da descrição manual e
do reconhecimento de voz em sinais de áudio dos vídeos;
47
• spaces: as informações são disponibilizadas em interface Web utilizando-se modelos de recuperação vetorial;
• societies: os pesquisadores de diversas áreas do conhecimento;
• scenarios: os serviços de geração de infográficos discursivos, navegação, indexação e recuperação de vídeos televisivos.
Esse mapeamento e a descrição desses elementos são detalhados no próximo
capítulo, incluindo os arquivos de configuração, em protocolo XML próprio, para prover
a interoperabilidade entre os módulos do sistema proposto e entre outras de suas
instalações, caracterizando um aspecto importante de uma biblioteca digital.
48
4
Descrição do Sistema de
Informação Multimídia
Buscando-se desenvolver um sistema de informação multimídia para apoio à análise discursiva de vídeos de programas do sistema de televisão brasileiro, a metodologia utilizada nesse trabalho consistiu em modelar e implementar cada módulo do
sistema baseando-se nos chamados metadados textuais discursivos mapeados por
meio de técnicas da Análise do Discurso Midiático.
Dessa forma, este capítulo apresenta o sistema de informação multimídia proposto
nesse trabalho, descrevendo a arquitetura de componentes desenvolvida, o arcabouço
de gerência de vídeos Matterhorn, as técnicas para indexação e recuperação de vídeos televisivos baseadas em uma abordagem interdisciplinar para obtenção de metadados, a geração extensiva de gráficos no apoio à análise discursiva dos vídeos, os
bancos de dados multimídia e de índices, e os artefatos mapeados na modelagem da
biblioteca digital.
4.1 Os Módulos e a Arquitetura do Sistema
O sistema proposto neste trabalho realiza o arquivamento e permite a descrição
do material audiovisual transmitido, auxiliando a análise discursiva do mesmo, bem
como disponibilizando-o para pesquisadores de diversas áreas interessados em se
pesquisar o acervo televisivo brasileiro.
Como informado anteriormente, o insumo principal do sistema serão vídeos televisivos exibidos na grade programática da Rede Minas de Televisão, disponibilizados no
âmbito de um Termo de Cooperação Técnico-Científica (TCT) firmado entre o CEFETMG e o referido canal de televisão. Estes vídeos são armazenados em um banco
de dados multimídia suportado pelo sistema e são processados por diversos méto-
49
Figura 4.1: Visão geral do projeto.
dos de indexação automática e manual. Durante o processo automático, os dados e
metadados dos vídeos são divididos em conteúdo visual (frames), textual e em sinais
de áudio. Na indexação manual, usuários credenciados (documentalistas) realizam a
descrição textual dos vídeos, provendo metadados baseados em técnicas de Análise
do Discurso Midiático (metadados discursivos), bem como metadados que fornecem
características básicas a respeito dos vídeos. Essas etapas geram índices multimodais para cada vídeo e são armazenados em um banco de dados específico. Estes
índices são processados pelo sistema nas fases de análise e de recuperação dos
vídeos, bem como na geração de gráficos discursivos sobre os respectivos metadados textuais armazenados. A Figura 4.1 exibe uma visão geral do sistema proposto,
destacando-se em vermelho os componentes desenvolvidos nesse trabalho sobre os
bancos de dados multimídia e de índices, os modelos de indexação e de recuperação de informação, a extração de indicadores para avaliação dos vídeos e geração de
gráficos, e as interfaces Web para a interação das informações com o usuário.
O sistema integra seis módulos principais para a gerência de dados, indexação e
recuperação de vídeos televisivos, análise do nível de interesse, geração de gráficos
discursivos e interação com o usuário. Cada módulo foi desenvolvido utilizando-se um
arcabouço de gerência de vídeos a fim de incorporar ao sistema os recursos necessários para a manipulação de informação multimídia: os vídeos televisivos. A Figura 4.2
apresenta a arquitetura do sistema que possui um repositório de dados gerenciado
por bancos de dados multimídia e de índices. Estes dados alimentam o arcabouço de
gerência de vídeos Matterhorn que suporta os serviços de indexação, recuperação,
geração de gráficos e navegação disponibilizados pelo sistema por meio de uma interface Web que interage com os indexadores e pesquisadores, usuários pertencentes
50
ao domínio da aplicação.
Figura 4.2: Arquitetura do sistema proposto.
O módulo de gerência de dados envolve todo o repositório de dados do sistema,
incluindo os vídeos e seus key frames, os respectivos sinais de áudio e suas transcrições em arquivo texto, os arquivos de texto referentes aos índices textuais obtidos
dos vídeos, e arquivos XML dos metadados em Dublin Core e MPEG-7. Os vídeos,
os arquivos XML e as transcrições são armazenados no banco de dados multimídia
implementado com referências externas em um banco de dados MySQL. Os arquivos
XML apontam para os sinais de áudio e os key frames de cada vídeo. Os arquivos de
índices textuais são gerenciados por um banco de dados da biblioteca Lucene que implementa uma máquina de busca por meio de algoritmos de indexação e recuperação
de informação textual (GOSPODNETIĆ; HATCHER, 2005).
Para o módulo de indexação, utilizou-se o arcabouço de gerência de vídeos Matterhorn para a criação dos índices textuais sobre o repositório de dados, porém formas
inéditas de obtenção de metadados textuais foram implementados, visto que o arcabouço gera apenas metadados de poucas características gerais dos vídeos, como
será visto na Subseção 4.2 a seguir. Na fase de indexação automática, além das características gerais, foi integrado ao sistema um módulo de reconhecimento de voz
sobre os sinais de áudio por meio do SRV Julius sobre uma base de conhecimento
para o idioma português brasileiro. Para a indexação manual, um formulário foi implementado com todos os campos necessários para uma descrição completa do vídeo,
conforme os métodos de Análise do Discurso, mapeados pela equipe da área de Estu-
51
dos da Linguagem integrante do projeto de pesquisa do qual esse trabalho faz parte.
O módulo de recuperação, bem como o módulo de indexação, utilizam parte dos
algoritmos de pesquisa do Lucene e do Solr acionados pelo Matterhorn, sendo configurados os arquivos de Parse, Stopping e Steaming para o idioma português brasileiro
utilizando-se as recomendações da organização Apache. Além disso, técnicas de
recuperação foram implementadas, utilizando-se o modelo vetorial (BAEZA-YATES;
RIBEIRO-NETO, 1999), para otimizar o processo de pesquisa nas modalidades de
busca geral e busca avançada sobre os metadados textuais mapeados. O modelo
vetorial foi escolhido por apresentar, na literatura, bom desempenho na recuperação
de dados, pois leva em consideração o casamento parcial e a proximidade dos documentos em relação aos termos da consulta em um espaço euclidiano de n dimensões
(em que n é o número de termos) (PACHECO, 2009).
A melhoria implementada sobre os algoritmos das bibliotecas supracitadas está
em consonância com as respectivas interfaces de busca. Quando o usuário realiza
uma pesquisa na modalidade de busca geral, os metadados são separados em grupos
e depois combinados para se obter um valor de similaridade final sobre os vídeos
contemplados pela pesquisa. Já na modalidade de busca avançada, considerandose a exatidão desse tipo de consulta, apenas os campos que foram preenchidos ou
selecionados pelo usuário tem seus respectivos metadados processados, conforme
os pesos pré-definidos para os mesmos. Essa abordagem serviu de subsídio para
os testes experimentais de recuperação executados para esse trabalho a fim de se
validar a eficácia e a eficiência desse módulo no sistema de informação proposto.
O gerador de gráficos discursivos é o principal módulo desse trabalho e utiliza o
método de busca geral do módulo de recuperação para processar os metadados textuais de todos os vídeos da base de dados conforme as opções selecionadas pelo
usuário na montagem dos gráficos. Os tipos de gráficos a serem gerados dependem,
primeiramente, do gênero de vídeos televisivos que o usuário deseja analisar. Esse
módulo interage diretamente com o usuário por meio da interface Web, ou seja, à
medida que as opções disponíveis na interface são selecionadas pelo usuário pesquisador, as opções subsequentes são alteradas dinamicamente para que os respectivos
metadados discursivos sejam carregados, bem como os dados derivados do módulo
de avaliação do nível de interesse dos vídeos contemplados por essas opções.
Já para o módulo de interação com o usuário, o sistema apresenta duas interfaces
Web: a interface de administração multimídia e a interface de exibição dos vídeos. A
4.2 Módulo de Gerência de Dados
52
primeira apresenta os status de processamento dos vídeos na base e o formulário descritivo para indexação manual dos vídeos enviados pelo usuário indexador, bem como
os vídeos baixados da placa de TV. Já a interface de exibição mostra, na inicialização,
os vídeos existentes na base, ordenados pelo maior número de exibições, incluindo
os quadros-chave ou key frames extraídos. Posteriormente, quando uma consulta é
realizada nessa interface, os vídeos contemplados são ordenados por relevância, em
ordem decrescente.
Nas próximas seções, cada grupo de módulos será descrito em seus componentes
mais fundamentais, os artefatos utilizados e gerados por cada um, contribuindo na
integração de todo o sistema de informação multimídia para apoio à análise discursiva
dos vídeos televisivos armazenados.
Este módulo gerencia o armazenamento e o acesso aos vídeos referentes às programações televisivas do canal Rede Minas. As formas de armazenamento de objetos multimídia, tais como vídeos televisivos, influenciam diretamente nas condições
de pesquisas permitidas e no desempenho das mesmas. No sistema proposto, este
módulo trabalha sobre um banco de dados multimídia e um banco de índices.
Figura 4.3: Metadados modelados e extraídos dos vídeos televisivos.
53
Para a implementação da base de dados, foram mapeados os metadados relevantes de vídeos televisivos para um sistema de informação com o propósito deste
trabalho. Por meio de discussões interdisciplinares promovidas pelas equipes do projeto em que esse trabalho faz parte, foram identificados metadados textuais básicos,
discursivos, de conteúdo e indicadores de avaliação dos vídeos conforme os acessos
que os mesmos possuem na recuperação. A Figura 4.3 ilustra os metadados mapeados e seus respectivos grupos de classificação.
Os metadados básicos referem-se às informações gerais dos vídeos, independentes do conteúdo, que podem ser obtidos automática ou manualmente. Os metadados
discursivos armazenam os dados obtidos de uma prévia análise discursiva dos vídeos,
geralmente incluindo valores de um vocabulário controlado para cada elemento analisado. Dessa forma, tratam-se de metadados dependentes do conteúdo semântico dos
vídeos, sendo obtidos manualmente. Já os metadados de conteúdo e os indicadores
são obtidos automaticamente por meio de técnicas computacionais. Os metadados de
conteúdo são do tipo MDC e, embora modelados na base de dados, somente aqueles
referentes ao conteúdo textual obtido do reconhecimento de voz em sinais de áudio
tiveram técnicas de extração implementadas no módulo de indexação. Os indicadores podem ser considerados como metadados do tipo MIC e são dados derivados, ou
seja, são calculados no momento de seu uso pelo módulo de avaliação do nível de
interesse dos vídeos.
Além dos metadados modelados para os vídeos televisivos, o módulo de gerência
de dados armazena outros metadados decorrentes dos processamentos realizados
pelo próprio arcabouço utilizado, bem como componentes de configuração gerados
nesse trabalho para gerenciar a comunicação entre os módulos implementados. Por
meio desses componentes, os métodos de um módulo podem submeter requisições
por um ou mais metadados a outro módulo e este responder com os valores do metadados solicitados. Sobre esses valores, um determinado serviço do sistema de
informação é processado e exibido na interface Web do módulo de interação com o
usuário. Para os tipos de requisição, foram implementados nesse trabalho diversos
arquivos textuais para comunicação de metadados, uma tabela no banco de dados
multimídia e 12 campos de indexação (Fields) nos bancos de índices para todos os
metadados discursivos, reconhecimento de voz e data de exibição.
O banco de dados multimídia armazena os dados dos vídeos, as transcrições obtidas de seus sinais de áudio e os arquivos de metadados. Para os vídeos e os arquivos
54
Figura 4.4: Modelo de Dados do Banco de Dados Multimídia e de Índices.
de metadados, a implementação do banco de dados utiliza-se da técnica de referências externas por meio do campo MEDIA PACKAGE ID que armazena uma cadeia
de caracteres numéricos, gerado aleatoriamente pelo Matterhorn, e identifica unicamente um vídeo na base inteira. A Figura 4.4 exibe o esquema de dados do banco
de dados multimídia implementado com as tabelas lidas pelo Matterhorn na gerência dos vídeos, conforme as orientações do projeto Opencast, porém destacando a
tabela TRANSCRICAO criada nesse projeto para referenciar os dados do reconhecimento de voz, visto que o arcabouço originalmente não disponibiliza esse tipo de
processamento, bem como a tabela VIDEO do banco de dados de índices, mantida
pelo Apache Lucene e Solr.
A tabela USER ACTION é a mais acionada no banco de dados multimídia, pois ela
armazena todas as ações do usuário sobre a informação, no caso os vídeos, incluindo
55
os dados de cada visualização, quanto tempo que o vídeo foi assistido, a partir de qual
momento do vídeo que o usuário selecionou a visualização, a data dessas ações,
dentre outros dados. Essas informações, além de permitirem uma análise do uso
da informação pelo usuário, subsidiam o módulo de análise do nível de interesse dos
vídeos. Essa tabela USER ACTION está ligada à tabela VIDEO do banco de dados de
índices, auxiliando a recuperação de vídeos, se essa for a ação do usuário no sistema
proposto. Os campos da tabela VIDEO são descritos detalhadamente na seção 4.3.
As tabelas SERIES e SCHED armazenam, respectivamente, os dados dos programas televisivos registrados no sistema e os agendamentos de gravações de certos
programas. Para este trabalho, por tratar de um sistema de característica arquivística
e de processamento contínuo de vídeos, o serviço de agendamento não é utilizado.
As tabelas DICTIONARY e CAPTURE AGENT STATE armazenam os metadados
referentes ao dicionário utilizado para o reconhecimento de caracteres sobre os frames (OCR) e os dados sobre a placa de captura de sinais de TV. A tabela ANNOTATION possui as anotações inseridas pelo usuário indexador para incrementar as informações sobre vídeos já processados e a tabela TRANSCRICAO, como informado,
armazena as referências externas aos arquivos das transcrições obtidas.
O banco de dados de índices, mantido internamente pelas bibliotecas Apache Lucene e Solr, armazena os índices textuais gerados no processo de indexação e disponibilizados pelo Matterhorn. Os índices armazenados são formados pelas estruturas
de dados documento e campo. Cada entrada do índice refere-se a um documento
(classe Document) e cada documento possui diversos campos (classe Field). De
forma análoga à teoria de banco de dados na modelagem relacional, os documentos
presentes nos índices seriam as linhas de uma tabela e os campos seriam os atributos, ou seja, para cada documento a ser pesquisado, existem campos pelos quais a
pesquisa pode ser feita (GOSPODNETIĆ; HATCHER, 2005).
Com isso, como o processo de recuperação atua diretamente sobre os índices
criados no processo de indexação, o banco de dados de índices cria um documento
para cada vídeo e, para cada documento, armazena justamente os valores textuais referentes aos campos existentes no formulário descritivo implementado na interface de
interação com o usuário. Além desses campos, é armazenado também o identificador
único de cada vídeo, o MEDIA PACKAGE ID gerado para o banco de dados multimídia e o conteúdo dos arquivos de transcrição (campo reconhecimentoVoz), integrando
os dois bancos no repositório de dados. Dessa forma, durante o processamento da
4.3 Módulos de Indexação e Recuperação
56
consulta do usuário, o módulo de recuperação consulta a base de índices por meio
do Matterhorn e, para cada requisição gerada pelos termos da consulta, o banco de
dados de índices retorna para o arcabouço uma lista de documentos. O módulo de
recuperação processa essa lista e disponibiliza, para a interface de interação com o
usuário, os respectivos vídeos contemplados.
O módulo de indexação é responsável por atribuir índices, também chamados de
descritores, a cada arquivo de vídeo, de forma a garantir um processo eficaz de recuperação da informação solicitada. Os índices deverão ser significativos, discriminantes
e utilizáveis, pois devem estar relacionados com a forma que o usuário faz sua consulta no ambiente real (ARAÚJO; GUIMARÃES, 2000). Já o módulo de recuperação,
intimamente integrado à estrutura criada no processo de indexação, utiliza a consulta
do usuário aplicada ao sistema para recuperar os vídeos cujos índices foram contemplados pela consulta. Dessa forma, antes de descrever os componentes desses
módulos, é necessário apresentar a arquitetura do arcabouço Matterhorn que realiza
a integração entre eles no processamento de índices.
A Figura 4.5 ilustra esse fluxo de dados e metadados gerenciado pelo Matterhorn,
observando-se as alterações realizadas para esse trabalho, destacadas em vermelho,
que contemplam o incremento do formulário descritivo, o serviço de geração de gráficos discursivos, a otimização do serviço de consulta e do indexador, e o processo
de reconhecimento de voz sobre os sinais de áudio extraídos no Composer para a
indexação das transcrições. Originalmente, os arquivos a serem processados são
carregados manualmente pelo usuário por meio de um formulário simples possuindo
como campos textuais apenas título, apresentador, nome do programa ou série, a descrição, qual o idioma utilizado e o usuário contribuidor com aquele arquivo, sendo o
título o único campo obrigatório. Depois disso, o arquivo é processado, sendo essas
informações textuais indexadas em um banco de índices e os demais metadados dos
arquivos são embutidos em um banco de dados próprio. Durante esse processo no
módulo de indexação, o Matterhorn utiliza um componente Composer (Compositor)
para extrair o áudio e os frames principais, quando se trata de um vídeo, e armazenar
os mesmos no sistema de arquivos do servidor. Em sua versão distribuída, o arcabouço pode replicar alguns desses metadados para outro servidor que suportará o
Usuário
Formulário
Demais metadados
(Caption)
57
Vídeos
Usuário Pesquisador
Integrador
Distribuição
Geração de
Infográﬁcos
Serviço
de consulta
Anotações
Reconhecimento
de Voz
Carga
Transcrições
Cache
de pesquisa
Engage
Anotações
Indexador
e Analyzer
Dados
de Índices
Arquivo
Armazenamento
Composer
Conteúdo
e Metadados
Arquivos
de Índices
Requisição
Formato
de distribuição
Índice
de busca
e cache
Figura 4.5: Fluxo de dados no sistema pelo Matterhorn.
módulo de recuperação para agilizar o serviço de busca do usuário. Esse servidor
(Engage) incorpora uma versão básica do módulo de recuperação implementado com
o modelo booleano, faz a distribuição dos índices de consulta e gerencia a visualização do conteúdo dos arquivos em tempo real (streaming), controlando a consistência
dos metadados replicados com aqueles existentes no módulo de indexação. O usuário pode adicionar ou alterar informações sobre os arquivos utilizando o serviço de
anotações. O Composer traduz requisições feitas entre esses módulos.
Na indexação pelo Apache Lucene, um determinado documento passa por uma
análise e depois é convertido em texto simples. Essa análise de texto é feita pela
classe Analyser que possui um conjunto de regras para esse processo de análise de
conteúdo (GOSPODNETIĆ; HATCHER, 2005). Variações dessa classe tratam as regras léxicas de diversas línguas, incluindo um conjunto de palavras irrelevantes para
indexação chamadas de stop words, ou seja, palavras que não possuem nenhum valor
interessante para indexação. Para este trabalho, foi utilizada a subclasse BrazilianAnalyser que trata o domínio da língua portuguesa do Brasil e suas stop words que
agrupam as preposições e conjunções, por exemplo.
O módulo de indexação trata o texto obtido dos vídeos, transformando-o em um
documento com estrutura específica para a criação de índices pelo Lucene. Os dados
58
textuais dos vídeos são obtidos neste projeto por meio do preenchimento do formulário
descritivo pelo usuário indexador no processo de indexação manual, por meio das
características gerais dos vídeos, bem como do processo de reconhecimento de voz
sobre os sinais de áudio, possibilitando a indexação automática.
O formulário de indexação, que antes tratava apenas a inserção de título e curtas
sinopses (descrições em geral), foi incrementado com os campos Gênero e Planos
fílmicos, para todos os gêneros; os campos Temática, Identidade dos participantes,
Gestão, Disposição dos participantes, Eixos de visão, Sequencialização e Modo enunciativo, para os vídeos dos gêneros Debate e Entrevista; e o campo Estruturação, para
vídeos de gênero Telejornal, que também armazena valores de Temática. Além disso,
todos esses campos são controlados, ou seja, não permitem a livre digitação de dados
pelo usuário indexador, disponibilizando assim opções, obtidas por meio de métodos
da AD, que devem ser selecionadas no momento do preenchimento. A Tabela 4.1
Nomes dos campos
Temática
Identidade dos participantes
Gestão
Disposição dos participantes
Eixos de visão
Planos fílmicos
Sequencialização
Modo enunciativo (comportamento Alocutivo):
Valores controlados
Atualidade política; Vida dos artistas; Ciência;
Saúde; Economia; Turismo; Educação; Sexo;
Drogas; Violência urbana; Esporte; Literatura;
Cinema; Artes cênicas (música, teatro e dança);
Artes plásticas (pintura, artesanato, desenho e
escultura); Religião; Leis; Discriminação; Tecnologia; Profissão; Meio Ambiente; Cotidiano
Médico; Professor; Escritor; Jornalista; Político;
Empregador/empregado; Especialista; Cidadão
(anônimo); A Senhora e o Senhor fulano (anônimo); Telespectador
Ampulheta; Coordenador; Entrevistador; Provocador; Professor
Concêntrica; Diametral; Policentrada
Visão frontal; Visão de acompanhamento; Visão
compósita; Visão do todo; Visão de revelação;
Visão capturada
Close; Aproximado; Médio; Americano; Conjunto; Geral
Sincronia com a palavra; Assincronia com a palavra; Sincronia com a situação; Sincronia com
o conteúdo dos propósitos
Interpelação; Injunção; Autorização; Aviso; Informação; Julgamento; Sugestão; Proposta; Interrogação; Petição
Tabela 4.1: Lista dos campos com vocabulário controlado para vídeos de gêneros
Debate e Entrevista - (SABINO, 2011).
59
apresenta a lista de valores do vocabulário controlado mapeados para os campos dos
gêneros Debate e Entrevista pela equipe de Estudos da Linguagem (SABINO, 2011),
incluindo alguns valores em Temática para Telejornal, baseando-se em (BRAIGHI,
2012; DAVID-SILVA, 2005; CHARAUDEAU; GHIGLIONE, 1997).
Para os vídeos do gênero Telejornal, foi implementado o metadado Estruturação
composto pelos elementos de encenação e formas de enunciação Vinheta, Chamada
de Matéria, Nota Pelada, Nota Coberta, Nota Pé, Entrevista e Reportagem. O campo
Estruturação é multivalorado, ou seja, ele armazena um ou mais valores desses elementos de forma estruturada, separados por ponto-e-vírgula: para cada elemento são
indexados os valores do seu nome identificador, do tempo de emissão no formato
00:00:00 e da temática a ele associada, separados por espaço em branco, tendo o
valor nulo para a temática do elemento Vinheta. O tempo de emissão refere-se ao
tempo que aquele elemento foi exibido no vídeo.
Na fase de indexação automática, o Matterhorn extrai as características gerais dos
vídeos, tais como a data do processamento ou indexação (CREATED) e a duração total (DURATION), armazenando-as nos arquivos de metadados XML, que possibilitam
a interoperabilidade do sistema, e no banco de índices. Em seguida, o módulo de
indexação aciona o processo de reconhecimento de voz por meio do SRV Julius (AKINOBU, 2011; SILVA et al., 2005). O Julius recebe como entrada o arquivo de áudio do
vídeo e um arquivo de configuração que indica os recursos do idioma utilizado.
Os recursos do idioma utilizado compreendem um dicionário fonético, um modelo
linguístico e um modelo acústico construídos pelo grupo de pesquisa FalaBrasil do
Laboratório de Processamento de Sinais (LaPS) da Universidade Federal do Pará. O
modelo acústico foi treinado com 15 horas e 41 minutos de áudio falado em idioma
português brasileiro utilizando-se curtas frases e diversos narradores, dentre homens
e mulheres, em diferentes sotaques regionais. Já o modelo de linguagem, do tipo
trigrama (previsibilidade de até três palavras conforme a função sintática da palavra
corrente), foi construído utilizando-se frases de seis corpora de voz, incluindo o CETENFolha (Folha de São Paulo), totalizando 1,6 milhões de frases, sobre um dicionário
fonético de 64.972 palavras e seus respectivos fonemas (SILVA et al., 2005). Vive-se
o problema de descasamento acústico ao se treinar um SRV utilizando um corpus de
voz sem ruído, uma vez que o sistema irá operar em um ambiente real, geralmente ruidoso. Para minimizar esse efeito, o Julius utiliza técnicas de adaptação de locutor, tais
como MLLR (Maximum Likelihood Linear Regression) e MAP (Maximum a Posteriori)
60
a fim de aumentar a exatidão do sistema (SILVA; NETO; KLAUTAU, 2009).
Sobre esses recursos, o sinal de áudio é processado e as palavras reconhecidas
são inseridas em um arquivo de saída. Ao final do processo, tem-se nesse arquivo a
respectiva transcrição do trecho de áudio falado, sendo então armazenados no banco
de dados multimídia com o status 0 de transcrição não indexada. Em seguida, o módulo de indexação aciona o Lucene para ler o conteúdo do arquivo de transcrição e
indexá-lo, alterando o status para 1. Esse tipo de controle permite à equipe de administração do sistema acompanhar o processo, bem como habilitar o campo de busca
reconhecimentoVoz, também incluído na interface de interação com o usuário, para o
serviço de consulta avançada. Para esse tipo de indexação, encontram-se na literatura
problemas graves referentes ao reconhecimento de palavras erradas, pois dicionários
muito grandes podem provocar colisões entre fonemas parecidos e o reconhecedor
pode escolher a palavra errada no mapeamento. Dessa forma, é mais viável trabalhar
com dicionários reduzidos, porém o processo de reconhecimento pode não contemplar alguns termos falados e retirar do Lucene palavras que deveriam ser indexadas.
O sistema de informação proposto é facilmente extensível, ficando a cargo do desenvolvedor apenas definir os nomes e os tipos (textual ou audiovisual) dos metadados
que se deseja realizar a indexação de arquivos multimídia. Com isso, basta declarar
essas informações no arquivo de configuração e na classe SolrFields do Apache Solr
que disponibiliza tais declarações para gerar os respectivos campos de indexação no
Apache Lucene. Para a gravação e a leitura dos dados indexados, basta adicionar
nas interfaces Web os comandos de leitura e impressão da linguagem HTML (do inglês, HyperText Markup Language), cujos identificadores textuais (campos ID) sejam
os mesmos nomes definidos no arquivo de configuração do Solr. Para implementar diferentes estratégias de indexação, recuperação, montagem de consultas e cálculos de
similaridade, o desenvolvedor deve utilizar os recursos da classe SolrIndexManager
(método addStandardDublincCoreFields) e da classe SolrRequester (métodos boost,
createSearchResult e getByQuery ), disponíveis no arcabouço Matterhorn.
O módulo de recuperação implementa, por meio do Lucene e do Solr, o modelo
vetorial (BAEZA-YATES; RIBEIRO-NETO, 1999), aplicando-se diferentes pesos sobre
os termos de busca para cada um dos campos de indexação. Para definir esses pesos
para cada metadado modelado, foi realizada uma pesquisa interna com 8 especialistas
da AD, participantes do projeto, por meio de um formulário contendo todos os respectivos campos de indexação. Para cada campo do formulário, existiam valores inteiros
61
entre 0 e 10 que deveriam ser marcados pelos respondentes, atribuindo uma nota
acerca da importância, para eles, de cada campo no momento da busca por vídeos.
Com isso, calculou-se a média aritmética para cada campo e o valor correspondente
foi atribuído como peso do metadado no módulo de recuperação.
Para o processamento de consultas pelo módulo de recuperação, os metadados
básicos, discursivos e baseado em conteúdo foram implementados com os seguintes
pesos, conforme apresentado na Tabela 4.2. O metadado Reconhecimento de Voz
teve seu peso de relevância baseado na confiabilidade de 36% sobre a taxa WER
(word error rate), cujo cálculo está apresentado na Seção 5.3 sobre o processamento
de áudio nos resultados experimentais.
Para o serviço de busca geral, todos os metadados implementados no módulo
de recuperação são submetidos aos termos da consulta informada pelo usuário, conforme os pesos definidos. Nesse trabalho, implementou-se no módulo de recuperação
a combinação das similaridades entre os grupos de metadados definidos no módulo
de gerência de dados para cada vídeo contemplado pela consulta. Cada grupo de
metadados retorna uma lista de vídeos contemplados com seus respectivos graus de
similaridade. Para cada vídeo, essas medidas de similaridade são combinadas por
meio de uma média ponderada entre as similaridades do mesmo nos grupos de meTipo de Metadado
Básicos
Discursivos
Baseado em Conteúdo
Nome do Metadado
Título (dc title)
Programa (series)
Apresentador (dc creator )
Data de Exibição (dc date)
Descrição ou Curta Sinopse (dc description)
Canal de Televisão (dc publisher )
Duração (dc extent)
Gênero
Temática
Estruturação (estruturaTelejornal)
Identidade dos Participantes
Gestão
Disposição dos Participantes
Planos Fílmicos
Eixos de Visão
Sequencialização
Modo Enunciativo
Reconhecimento de Voz
Peso
9.5
9.5
8.0
7.6
8.7
8.1
4.6
8.8
8.8
8.8
6.7
5.3
6.0
6.0
5.8
6.1
7.6
3.6
Tabela 4.2: Metadados textuais com os respectivos pesos na recuperação de vídeos.
4.4 Módulo de Geração de Gráficos Discursivos
62
tadados, obtendo-se a similaridade final do vídeo para aquela consulta. Para cada
vídeo analisado, pode-se obter a similaridade final e as similaridades parciais sobre
cada grupo de metadados (básicos, discursivos e de conteúdo) das seguintes formas:
Si (v) = ∑ (t f (t, v) ∗ id f (t)2 ∗ P(ci , v) ∗ norma(ci , v)) ∗ coord(q, v) ∗ norma(v),
(4.1)
t∈q
S f inal (v) =
∑3i=1 Si (v) ∗ Pi
,
3
(4.2)
em que:
v representa um determinado vídeo da base;
q representa uma determinada consulta;
t representa cada termo da consulta;
ci representa os campos do i-ésimo grupo para o cálculo de similaridade;
Pi é o valor do peso aplicado ao i-ésimo grupo.
Si retorna a similaridade do vídeo em relação ao i-ésimo grupo;
S f inal retorna a similaridade final do vídeo.
Os pesos de cada grupo de metadados foram definidos em testes experimentais
realizados nesse trabalho, descritos na Seção 5.4, combinando as medidas de precisão e revocação na avaliação de eficácia de diversas consultas e os valores medidos
na avaliação de eficiência da qualidade de resposta das consultas executadas.
O módulo de geração de gráficos discursivos é responsável por apresentar, na interface Web implementada, os gráficos montados conforme as opções selecionadas
63
pelo usuário, contendo informações suficientes e capazes de apoiar o pesquisador
na análise discursiva dos vídeos televisivos contemplados pela consulta obtida pela
composição dessas opções. As opções selecionadas possuem os identificadores dos
respectivos índices implementados no módulo de indexação e seus valores são aplicados sobre o módulo de recuperação na forma de consulta textual, retornando para
o módulo em questão somente os metadados dos vídeos contemplados, agregandoos e gerando os gráficos em conformidade com os conceitos da AD. Para algumas
modalidades de gráficos, retomando-se a retórica que se deseja descobrir sobre o
acervo digital indexado, os indicadores do módulo de avaliação do nível de interesse
dos vídeos também são plotados.
Para a geração dos gráficos discursivos, é necessário primeiramente selecionar
a opção referente ao gênero televisivo do grupo de vídeos que se deseja analisar.
Caso o usuário não forneça esse critério, o sistema realiza a consulta por todos os
gêneros, retornando assim os metadados de todos os vídeos da base, visto que todo
vídeo está associado obrigatoriamente a pelo menos um gênero. Para essa opção, os
únicos gráficos possíveis são aqueles relacionados ao capital temático sobre o tempo
de emissão, bem como da contabilização simples de temáticas por vídeos, podendo
ser agrupados pelos gêneros existentes ou pelos programas que representam.
Para a opção referente aos gêneros Debate e Entrevista, além dos gráficos acima,
é possível gerar gráficos sobre a identidade dos participantes, considerando-se o
tempo de emissão televisiva de cada programa ou o total de vídeos em que cada identidade social aparece. Como se trata do universo de dois gêneros, os dados do gráfico
podem ser agrupados por esse metadado, além do agrupamento por programas. Caso
o gênero Telejornal seja selecionado, o sistema de informação permite a geração de
gráficos sobre temáticas, tipos de matérias e emissão de imagens, utilizando-se para
esses dois últimos apenas os dados sobre o tempo de emissão dos vídeos, distribuído
para os elementos de encenação e enunciação indexados, pois a análise discursiva
de telejornais se interessa pelo capital e espaços enunciativos, obtidos pelo tempo
de emissão. Por ser um único gênero, as opções de agrupamento ficam restritas às
temáticas, tipos de matérias e programas (telejornais).
Outra opção disponível no processo de geração de gráficos é a análise de sumarizações por meio de curvas sobre o gráfico apresentado. Essas curvas indicam o
comportamento de alguma característica em comum entre as informações contempladas no gráfico ao longo do eixo de agrupamento, ou seja, valores de um metadado
64
ENTREVISTA
DEBATE
IDENTIDADE DOS
PARTICIPANTES
EMISSÃO DE
IMAGENS
TIPOS DE
MATÉRIAS
TIPOS DE
MATÉRIAS
TEMÁTICAS
De
ba
te
e
En
al
rn
tr
ev
i
jo
le
Te
st
a
TEMÁTICA
TELEJORNAL
GÊNEROS
PROGRAMAS
NÍVEL DE INTERESSE
NÚMERO DE ACESSOS
TEMPO ASSISTIDO
Gênero
Dados Principais
NÚMERO DE VÍDEOS
OU
TEMPO DE EXIBIÇÃO
Agrupamento
Curvas
Figura 4.6: Esquema para a geração de gráficos discursivos.
selecionado nessa opção são sumarizados por contagem absoluta ou por média aritmética, plotados para cada coluna referente a um metadado agrupado e, em seguida,
são interligados por meio de splines calculadas para a interpolação dos pontos de
comportamento entre as colunas. Os dois tipos de comportamentos modelados nesse
trabalho medem as ações dos usuários potenciais do sistema sobre os vídeos recuperados e a composição global do banco de dados multimídia. A Figura 4.6 apresenta
um esboço esquemático do módulo de geração de gráficos discursivos à medida que
as opções referentes aos metadados recuperados são selecionadas pelo usuário pesquisador e manipuladas pelo sistema, enfatizando que em cada combinação ou fluxo
representado tem-se a geração de um tipo de gráfico.
Os gráficos gerados a partir do número de vídeos na base são simples contadores
de dados que auxiliam na caracterização do acervo digital. Já os gráficos gerados
sobre o tempo de exibição dos vídeos contemplados permitem a análise gráfica sobre
a distribuição do tempo de emissão de elementos discursivos, auxiliam na caracterização da grade programática e subsidiam estudos sobre a retórica comunicativa da
sequência temática entre os programas, entre os blocos de um mesmo programa ou
dentro de um mesmo programa como ocorre em telejornais que podem comportar
diversas temáticas em um bloco de exibição.
65
Na interface Web implementada, em uma seção exclusiva para o módulo em questão, o usuário se depara com diversas opções para montagem de gráficos, porém são
inicialmente habilitadas apenas aquelas referentes ao gênero televisivo e à opção de
dados principais com uma única opção disponível: Temática. Para a geração de qualquer gráfico, é necessário que o usuário selecione ao menos uma opção para dados
principais, sendo então uma opção obrigatória. Quando uma opção para dados principais é selecionada, as opções referentes ao tipo de fluxo, dados de agrupamento e
restrição temporal são habilitadas. O tipo de fluxo corresponde à contabilização de
dados que se deseja utilizar na formação do gráfico: (i) sobre número de vídeos ou
(ii) sobre o tempo de exibição. Os dados de agrupamento são aqueles que formarão conjuntos com os dados principais, agrupando-os em colunas nos gráficos, ou
seja, tratam-se do nome das colunas e os dados principais serão seu conteúdo. Já a
restrição temporal é uma forma de selecionar os vídeos com data de exibição dentro
da faixa de tempo estabelecida pelo usuário. Enfim, quando o usuário seleciona algum dado de agrupamento, o sistema habilita as opções referentes à sumarização de
dados a serem representados por meio de curvas sobre o gráfico.
Ao selecionar os gêneros Debate e/ou Entrevista, o sistema de informação disponibiliza a opção Identidade dos Participantes no campo de dados principais, além
da opção Temática. Se o usuário optar por qualquer uma dessas opções, deixando
como Número de Vídeos na opção do tipo de fluxo, os gráficos gerados serão simples quantificadores gráficos sobre a número de vídeos distribuídos por temática ou
que possuem cada identidade social de participante com os respectivos agrupamentos e sumarizações de dados. Vale ressaltar que a única sumarização disponível para
a análise global da base de dados é o tempo de emissão, visto que não se justifica
sumarizar em curvas a mesma informação que é contabilizada nos outros elementos iconográficos. Essa prerrogativa é valida para o caso contrário, em que os dados
principais possuem o fluxo sobre o tempo de exibição e, dessa forma, a sumarização
de dados da base é feita somente sobre o número de vídeos. Sobre esse segundo
fluxo de dados, é possível gerar gráficos referentes ao capital temático e à emissão de
identidades sociais conferidas aos participantes.
Para o gênero Telejornal, o sistema de informação disponibiliza as opções Tipos
de Matérias e Emissão de Imagens no campo de dados principais, além da opção
Temática comum a todos os gêneros. Conforme informado no início dessa seção, os
gráficos para esse tipo de gênero suportam apenas o fluxo de dados sobre o tempo de
emissão. Os gráficos gerados sobre os Tipos de Matérias apoiam a análise discursiva
4.5 Módulo de Avaliação do Nível de Interesse
66
do capital enunciativo dos telejornais, contendo os elementos puramente informativos
Nota Pé, Nota Pelada, Nota Coberta, Entrevista e Reportagem. Esses elementos podem ser combinados com suas respectivas temáticas, sendo possível observar quais
as temáticas que são mais abordadas nos telejornais e, assim, sendo mais utilizada
como fonte de informação, bem como analisar o tempo de emissão que cada tipo de
elemento informativo possui dentro da programação do telejornal.
Os gráficos gerados sobre a Emissão de Imagens analisam os espaços enunciativos ou de encenação, sendo compostos pela apresentação do tempo de Vinheta,
tempos dos espaços interno e externo. Com esse tipo de gráficos e suas combinações, é possível analisar a distribuição do tempo de emissão das imagens do estúdio,
representadas pelas aparições dos apresentadores em Chamada de Matéria, Nota Pé,
Nota Pelada, Entrevista; e das imagens externas do cenário de estúdio como visto em
Reportagens e em Notas Cobertas que, mesmo contendo a narrativa do apresentador
do telejornal, possuem imagens de cenas externas exclusivamente. Já a geração de
gráficos sobre as temáticas que, por existir mais de uma temática na mesma exibição
de vídeos desse gênero, é possível plotar a sequência temática do telejornal e auxiliar
a análise discursiva sob um contexto mais específico como a análise dos níveis de
tensão das notícias (DAVID-SILVA, 2005).
Além de todas as combinações explicitadas, tem-se nas curvas de sumarização,
além da análise da composição global dos vídeos existentes no banco de dados multimídia, a possibilidade de analisar as ações do usuário sobre o acervo, dentre as
quais revelar o nível de interesse médio na recuperação de vídeos, número médio de
acessos que cada grupo de vídeos possui e o tempo médio assistido em relação ao
tempo de emissão total de cada gênero, programa ou temática. Com isso, é possível
analisar, além da intencionalidade comunicativa da grade programática, qual o efeito
da estratégia televisiva adotada sobre o público.
O módulo nebuloso para avaliação do nível de interesse na recuperação de vídeos
foi implementado com o modelo de inferência de Mamdani (MAMDANI, 1977). Este
modelo foi utilizado por permitir a simulação computacional da habilidade humana de
tomar decisões em ambientes com dados imprecisos, incertos e frequentemente ruidosos (MAMDANI, 1977). As regras de produção em um modelo de inferência de
67
Mamdani mapeiam conjuntos nebulosos tanto em seus antecedentes como em seus
consequentes, definindo-se a respectiva base de regras exclusivamente de forma linguística, sem a necessidade de dados numéricos de entrada e saída. Como os sistemas de inferência nebulosa são potencialmente capazes de expressar informações
qualitativas, os especialistas de domínio podem modelar o processo de tomada de
decisões de forma linguística (qualitativa) (LIRA et al., 2011).
Os metadados referentes aos indicadores de avaliação, ilustrados na Figura 4.3,
foram mapeados em partições de entrada com 3 termos primários cada. Os níveis
de interesse são representados em uma partição nebulosa de saída com 3 funções,
promovendo uma base de conhecimento com 25 regras de produção. O cálculo do
centro de massa do conjunto nebuloso de saída consiste na operação de conversão
nebuloso-escalar, gerando uma pontuação para os vídeos em uma escala de 0 a 100.
4.5.1 Partições Nebulosas de Entrada
A partição nebulosa de entrada para o indicador de quantidade de acessos foi
definida para a variável quantidade acessos com três termos primários: pouco acesso,
acesso medio e muito acesso. Por simplificação, a partição foi criada com três funções
triangulares para os respectivos termos. Conforme a Figura 4.7, definiu-se o universo
de discurso no intervalo [0,1] para obter o percentual de acessos sobre um vídeo em
relação ao número de acessos do vídeo mais acessado na base de dados e modelar,
de forma mais semântica, os vídeos que possuem poucos acessos, um número de
Figura 4.7: Diagrama da partição para a quantidade de acessos.
68
Figura 4.8: Diagrama da partição de entrada para o tempo assistido.
acessos médio ou muitos acessos.
Para a partição nebulosa referente ao tempo em que um vídeo é assistido, foi definida a variável tempo assistido com os termos primários pouco tempo, tempo medio e
muito tempo modeladas sobre três funções triangulares, como ilustrado na Figura 4.8.
Definiu-se o universo de discurso no intervalo normal de [0,1] para obter o percentual
do tempo médio assistido em um vídeo em relação a duração total do mesmo a fim
de identificar se o vídeo foi “mais ou menos” assistido até o final ou se foi interrompido
pelo usuário depois de pouco tempo de exibição.
Figura 4.9: Diagrama da partição para o número de dias sem ser visto.
69
Finalmente, a Figura 4.9 mostra a partição nebulosa que implementa a quantidade
de dias da última visualização do vídeo, definida para a variável dias sem ser visto
com os termos primários pouco, medio e muito modelados sobre três funções triangulares posicionadas em um universo de discurso no intervalo [0,10], pois, diferente das
outras partições que tratam dados percentuais, essa partição trabalha com o valor real
máximo de 10 dias desde a última exibição do vídeo para considerar o processamento,
ou seja, após 10 dias a partição considera que o vídeo não é visto há muito tempo,
impactando no processo de inferência sobre seu grau de interesse nas pesquisas.
A quantidade de acessos (Q) de um vídeo é calculado pelo somatório de todas as
vezes que o vídeo foi visualizado, ou seja, é a contagem de todas as visualizações
do vídeo registradas na base em relação ao vídeo mais acessado. O valor percentual
referente à quantidade de acessos de um vídeo é dado por:
Q=
n
,
N
(4.3)
em que:
n é o número de acessos que o vídeo teve;
N é o número total de acessos do vídeo mais acessado.
O indicador referente ao tempo médio assistido (Tmedio ) é calculado por:
1
Tmedio =
nT
n
∑ ti,
(4.4)
i=1
em que:
ti é a duração do tempo assistido no acesso i;
T é o tempo de duração total do vídeo.
Enfim, para a terceira variável de entrada, a quantidade de dias (D) que o vídeo
não é visualizado é dada pelo número de dias entre a data atual e a data da última
visualização do vídeo registrada na base.
70
4.5.2 Partição Nebulosa de Saída
A partição nebulosa de saída do módulo de avaliação de vídeos foi modelada para
processar o nível de interesse na recuperação de vídeos no sistema. A partição, nomeada por nivel interesse (NI), possui as três variáveis linguísticas pouco interessante,
interessante e muito interessante descritas, respectivamente, em uma função sigmoidal com ganho de −0, 25 e centro em x = 20; uma função gaussiana com média em
x = 50 e desvio padrão de 15; e outra função sigmóide com ganho de 0, 25 e centro em
x = 80. A etapa de defuzzyficação utiliza o cálculo do centro de gravidade da região
formada pelos coeficientes de disparo das regras sobre a partição de saída.
No processo de implementação dessa partição, optou-se pelas funções definidas
acima, mais complexas que aquelas descritas para as partições de entrada, a fim de
se obter transições de valores de saída mais suaves entre os níveis de interesse, pois
essa partição possui um nível de abstração e semântica maior para o usuário do que
aquelas definidas para os valores de entrada do processo de avaliação. O suporte
numérico para o universo de discurso foi definido sobre o intervalo [0,100], pois o
número real resultante do processo de conversão nebuloso-escalar corresponde ao
valor percentual do nível de interesse do vídeo para o usuário e esse valor é usado
diretamente pela aplicação.
A Figura 4.10 ilustra os elementos da partição criada para modelar os níveis de in-
Figura 4.10: Diagrama da partição de saída nebulosa para o Nível de Interesse.
71
teresse pelos termos primários pouco interessante, interessante e muito interessante.
Os valores de saída obtidos pelo processamento nebuloso não são armazenados no
banco de dados, pois a avaliação é realizada em tempo real a partir dos dados de
entrada existentes no repositório.
4.5.3 Base de Conhecimento Nebulosa
Depois de definidas as partições nebulosas do módulo de avaliação, tem-se a
construção da base de conhecimento conforme o modelo de inferência de Mamdani
que mapeia os conjuntos de valores das variáveis de entrada para um conjunto de
valores da variável de saída por meio de regras de produção nebulosas. A Tabela
4.3 apresenta a base das regras nebulosas implementada para esse trabalho, relacionando as variáveis nebulosas de entrada para a obtenção do nível de interesse.
Q
Pouco Acesso
Pouco Acesso
Pouco Acesso
Pouco Acesso
Pouco Acesso
Pouco Acesso
Pouco Acesso
Acesso Médio
Acesso Médio
Acesso Médio
Acesso Médio
Acesso Médio
Acesso Médio
Acesso Médio
Acesso Médio
Acesso Médio
Muito Acesso
Muito Acesso
Muito Acesso
Muito Acesso
Muito Acesso
Muito Acesso
Muito Acesso
Muito Acesso
Muito Acesso
Tmedio
Pouco Tempo
Tempo Médio
Tempo Médio
Tempo Médio
Muito Tempo
Muito Tempo
Muito Tempo
Pouco Tempo
Pouco Tempo
Pouco Tempo
Tempo Médio
Tempo Médio
Tempo Médio
Muito Tempo
Muito Tempo
Muito Tempo
Pouco Tempo
Pouco Tempo
Pouco Tempo
Tempo Médio
Tempo Médio
Tempo Médio
Muito Tempo
Muito Tempo
Muito Tempo
D
Pouco
Médio
Muito
Pouco
Médio
Muito
Pouco
Médio
Muito
Pouco
Médio
Muito
Pouco
Médio
Muito
Pouco
Médio
Muito
Pouco
Médio
Muito
Pouco
Médio
Muito
Q ∧ Tmedio ∧ D → NI
Pouco Interessante
Interessante
Pouco Interessante
Pouco Interessante
Interessante
Interessante
Pouco Interessante
Interessante
Pouco Interessante
Pouco Interessante
Interessante
Interessante
Pouco Interessante
Muito Interessante
Interessante
Interessante
Interessante
Interessante
Pouco Interessante
Muito Interessante
Interessante
Interessante
Muito Interessante
Muito Interessante
Interessante
Tabela 4.3: Tabela de regras nebulosas do sistema.
4.6 Módulo de Interação com o Usuário
72
Inicialmente, todos os termos primários das partições de entrada quantidade acessos,
tempo assistido e dias sem ser visto foram combinados com as variáveis linguísticas
da partição nebulosa de saída nivel interesse a fim de se mapear todas as situações
possíveis. Em seguida, a base de conhecimento foi analisada, gerando 25 regras de
produção nebulosas, pois decidiu-se que vídeos que possuem pouco acesso e são
assistidos por pouco tempo quando acionados são considerados pouco interessantes,
independente da quantidade de dias em que os mesmos não são vistos, mesmo em
visualizações recentes. O seguinte exemplo mostra tal regra gerada na base de conhecimento, substituindo outras 3 que utilizavam a variável dias sem ser visto como
antecedente. As outras 24 regras possuem, devidamente, todos os antecedentes:
RULE 1 : IF quantidade acessos IS pouco acesso AND tempo assistido IS
pouco tempo
THEN nivel interesse IS pouco interessante
A máquina de inferência implementada pela biblioteca jFuzzyLogic processa as
regras existentes no base de conhecimento e gera um conjunto nebuloso, a partir da
composição de todas as regras disparadas. Sobre esse conjunto de saída nebuloso,
é calculado o centro de gravidade, gerando um valor entre 0 e 100 para pontuar o
percentual de interesse do vídeo avaliado.
O módulo de avaliação utiliza a inferência Máx-Min para empregar a propriedade
semântica empregada no processamento de inferência dos níveis de interesse, ou
seja, aplica as operações de união e interseção entre os conjuntos nebulosos gerados
pelas regras, por meio dos operadores de máximo e de mínimo, respectivamente.
Durante a execução da fase de testes, a biblioteca de lógica nebulosa utilizada
mostrou-se bastante eficiente no que se refere ao tempo de processamento, permitindo ao módulo de avaliação ser executado paralelamente à recuperação de vídeos,
sem prejudicar as pesquisas dos usuários.
O módulo de interação com o usuário consiste de uma interface Web onde os
usuários formulam suas consultas e selecionam serviços, bem como podem visualizar
os resultados desses procedimentos. A implementação deste módulo considera as
73
modalidades de consultas que podem ser utilizadas por um sistema de recuperação
de vídeos, incluindo a visualização dos serviços de geração de gráficos discursivos
que utiliza o sistema de recuperação e as respectivas notas de avaliação do nível de
interesse dos vídeos recuperados. Sobre as modalidade de consulta, a maioria dos
sistemas atuais baseiam-se nas seguintes modalidades, a saber:
• Palavras-chave: o usuário realiza a consulta fornecendo algumas poucas palavras consecutivas ao sistema. Esta modalidade é mais popular atualmente;
• Texto livre: o usuário realiza a consulta a partir da construção de uma frase complexa, uma pergunta ou uma breve descrição. Processar um texto livre requer a
análise das palavras do texto (Parsing) e a compreensão da consulta como um
todo. Técnicas de processamento de linguagem natural podem ser utilizadas;
• Imagem: o usuário realiza a consulta fornecendo ao sistema de busca uma imagem de exemplo ou uma figura gerada no computador;
• Consulta Composta: o usuário realiza a consulta fornecendo ao sistema combinações das informações fornecidas nas modalidades anteriores.
Naturalmente, para cada modalidade de consulta utilizada, são necessárias técnicas específicas de processamento e recuperação de informação. Para o sistema
proposto, é utilizada a modalidade de palavras-chave em que o usuário digita uma ou
mais palavras para a realização da consulta. Não somente a forma de pesquisa geral
é possível, pois o usuário pode escolher por qual campo de interesse que ele deseja
realizar a consulta. Como o sistema é voltado para o público de pesquisadores, dentre eles jornalistas e demais acadêmicos, diversos campos foram mapeados por meio
de métodos de Análise do Discurso, aumentando o tipo de informação de interesse
para esse tipo de público. Como a interface e o módulo de recuperação são diretamente ligados ao banco de índices pelo arcabouço de vídeos, além do valor relativo e
subjetivo da informação ter maior cobertura, o processo de busca e visualização dos
respectivos vídeos mostra-se eficiente.
Além da eficiência, dada pela relevância entre os vídeos contemplados por uma
consulta e como estes estão distribuídos na lista de vídeos recuperados, o sistema
pode oferecer uma forma para tornar as consultas mais eficazes, retornando os vídeos que os usuários realmente querem. Esse tipo de problema, chamado de GAP
semântico, relacionado com os conflitos do mapeamento entre o modelo mental do
74
usuário e o modelo computacional da tarefa a qual se pretende fazer, pode ser tratado com alguma técnica que aplique maior cobertura da informação ou que suporte
o apoio do próprio usuário, como na realimentação de relevância. Para o sistema de
informação proposto, pretende-se estudar técnicas robustas para esse tipo de abordagem. Dessa forma, em sua versão atual, a busca textual é baseada na cobertura
dada pelos campos controlados incluídos.
O sistema de informação proposto possui duas interfaces Web para interagir com
os usuários, em especial os indexadores e pesquisadores.
A primeira interface Web refere-se à administração multimídia do sistema que permite aos usuários documentalistas (indexadores) gerenciar a entrada de vídeos por
meio de indexação manual, bem como acompanhar o processamento dos vídeos
nas etapas de segmentação (extração de frames) e reconhecimento de voz em sinais de áudio. Esta interface disponibiliza opções sobre as quais um serviço de autoarquivamento pode ser implementado utilizando-se o arcabouço Matterhorn, bastando
definir os papéis dos tipos de usuários do sistema. Este serviço não é objeto de estudo desta dissertação e, dessa forma, é citado como uma perspectiva futura a ser
implementada no sistema de informação proposto.
A Figura 4.11 ilustra a interface de administração multimídia descrita, apresentando os logotipos do projeto de pesquisa CAPTE do qual esse trabalho faz parte e
do laboratório onde o sistema está alocado (PIIM-Lab); uma área de digitação que receberá as palavras-chave informadas pelo usuário indexador, incluindo um recurso de
Figura 4.11: Interface de Administração Multimídia.
75
seleção dos campos de interesse; botões de acesso às funcionalidades de indexação
manual por meio de um formulário (Upload de Vídeos) e agendamento de gravações;
e uma lista de vídeos ordenados em ordem cronológica de processamento (metadado básico Data de Indexação). Na seção de metadados discursivos do formulário
implementado, o sistema disponibiliza, inicialmente, os campos para o Gênero e Planos Fílmicos, metadados comuns a todos os gêneros. Os metadados específicos são
acionados conforme o gênero marcado.
Ao acessar o formulário de indexação, o usuário documentalista pode fornecer os
dados de um vídeo a ser indexado. Os campos referentes aos metadados básicos permitem livre digitação por parte do usuário. Já os campos dos metadados discursivos
possuem opções pré-estabelecidas a serem marcadas pelo documentalista. Estas
opções foram implementadas conforme os valores do vocabulário controlado definido
no módulo de indexação. A Figura 4.12 apresenta um recorte do formulário, mostrando as seções para os metadados básicos principais e os metadados discursivos
referentes à Estruturação de um vídeo de gênero Telejornal, ou seja, o usuário documentalista marcou o gênero Telejornal e, dessa forma, os respectivos metadados
discursivos foram acionados, conforme implementado no módulo de indexação.
Figura 4.12: Recorte do formulário com os dados de uma exibição do Jornal Minas.
76
Finalmente, um último aspecto a ser considerado relaciona-se com a forma de
apresentação dos resultados da pesquisa realizada e das opções selecionadas na
montagem dos gráficos. Certamente, além de impactar no desenvolvimento das técnicas de recuperação de informação, este aspecto é determinante para a aceitação do
sistema. Pode-se destacar cinco modos principais:
• Ordem de relevância: neste caso, os resultados são ordenados de acordo com
uma medida numérica de relevância para a consulta;
• Ordem cronológica: modo utilizado, por exemplo, pelo sistema Picasa da Google
que é aplicado para localização, edição e compartilhamento de fotos;
• Agrupamentos: modos de agrupamentos de imagens por metadados ou conteúdos visuais têm sido pesquisados intensamente nos últimos anos. Estes modos
representam maneiras intuitivas de apresentação de resultados de pesquisa;
• Hierárquico: este modo de visualização dos resultados é desejável para o gerenciamento de conjuntos de arquivos, especialmente com propósitos educacionais;
• Modo composto: composição de duas ou mais formas dos modos anteriores.
A segunda interface Web do sistema exibe inicialmente os vídeos da base de dados ordenados de forma decrescente por relevância, tendo-se como medida numérica
de relevância a similaridade dos termos informados pelo usuário em cada vídeo contemplado, conforme a combinação dos pesos dos grupos de metadados onde esses
Figura 4.13: Interface de Exibição de Vídeos.
77
termos foram encontrados. A interface possibilita o usuário escolher outras formas de
ordenação dos vídeos recuperados, além da ordenação por relevância, como a ordenação por data de exibição, data de processamento, gênero e temática. A Figura 4.13
ilustra essa interface de exibição de vídeos que apresenta o logotipo do projeto de pesquisa CAPTE; o logotipo do laboratório onde o mesmo está alocado (PIIM-Lab); um
menu mais ao topo, em azul, para informações do projeto; um menu de guias do lado
direito, contendo os serviços disponibilizados pelo sistema; e os vídeos de resposta
ordenados do lado esquerdo (Galeria de Vídeos).
No menu de guias referentes aos serviços implementados para o sistema proposto, tem-se, na ordem apresentada pela interface da Figura 4.13, o serviço de busca
geral, de busca avançada, de indexação e de geração de gráficos. Clicando-se na
guia Busca Geral, o usuário tem acesso ao respectivo serviço, contendo um campo
de pesquisa que receberá as palavras-chave digitadas pelo usuário e aplicando tais
palavras (consulta) a todos os metadados textuais implementados no sistema por meio
do módulo de recuperação de vídeos. Acionando a guia Busca Avançada, o sistema
disponibiliza uma tela contendo os campos dos metadados de forma explícita, permitindo ao usuário escolher por quais metadados ele deseja realizar sua pesquisa. O
módulo de recuperação será aplicado somente aos metadados dos campos utilizados
e seus respectivos pesos. A guia Indexação simplesmente disponibiliza a interface do
formulário de indexação (ver Figura 4.12) que pode ser acessado tanto na interface de
administração multimídia quanto nessa interface de exibição, caso o usuário seja um
documentalista. Já a guia Gráficos do menu de serviços disponibiliza a tela para geração de gráficos discursivos, conforme as opções e os comportamentos de usabilidade
informados na Seção 4.4. Todas as telas informadas para as guias de serviços estão
disponíveis no anexo C desta dissertação.
78
5
Resultados Experimentais
Este capítulo apresenta os experimentos realizados com o sistema de informação
multimídia implementado e discute os principais resultados obtidos, visando demonstrar e avaliar a eficácia, a eficiência e a escalabilidade do sistema. Para isso, foram
realizados roteiros de experimentos que utilizaram alguns grupos de vídeos da base
de dados multimídia, especificados para cada experimento, em um ambiente computacional composto por: uma máquina servidora com processador Xeon W3565 de 3.2
GHz sobre 8 núcleos, 6 GB de memória RAM e 2 TB de disco rígido; e três servidores
virtuais gerenciados por essa máquina, cada um contendo 30 GB de disco rígido, 1 GB
de memória RAM para o servidor de administração, 1 GB para o servidor de exibição
de vídeos e 4 GB para o servidor de processamento do componente Composer.
Os resultados experimentais apresentados são analisados em cinco momentos: (i)
discussão sobre os resultados de uma pesquisa de opinião que motivou a realização
deste trabalho; (ii) análise sobre os gráficos discursivos gerados no respectivo módulo;
(iii) testes de reconhecimento de voz e análise das taxas de erro para definição de pesos; (iv) testes de recuperação de vídeos e análise da eficácia e eficiência do sistema;
(v) e testes de avaliação do nível de interesse na recuperação de vídeos.
5.1 Pesquisa de Perfil dos Usuários
No período compreendido entre 04 de Fevereiro e 18 de Abril de 2011, foi disponibilizado um formulário no sítio web do Laboratório de Pesquisas Interdisciplinares
em Informação Multimídia (Piim-Lab), onde o sistema é desenvolvido, contendo 14
questões abertas e 20 questões fechadas, distribuídas em 3 sessões. Este formulário (disponibilizado no anexo A) foi preenchido por 108 pessoas, dentre profissionais,
estudantes e pesquisadores de diversas áreas de todo o país. Dentre essas pessoas,
95% possuem curso superior completo, incluindo 35% de mestres e doutores, e 60%
79
Figura 5.1: Gráfico sobre os propósitos de pesquisa.
atuam nas áreas da Comunicação e Linguística em diferentes empresas e instituições
acadêmicas. O objetivo da pesquisa foi identificar o público-alvo que poderia se beneficiar com a disponibilização de um sistema de informação para armazenamento e
recuperação de vídeos que auxilie na análise quantitativa do capital televisivo por meio
do levantamento e descrição de gráficos fornecidos pelo sistema.
Na primeira sessão do questionário, os participantes foram questionados sobre os
respectivos hábitos de pesquisa. A Figura 5.1 apresenta que 75% dos participantes
costumam pesquisar vídeos televisivos com propósitos acadêmicos, ainda que os fins
pessoais e profissionais também tenham sido assinalados.
A Internet foi apontada por 94% dos pesquisadores como a principal fonte de aquisição de material, seguido das gravações próprias e apoio de amigos (com 35% cada),
como ilustrado na Figura 5.2. A consulta direta aos acervos públicos constitui apenas
20% da amostra. Não obstante, metade dos entrevistados demonstrou que, frequentemente, têm dificuldades em reunir o material desejado.
Figura 5.2: Gráfico sobre a principal fonte de acesso ao material televisivo.
80
No ambiente da Internet, o site Youtube foi assinalado por quase a totalidade
dos participantes como a principal fonte de pesquisa, seguido de outros sistemas de
busca, tais como o Google e os sites das emissoras que exibiram o material. Ainda
que seja considerada como muito importante para os entrevistados, a variedade de
vídeos televisivos encontrados atualmente nos sites é reduzida (44% das respostas),
visto que o Youtube e o Google não realizam uma indexação criteriosa dos vídeos
armazenados. No caso dos sites das emissoras, não existe a preocupação em disponibilizar o acervo de sua produção midiática de forma digital, bem como em seus
respectivos CEDOCs (DAVID-SILVA, 2006).
Questões inerentes ao acesso à gráficos televisivos foram abordadas no formulário
e mereceram destaque para esse trabalho. Os respondentes demostraram interesse
por uma ferramenta capaz de os auxiliar em suas pesquisas sobre o universo midiático
por meio de gráficos referentes à programação em análise, considerando-se determinados elementos em exibição a serem representados quantitativamente.
Para captar quais seriam esses elementos informativos em que os respondentes
mais se interessavam, algumas questões abertas, como descrito no início dessa seção, foram intercaladas com as questões fechadas. A questão 20.1 (ver Anexo A), por
exemplo, permitiu que os participantes respondessem quais informações deveriam ser
fornecidas pelos gráficos gerados, identificando-se assim uma considerável incidência
de sugestões relacionadas com a frequência de temáticas, identidade dos participantes, se os telespectadores assistiram ao programa, os capitais verbal e visual, dentre
Em textos,
com ampla
descrição [25]
Em textos,
objetivos
Figura 5.3: Importância do levantamento de gráficos televisivos.
81
Figura 5.4: Gráfico sobre a qualidade dos vídeos disponíveis.
outros. A Figura 5.3 ilustra a importância do levantamento e da descrição de gráficos
para 69% dos participantes que consideram importante esse tipo de apoio em suas
pesquisas. Além disso, as outras informações indicadas tiveram a atenção de 71%
dos pesquisadores para que sejam apresentadas na forma de gráficos e na forma de
textos objetivos como em uma interface de busca.
A qualidade de vídeos televisivos foi uma das questões abordadas na pesquisa e,
por meio de algumas respostas dissertativas e outras objetivas acerca deste aspecto,
observou-se que aproximadamente 80% dos respondentes disseram que a qualidade
dos vídeos é muito importante para as demandas de pesquisa e trabalho. Contudo,
apenas 10% dos entrevistados disse que a qualidade dos vídeos nos sites é muito
boa, sendo que ninguém a assinalou como excelente (ver Figura 5.4).
Outro aspecto levantado pela pesquisa foi a criação de um banco de dados multimídia, constituído por arquivos de vídeos televisivos. Nesse caso, 94% dos entrevistados afirmaram que a implementação desse recurso em um sistema de informação
facilitaria os trabalhos de pesquisa, como ilustrado na Figura 5.5.
Figura 5.5: Gráfico sobre a necessidade de um banco de dados multimídia.
5.2 Análise de Gráficos Discursivos
82
Figura 5.6: Gráfico sobre a necessidade de uma ferramenta de análise.
A segunda sessão do questionário arguiu os profissionais sobre as funcionalidades
de busca que o sistema deveria oferecer. Dentre os critérios de busca informados,
destacam-se a pesquisa por título do programa, por temáticas, data e hora da exibição,
resumo do programa, tipo de cenas, descrição do cenário e planos fílmicos. Opções
mais sofisticadas como busca utilizando-se imagens também foram indicadas.
Além do serviço de recuperação de vídeos, a Figura 5.6 mostra a necessidade,
apontada por cerca de 94% dos pesquisadores, da implementação de uma ferramenta
para análise quantitativa e automática do conteúdo dos vídeos, incluindo análise do
áudio no reconhecimento de voz e das imagens (frames). Vale informar que não foi
realizado cálculo amostral para esta pesquisa, uma vez que ela não tem como objetivo
comparar ou apresentar índices rigorosos de opinião, mas apenas o levantamento de
percentuais de opiniões dos pesquisadores visando a identificação de um perfil prévio
de usuário e a estruturação das funcionalidades iniciais necessários para um sistema
de informação multimídia para apoio à análise discursiva de vídeos televisivos.
Para analisar os gráficos discursivos gerados pelo sistema de informação proposto,
foram definidos três grupos principais, especificamente: (i) gráficos de contagem temática e capital temático; (ii) gráficos de identidade dos participantes; e (iii) gráficos de
análise dos espaços enunciativos. Cada um desses grupos contém dezenas de gráficos possíveis, de modo que serão selecionadas apenas algumas de suas amostras
principais para se analisar seus conteúdos e objetivos informacionais nas subseções
que se seguem.
83
O primeiro grupo diz respeito aos gráficos sobre as temáticas, incluindo a análise
de capital temático e suas variações no cruzamento de dados pré-estabelecidos no
sistema. O segundo grupo refere-se às composições de dados sobre as identidades
dos participantes nos gêneros televisivos Debate e Entrevista. O último grupo de
gráficos engloba todos os tipos de dados relevantes que podem ser levantados sobre
vídeos de gênero Telejornal.
5.2.1 Contagem Temática e o Capital Temático
Como informado na Seção 4.4 do capítulo anterior, o módulo de geração de gráficos discursivos disponibiliza para o usuário, depois que ele escolhe sobre qual dado
principal deseja o gráfico, as opções de fluxo de dados sobre número de vídeos ou
tempo de exibição. Em relação ao tempo de exibição, que promove os capitais televisivos, no caso o capital temático, existem diversos estudos linguísticos que se fundamentam na AD para analisar o uso de alguma estratégia comunicativa por parte de
um programa ou da própria emissora para se descobrir o motivo de um determinado
tema ficar mais tempo ou menos tempo no ar.
Embora parecidos visualmente, os gráficos de temáticas possuem significados diferentes sobre fluxos diferentes. Quando os gráficos quantificam as temáticas em
relação ao número de vídeos da base, como mostrado na Figura 5.7 , tem-se a aná-
Figura 5.7: Gráfico sobre a distribuição de temáticas do acervo.
84
Figura 5.8: Capital temático do acervo televisivo.
lise da caracterização do acervo; no caso, o sistema possui mais vídeos sobre Vida
dos artistas, sendo 18,48% do total. Já os gráficos de temáticas baseadas no tempo
de emissão correspondem ao capital temático da emissora e, dessa forma, ilustram
a caracterização da grade programática, como na Figura 5.8 em que programas de
temática Atualidade política (22,75%) ficaram mais tempo no ar.
Ao analisar os dois gráficos, percebe-se, por exemplo, que a temática Cotidiano
teve uma abordagem considerável em relação ao número de vídeos em que foi tratada, porém com pouco tempo transmitido no período coletado. No segundo gráfico
(ver Figura 5.8), as temáticas mais abordadas nos programas televisivos analisados
foram Atualidade Política (22,75%) e Vida dos Artistas (18,72%), seguidos das temáticas Leis (10,97%), Discriminação (9,47%) e Violência urbana (8,17%). Apesar da
concentração de 70,08% do tempo de emissão, nota-se grande variedade temática.
No processo de composição de dados, pode-se agrupar as temáticas em programas, gêneros ou em tipos de matérias (para vídeos do gênero Telejornal). Sobre as
temáticas agrupadas em termos dos gêneros, é possível analisar o tipo de enfoque informativo em que um determinado tema está sendo predominantemente empregado,
ou seja, quais as características que envolvem uma temática para que ela seja mais
explorada em ambientes de debates, onde os aspectos polêmicos serão exaltados na
luta pela palavra por parte dos participantes; ou se a busca de conhecimento sobre
a temática é mais importante, sendo mais apropriado o ambiente de entrevista em
85
Figura 5.9: Capital temático dos gêneros informativos.
que há interiorização da palavra por um especialista que “deve saber” sobre o assunto, bem como no ambiente telejornalístico para noticiar sobre o tema. A Figura 5.9
apresenta o agrupamento de temáticas por gêneros, percebendo-se a grande quantidade de tempo exibido para as temáticas Atualidade política em ambos os gêneros,
considerando-se a proporcionalidade de cada um na base de dados, e Vida dos artistas nos programas de debate, o que pode ser atribuído ao caráter cultural e educativo
da emissora de televisão Rede Minas, integrada à política da Secretaria da Cultura de
Minas Gerais, mostrando-se atuante na divulgação das obras e trabalhos artísticos,
bem como presente nos eventos e fatos ligados à situação política do estado.
Em relação ao fluxo do montante de vídeos da base para programas dos gêneros
Debate e Entrevista, o programa Roda Viva, de gênero híbrido, concentrou 9 exibições
das 12 disponíveis para a temática Atualidade política, e o programa de entrevista Conexão Roberto D’Ávila apresentou 15 dentre os 17 vídeos sobre Vida dos artistas,
conforme a Figura 5.10. Essa temática mergulha os telespectadores no universo íntimo da trajetória de vida pessoal e acadêmica dos entrevistados (CHARAUDEAU;
GHIGLIONE, 1997), como no caso dos vídeos existentes.
Observa-se em programas de gênero Debate uma seleção de temáticas heterogêneas, que abarca um universo diversificado, como apresentado pelos 25 vídeos dos
programas Brasil das Gerais e Roda Viva. Em especial, o programa Roda Viva exibe
o caráter de debate na maneira como são expostas as discussões dos temas, porém
86
Figura 5.10: Capital temático dos programas de Debate e Entrevista.
trata de temas que também necessitam de informação em um formato de entrevista,
sendo dessa forma caracterizado como gênero híbrido de Debate e Entrevista (SABINO, 2011). A atualidade política trata de debater política e “mergulha o telespectador no universo dos valores da «cidadania» e visa a um efeito de «responsabilização»”
(CHARAUDEAU; GHIGLIONE, 1997). As figuras representativas de Márcia Cavallari
e José Dirceu, entrevistados em exibições sob essa temática, constroem por meio de
seus discursos uma imagem de si (ethos) que está atrelada à credibilidade.
Na geração extensiva de gráficos discursivos, pode-se selecionar todos os componentes disponíveis na respectiva interface e permitir a análise de dados compostos
como pode ser visto no gráfico da Figura 5.11. Esta figura ilustra o tempo total de
emissão de todas as temáticas indexadas na base, empilhadas por gêneros, para se
analisar a uniformidade da distribuição das mesmas. Adicionalmente, tem-se a sumarização do número de vídeos por temática e dos dados referentes ao comportamento
dos usuários sobre o nível de interesse na recuperação de tais vídeos. Alguns vídeos
estão com nível de interesse praticamente nulo em razão dos testes de avaliação dos
níveis de interesse de vídeos realizados na Seção 5.5 que descreve a criação de dois
grupos de vídeos para os testes, em que um dos grupos foram acessados constantemente e o outro grupo foi ignorado, analisando-se dessa forma, respectivamente, a
evolução positiva e negativa dos grupos.
87
Figura 5.11: Agrupamento de temáticas em gêneros com curvas de sumarização.
5.2.2 Identidade dos Participantes
Na análise de gráficos sobre a identidade dos participantes nos programas de
gêneros Debate e Entrevista, dentre as dez identidades psicossociais modeladas no
módulo de indexação, seis foram referenciadas pelos vídeos televisivos armazenados
no banco de dados multimídia atual e acionadas pelo módulo de geração de gráficos discursivos sobre o fluxo da contagem de vídeos ou sobre o tempo de exibição
Figura 5.12: Identidade dos participantes nos programas de Debate e Entrevista.
88
de tais identidades. O gráfico discursivo da Figura 5.12 ilustra todo o tempo de aparição dos participantes que representam tais identidades nos programas analisados,
destacando a identidade Especialista presente em 33,58% do tempo, visto que os vídeos são de gêneros informativos e, dessa forma, existe a tendência de que algum
especialista sobre o assunto seja convidado a participar daquela exibição. Percebe-se
também a presença de escritores e jornalistas em 44,16% do tempo nos programas.
Conforme descrito no Capítulo 3, os participantes foram considerados sob o aspecto sócio-profissional e a presença dos mesmos em programas informativos nos “dá
uma ideia de como será tratado o tema, na medida em que são eles próprios representantes do espaço público” (CHARAUDEAU; GHIGLIONE, 1997). Dessa forma, além
de combinar dados de gêneros e de programas, pode-se agrupar esses metadados
em temáticas afim de se analisar como os temas foram tratados pelos programas, ou
seja, para cada grupo de temática abordada, tem-se as informações do tempo emitido
para cada identidade ou em quantos programas, ou blocos de programas, que tais
identidades aparecem para uma determinada temática.
Considerando essa abordagem, a Figura 5.13 ilustra essa distribuição, percebendose a identidade Especialista atuante na maioria das temáticas existentes, ou seja, os
participantes com essa identidade não somente têm sua contribuição transmitida por
mais tempo pela emissora como também aparecem na maioria dos temas levantados.
Em especial, tem-se a temática Atualidade política muito bem representada, consi-
Figura 5.13: Agrupamento das identidade de participantes em temáticas.
89
derando o universo midiático: a instância representativa do político, os jornalistas e
escritores que se promovem em muitos casos como críticos e formadores de opinião
sobre as questões acerca dessa temática, e, principalmente, os especialistas políticos,
das áreas do Direito Administrativo, da Gestão Pública, da Ciência Política, dentre outros, que possuem a função de validar, ter a palavra de conhecimento e, então, de
informar o telespectador sobre o tema.
Agrupando os dados de Identidade dos Participantes em programas que, para
essa base de dados, correspondem aos programas Conexão Roberto D’Ávila e Rede
Mídia (gênero Debate), Rede Mídia (gênero Entrevista) e Roda Viva (gênero híbrido),
percebe-se que a identidade Especialista aparece, sob proporções diferentes de tempos, em todos os programas (ver Figura 5.14). O programa Brasil das Gerais possui a
maior concentração de especialistas e isso pode ser inferido pelo fato do referido programa exibir maior variedade de temáticas, convidando para o debate mais especialistas e estes de diversas áreas. O programa Roda Viva tem um caráter mais político e
comporta as identidades de participantes inerentes à respectiva temática, como podese observar no gráfico anterior. Ao analisar as curvas, percebe-se que a identidade
Especialista está presente, como informado anteriormente, em boa parte do tempo de
emissão, em quase todas as temáticas e, também, em considerável quantidade de vídeos da base. A curva que sumariza o nível de interesse médio por cada participante
demonstra que os vídeos em que ocorrem especialistas obtêm maior interesse por
parte do usuário.
Figura 5.14: Agrupamento das identidade de participantes em programas.
90
5.2.3 Análise dos Espaços Enunciativos
Nesta seção, são apresentados os gráficos discursivos dos vídeos televisivos de
gênero Telejornal, tendo-se a análise do capital temático telejornalístico, o gráfico obtido do cruzamento de dados entre esses temas e os tipos de matérias identificados,
e a distribuição do tempo dos tipos de matérias e da emissão de imagens na composição dos espaços enunciativos desse tipo de programa informativo.
Os programas de gênero Telejornal se atentam aos acontecimentos que podem se
tornar notícias e, sob essa limitação para o tipo de informação a ser transmitida, a captação telejornalística procede-se a escolher domínios de experiência representativos
do espaço público. Sobre esse espaço público, que pela AD refere-se ao conceito de
temática, revela-se os aspectos de cada telejornal na produção de informação, sendo
imprescindível sua análise (DAVID-SILVA, 2005). A Figura 5.15 ilustra o capital temático do programa Jornal Minas, tendo-se as temáticas Cotidiano, Leis e Saúde como
as mais abordadas em suas exibições, incluindo entrevistas ao vivo, no estúdio, ao
exercer a sua função de difundir esses temas. Ao considerar o universo político, principalmente quando o mesmo está intimamente ligado à conjuntura econômica, tem-se
19,69% do tempo transmitido pelo telejornal para informar sobre essas temáticas.
Além do capital temático, a distribuição do tempo de emissão de telejornais pode
ser analisada também por outras modalidades de tratamento da informação conforme
Figura 5.15: Capital temático telejornalístico.
91
os dois espaços enunciativos interno (ou estúdio) e externo, bem como realizar a
análise sobre os tipos de matérias existentes. Os gráficos referentes aos tipos de
matérias apresentam o condicionamento informativo do telejornal, ou seja, qual é a
porcentagem do tempo gasto na veiculação do ato de informar exclusivamente, frente
às demais formas de emissão do tempo como aquelas relacionadas com a encenação
para atrair o público-alvo no mundo televisivo coberto pelo telejornal (Vinhetas) ou as
formas comerciais como a publicidade (Propagandas).
Dentre os tipos de matérias modeladas, tem-se as Chamadas de Matéria, as Reportagens, as Entrevistas e as Notas Pé, Pelada e Coberta. No que se refere ao
espaço interno ou de estúdio, cabe à essa composição os tipos de matérias que possuem a emissão de imagens internas, incluindo principalmente o apresentador, como
nas Chamadas de Matéria, nas Entrevistas e nas Notas Pé e Pelada. A emissão de
imagens externas é dada pelos tipos de matéria do espaço externo como as Reportagens e as Notas Cobertas, sendo essa última tendo a narração do apresentador, que
se encontra no estúdio, porém as imagens emitidas para o telespectador referem-se
ao ambiente externo. A Figura 5.16 apresenta a distribuição do tempo dos vídeos
analisados em relação aos tipos de matéria indexados, observando-se que o acervo
telejornalístico atual emite 52,21% desse tempo para entrevistas e 46,67% para reportagens. Existem poucas ocorrências de Nota Pé para complementar alguma informação, geralmente de reportagens, e o tempo para as chamadas está representado em
menos de 1% do tempo emitido para matérias, mesmo correndo frequentemente.
Figura 5.16: Distribuição do tempo dos tipos de matérias.
92
Figura 5.17: Distribuição do tempo de emissão/imagens.
Em relação ao tempo de emissão das imagens dos espaços enunciativos, bem
como dos elementos de encenação, observa-se na Figura 5.17 a emissão de 46,61%
de imagens externas, sendo basicamente atreladas às reportagens por não existir a
ocorrência de Notas Cobertas na base de dados analisada. A emissão de imagens
iconográficas das Vinhetas é bastante insignificante em relação ao tempo de emissão
de imagens do estúdio de 53,26%. Sobre esse gráfico pode-se afirmar que, para
essa amostra de vídeos analisada, existe uma equidade no processo de produção
de informação, intercalando o ambiente informativo das entrevistas no estúdio e o
ambiente fatual em ação nas reportagens.
Como observado nos gráficos acima, em conformidade com o ambiente real telejornalístico, a reportagem é um dos principais tipos de matéria realizados no telejornalismo e ocupa boa parte do programa, realizada no local do fato, por uma equipe
de reportagem responsável (DAVID-SILVA, 2005). Na combinação de opções para
geração de gráficos discursivos, pode-se analisar a distribuição temática sobre todos
os tipos de matérias ou em tipos específicos, conforme o objeto do usuário. A Figura
5.18 esboça a distribuição temática sobre os tipos de matérias, indicando as temáticas
Cotidiano, Saúde e Turismo como as mais abordadas no ambiente fatual dos vídeos:
as reportagens. Devido à mobilidade de repórteres, era esperado que as temáticas
relacionadas aos fatos do cotidiano e aos problemas na área de saúde fossem mais
abordadas nas reportagens por se tratarem, principalmente nesse gênero televisivo,
de temas que exigem informação por parte da sociedade. Como o Jornal Minas está
5.3 Reconhecimento de Voz em Sinais de Áudio
93
Figura 5.18: Distribuição do tempo de temáticas por tipos de matérias.
intimamente ligado à cultura mineira, justifica-se as diversas abordagens para a emissão de reportagens de temática Turismo, sendo o quadro Conheça Minas o principal
veiculador desse tipo de matéria em espaço de cenário próprio. A temática Leis tem
grande incidência em entrevistas, sendo o quadro Direitos do Cidadão responsável
pela maior parte das emissões de entrevistas sobre esse espaço público.
Os experimentos descritos a seguir possuem o objetivo de avaliar o processo de
reconhecimento de voz em sinais de áudio dos vídeos televisivos, o qual foi implementado no módulo de indexação, contribuindo para o processo de indexação dos vídeos
mediante a geração de metadados textuais dependentes do conteúdo.
Para a primeira etapa dos testes, foram analisados dez trechos de áudio recolhidos
aleatoriamente da base de dados multimídia, cada um contendo 1 minuto de duração,
sendo cinco desses sinais de áudio referentes a vídeos do gênero Debate, contendo
interseção de vozes, som ambiente, alterações de entonação, dentre outros aspectos
considerados ruidosos, intrínsecos a esse gênero informativo (SABINO, 2011). Os outros cinco trechos foram recolhidos de vídeos do gênero Entrevista em que o ambiente
é mais controlado, existe a interiorização da palavra (um participante por vez) e sem
outros elementos que poderiam provocar ruídos no processo de reconhecimento.
94
Para analisar o desempenho do SRV utilizado, o Julius, por meio de medidas como
precisão, revocação e a taxa de palavras erradas W ER (do inglês, Word Error Rate),
foi necessário transcrever manualmente cada um dos sinais de áudio coletados para
os testes. As transcrições foram armazenadas em uma estrutura Hashmap na linguagem Java. Em seguida, cada trecho de áudio foi processado no Julius e o respectivo
texto reconhecido foi armazenado em uma segunda estrutura Hashmap. Tendo-se o
primeiro Hashmap como referência (gabarito), cada palavra reconhecida no segundo
Hashmap era pesquisada no primeiro, contando-se as palavras não existentes (erradas) e as palavras encontradas (certas). O objetivo dessa abordagem é obter, por
meio do reconhecimento, palavras corretas para indexação, não importando o número
de vezes ou a ordem em que elas apareçam. Esse trabalho não verifica a ordem de
todas as palavras do arquivo reconhecido em relação ao gabarito, abrindo possibilidades de estudos em trabalhos futuros. Com esse processamento foi possível calcular
as métricas de precisão, revocação e W ER.
De forma análoga aos conceitos da Recuperação de Informação, a precisão de
cada trecho de áudio foi calculada pela relação entre o número de palavras certas
(aquelas que foram reconhecidas e existiam no arquivo transcrito manualmente) e o
número de palavras reconhecidas (tamanho do segundo Hashmap). Já a revocação
de cada sinal de áudio foi calculada pela relação entre o número de palavras certas e
o total de palavras transcritas (tamanho do primeiro Hashmap). A taxa W ER é o contrário da precisão, sendo calculada pelo número de palavras erradas sobre o número
de palavras reconhecidas pelo SRV. Mediante os testes realizados, foram obtidos os
valores médios de 31%, 69% e 29% para as taxas de acerto (precisão), de palavras
erradas (W ER) e de revocação dos dez trechos de áudio analisados. Para trabalhos
futuros, sugere-se a aplicação de um peso maior a vídeos do gênero Entrevista que
possuem melhores taxas de reconhecimento em relação a vídeos de Debate.
A segunda etapa de testes visou aplicar, de forma mais extensiva, o reconhecimento de voz sobre todos os vídeos da base de dados. Os testes foram realizados
sobre 71 vídeos de gêneros Debate, Entrevista e Telejornal.
Para mensurar a exatidão e a eficiência de um SRV no processo de reconhecimento de voz, pode-se calcular a taxa de palavras erradas WER, como na primeira
etapa, e a escala de tempo real RTSF (do inglês, real-time scale factor ). O RTSF é a
razão entre o tempo gasto para reconhecer a faixa de áudio e a duração da mesma. Já
a métrica WER reflete a percentagem do número de palavras reconhecidas de forma
95
Tabela 5.1: Taxa média de palavras erradas (W ERmedia ) por programa.
Nome do Programa
Brasil das Gerais
Conexão Roberto D’Ávila
Rede Mídia
Roda Viva
Jornal Minas
Quantidade de Blocos W ERmedia
15
68%
15
56%
06
57%
10
71%
25
67%
Desvio padrão
3%
2%
1%
2%
2%
errada sobre o total de palavras reconhecidas, mostrando-se interessante para a avaliação do módulo de reconhecimento de voz. Todos os sinais de áudio foram divididos
em trechos de 30 segundos de duração para não sobrecarregar o SRV Julius, não
ocorrendo perda de desempenho se os trechos de áudio fossem processados inteiramente. Foram manualmente transcritos e analisados os 30 primeiros segundos. Para
a generalidade dos resultados, optou-se pela utilização de uma taxa média de palavras erradas (W ERmedia ), calculada pela média aritmética das taxas WER obtidas em
cada bloco de programa, conforme apresentado na Tabela 5.1.
Nessa segunda etapa de testes sobre reconhecimento de voz, obteve-se taxas
entre 54% e 73% de palavras erradas, considerando-se o desvio padrão. As menores
taxas foram obtidas sobre os vídeos dos programas de entrevista Conexão Roberto
D’Ávila e Rede Mídia. Em contrapartida, as piores taxas foram encontradas nos programas do gênero Debate Brasil das Gerais e Roda Viva. O programa Jornal Minas
apresentou um taxa significativa de W ER, visto que boa parte dos telejornais se destinam a exibir reportagens compostas por diversas cenas externas contendo ruídos
que provocam falha de reconhecimento. No programa Brasil das Gerais existem alguns trechos em que convidados cantam ou são exibidas reportagens em ambiente
externo. Já no programa Roda Viva ocorre frequentes sobreposições de fala em um
ambiente de discussão sobre assuntos polêmicos. Em vários testes realizados pela
comunidade do projeto Fala Brasil, foi avaliado que trechos de áudio cantado e a presença expressiva de ruídos não são devidamente processados por sistemas SRV e
esse tipo de pesquisa ainda se encontra em andamento (SILVA et al., 2005). Sobre o
valor de 63,8% referente à média aritmética das taxas W ER médias obtidas nas duas
etapas de testes, foi modelado e implementado no módulo de recuperação o peso de
3,62 para o metadado textual de conteúdo reconhecimentoVoz, significando um grau
de confiança de 36,2% sobre esse campo de metadado no serviço de busca do sistema de informação proposto, conforme citado na Seção 4.3. Alterar esse valor de
5.4 Testes de Recuperação e Análise dos Resultados
96
peso implica em alterar a ordenação de vídeos contemplados no serviço de busca, ou
seja, quanto maior o peso, vídeos contemplados que tenham ocorrência dos termos
da busca no metadado reconhecimentoVoz podem aparecer nas primeiras posições
da lista de vídeos recuperados.
Os testes foram realizados com a diminuição gradativa do domínio de busca por
fonemas, ou seja, alterando o tamanho do dicionário fonético. Para estruturas de indexação, esse tipo de problema pode ser grave, pois dicionários muito grandes provocam
colisões entre fonemas parecidos e o reconhecedor pode escolher a palavra errada no
mapeamento, porém dicionários reduzidos podem não contemplar alguns termos falados e, assim, retirar do Lucene palavras importantes que deveriam ser indexadas.
Para a execução dos testes de recuperação, foi utilizada uma base de dados contendo 71 vídeos, sendo 25 vídeos do programa Jornal Minas (gênero Telejornal); e 46
vídeos dos programas Conexão Roberto D’Ávila, Roda Viva, Brasil das Gerais e Rede
Mídia de gêneros Debate e Entrevista. Atuando sobre esses vídeos, o módulo de recuperação do sistema de informação proposto foi avaliado em termos de sua eficácia
e eficiência. Com isso, pretendeu-se obter os pesos de cada grupo de metadado para
contribuir com os melhores índices de recuperação, pois antes de analisar os vídeos
televisivos sob as perspectivas da AD, os pesquisadores devem, primeiramente, ter
acessos aos objetos de interesse por meio de um serviço de busca eficiente.
A eficácia consiste em medir se o sistema de recuperação retorna os vídeos relevantes solicitados pelo usuário em uma proporção aceitável em relação à lista de
vídeos contemplados pela consulta, dentre aqueles que deveriam ser efetivamente recuperados. Já a eficiência mede a distribuição dos vídeos relevantes na lista de vídeos
recuperados por uma consulta, permitindo analisar se estes estão posicionados nas
primeiras posições do resultado.
Para avaliar o sistema em termos de sua eficácia, optou-se por utilizar as métricas
de precisão e revocação no processo de recuperação dos vídeos de teste. A precisão
é a fração dos vídeos recuperados que são relevantes para uma consulta, enquanto
a revocação é a fração dos documentos relevantes para a consulta que foram efetivamente recuperados (CROFT; METZLER; STROHMAN, 2010). Para realizar uma
ponderação entre esses dois valores, utilizou-se a métrica F1. Em termos matemáti-
97
cos, seja N1 o conjunto de vídeos relevantes para uma determinada consulta e N2 o
vetor resultado recuperado pelo sistema, as métricas supracitadas são calculadas por:
Precisão (P) =
|N1 ∩ N2 |
|N2 |
Revocação (R) =
F1 =
|N1 ∩ N2 |
|N1 |
(2 ∗ P ∗ R)
P+R
(5.1)
(5.2)
(5.3)
Conforme informado na descrição do módulo de recuperação, os pesos individuais
para todos os metadados foram pré-estabelecidos por meio de uma pesquisa interna
realizada sobre a pontuação dos metadados básicos e discursivos. A pontuação do
peso do metadado de conteúdo referente ao reconhecimento de voz utilizado nesse
trabalho foi obtido por meio de testes experimentais, descritos na seção anterior. Além
disso, os grupos de metadados não possuem pesos na combinação dos dados do
serviço de busca geral, sendo realizada simplesmente a média aritmética entre os
graus de similaridade da consulta obtidos em cada grupo de metadado. Dessa forma,
o objetivo em torno dos testes realizados é identificar os melhores pesos para cada
grupo de metadados a fim de se alterar o cálculo da similaridade final dos vídeos
utilizando-se a média ponderada entre as similaridades de cada grupo.
Os testes de recuperação foram realizados modelando-se oito consultas textuais
e uma lista contendo os vídeos relevantes para cada consulta (gabarito) que se encontra no Anexo B desse documento. Cada consulta foi submetida separadamente a
cada grupo de metadados, sendo eles os grupos de metadados básicos (grupo A1),
metadados discursivos (grupo A2) e metadado de conteúdo do reconhecimento de
voz (grupo A3), calculando-se a precisão e a revocação de cada grupo/consulta. Em
seguida, as consultas foram submetidas a todos os grupos no serviço de busca geral,
combinando-se as similaridades obtidas.
Nos testes de recuperação, foram analisadas listas de tamanho limite de 10 e
de 20 vídeos, visto que a interface possui espaço de exibição para 10 vídeos por
página. Além disso, é raro o usuário estar disposto a navegar por muitas páginas
na interface para tentar encontrar algo relevante, pois tais vídeos deveriam aparecer
nas primeiras posições da área de visualização que ele tem acesso (BAEZA-YATES;
98
Tabela 5.2: Medidas de precisão para cada grupo de metadados.
Consultas
corrupção política
problemas saúde
violência urbana
direitos do cidadão
discriminação social
literatura brasileira
filosofia humanidade
vida artistas
Total Média
Grupo A1
10
20
0,50 0,43
0,50 0,50
0,70 0,70
0,70 0,40
0,30 0,25
0,60 0,50
0,50 0,45
0,50 0,45
0,53 0,46
Grupo A2
10
20
0,70 0,53
1,00 1,00
1,00 1,00
0,00 0,00
1,00 1,00
0,71 0,71
0,00 0,00
0,50 0,41
0,61 0,58
Grupo A3
10
20
0,50 0,35
0,60 0,40
0,30 0,30
0,70 0,40
0,22 0,22
0,30 0,15
0,30 0,23
0,20 0,25
0,39 0,28
Busca Geral
10
20
0,50 0,35
0,70 0,50
0,30 0,46
0,70 0,40
0,34 0,35
0,40 0,25
0,30 0,27
0,30 0,30
0,44 0,36
RIBEIRO-NETO, 1999). A Tabela 5.2 apresenta os valores de precisão medidos para
as consultas aplicadas aos três grupos de metadados, bem como os valores para o
serviço de busca geral que combina as similaridades desses grupos, discriminando os
resultados em cada lista com limite de tamanho fixo.
Pode-se observar analisando a Tabela 5.2 que, em geral, o grupo de metadados
discursivos obteve os melhores índices de precisão e o grupo A3, representado pelo
metadado de conteúdo reconhecimentoVoz, apresentou as piores medidas, como esperado conforme descrito na respectiva seção de testes. Em algumas consultas, ocorreram anomalias que geraram índices nulos de precisão para o grupo de metadados
discursivos, porém ocorreram também, somente nesse grupo, valores totais de precisão. Para as consultas direitos do cidadão e filosofia humanidade, os valores de
precisão nula ocorridos na recuperação sobre o grupo de metadados A2 se explica
pelo fato dos termos de ambas as pesquisas não existirem no vocabulário controlado
suportado por esse grupo, ou seja, os índices textuais armazenados nos metadados
discursivos referem-se somente àqueles valores mapeados no módulo de indexação
e, dessa forma, se o usuário digitar livremente valores não correspondentes, nenhum
termo será contemplado. O módulo de recuperação apresentou melhor média para os
valores de precisão sobre os 10 primeiros vídeos (a lista de recuperação menor).
Outra questão importante é analisar qual a contribuição de cada grupo de metadados para o serviço de busca geral (livre digitação) de vídeos no sistema de informação
proposto. Para isso, é necessário calcular as outras métricas. A Tabela 5.3 apresenta
os valores de revocação medidos para as mesmas consultas em relação ao conjunto
ideal de vídeos de resposta (gabarito).
99
Tabela 5.3: Medidas de revocação para cada grupo de metadados.
Consultas
problemas saúde
violência urbana
vida artistas
Total Média
Grupo A1
10
20
0,55 0,77
0,41 0,41
0,87 1,00
0,58 0,66
0,37 0,37
0,85 0,85
0,83 0,83
0,55 1,00
0,59 0,68
Grupo A2
10
20
0,77 0,88
0,50 0,50
0,58 0,58
0,00 0,00
0,75 0,75
0,71 0,71
0,00 0,00
0,55 0,77
0,48 0,52
Grupo A3
10
20
0,55 0,77
0,50 0,88
0,42 0,42
0,58 0,66
0,25 0,25
0,42 0,42
0,50 0,50
0,22 0,55
0,43 0,55
Busca Geral
10
20
0,45 0,77
0,58 0,83
0,42 1,00
0,58 0,66
0,37 0,75
0,57 0,42
0,50 0,83
0,33 0,66
0,47 0,74
Pode-se observar nas duas tabelas anteriores que os indicadores médios finais
para as métricas de precisão e revocação são consideravelmente baixos para um serviço de busca eficaz. Ao se analisar os valores de precisão 0,44 e 0,36 para uma lista
de recuperação de até 10 e 20 vídeos, respectivamente, considerando-se os valores
0,47 e 0,74 de revocação, tem-se um indício que o serviço não é eficiente por não retornar nas primeiras posições das listas mais vídeos relevantes. Esse fato pode estar
relacionado com a influência negativa de um ou mais grupos de metadados aplicados
na recuperação, visto que o processo de busca sobre tais grupos é feito por média
aritmética simples sobre os valores de similaridades obtidos para cada vídeo sobre
cada grupo de metadado textual. Para isso, na tentativa de identificar a influência
dos metadados sobre as consultas e, dessa forma, modelar pesos para melhorar os
Tabela 5.4: Combinação dos valores de precisão e revocação pela métrica F1.
Consultas
problemas saúde
violência urbana
vida artistas
Total Média
Grupo A1
10
20
0,52 0,55
0,45 0,45
0,63 0,63
0,63 0,49
0,33 0,29
0,70 0,62
0,62 0,58
0,52 0,62
0,55 0,52
Grupo A2
10
20
0,73 0,66
0,66 0,66
0,73 0,73
0,00 0,00
0,85 0,85
0,71 0,71
0,00 0,00
0,52 0,53
0,52 0,51
Grupo A3
10
20
0,52 0,48
0,54 0,55
0,35 0,35
0,63 0,49
0,23 0,23
0,35 0,22
0,37 0,31
0,20 0,34
0,39 0,37
Busca Geral
10
20
0,47 0,48
0,63 0,62
0,35 0,63
0,63 0,49
0,35 0,47
0,47 0,31
0,37 0,40
0,31 0,41
0,44 0,47
100
valores das métricas utilizadas, foi calculada a métrica F1, conforme a Tabela 5.4.
Observa-se que as taxas médias de F1 dos metadados básicos e discursivos estão
razoavelmente próximos, diferentemente dos respectivos valores para o metadado de
conteúdo para o reconhecimento de voz que apresentou os piores indicadores. Dessa
forma, de acordo com esses valores, foi considerado nesse trabalho que o metadado
reconhecimentoVoz influenciou negativamente. Com isso, teve-se a necessidade de
aplicar pesos para combinar os graus de similaridade obtidos entre os grupos de metadados no serviço de busca geral.
Considerando o intervalo real [0,10] utilizado para a normalização dos pesos definidos no módulo de indexação, foram definidos os pesos 1, 5 e 9 para serem aplicados
aos grupos de metadados acionados pelo processo de recuperação do sistema proposto, pegando-se os valores inteiros mais próximos das extremidades do intervalo (1
e 9) e o valor numérico do meio (5). Sugere-se estudos futuros para a obtenção de
pesos de forma automática e adaptativa. Como esse trabalho tem seu foco principal
sobre os metadados discursivos, então esse grupo recebeu o maior valor de peso; o
grupo de metadados básicos recebeu peso 5; e, pela influência negativa inferida, o
metadado de conteúdo para o reconhecimento de voz recebeu peso 1 na combinação
de similaridades da busca geral. A Tabela 5.5 apresenta os novos valores de precisão,
revocação e F1 para o serviço de busca geral utilizando-se os pesos supracitados.
Com a aplicação dos pesos sobre os grupos de metadados, conforme os testes
realizados, houve melhora em todos os indicadores calculados para o módulo de recuperação, observando-se a melhora significativa da eficácia do sistema. A precisão
Tabela 5.5: Valores finais de precisão, revocação e F1 para a busca geral.
Consultas
problemas saúde
violência urbana
vida artistas
Total Média
Precisão
10
20
0,70 0,40
0,70 0,45
0,70 0,46
0,70 0,45
0,30 0,31
0,40 0,31
0,30 0,27
0,50 0,35
0,53 0,37
Revocação
10
20
0,77 0,88
0,58 0,75
1,00 1,00
0,58 0,75
0,37 0,75
0,57 0,85
0,50 1,00
0,55 0,77
0,61 0,84
F1-measure
10
20
0,73 0,55
0,63 0,56
0,79 0,63
0,63 0,56
0,33 0,43
0,47 0,45
0,37 0,42
0,52 0,48
0,55 0,51
101
para o serviço de busca geral obteve aumento proporcionalmente maior para a lista
de até 10 vídeos recuperados em relação à lista com até 20 vídeos, ou seja, mais vídeos relevantes estão sendo retornados em posições mais próximas do topo da lista,
indicando melhora da eficiência do serviço. O objetivo do cálculo da precisão e revocação foi determinar um ponto de equilíbrio para o nível mínimo de similaridade,
de modo a ter um número significativo de vídeos relevantes, sem com isso aumentar
excessivamente o número total de vídeos recuperados.
Além da métricas de eficácia, computou-se, neste trabalho, a eficiência do módulo de recuperação do sistema de informação proposto sob as perspectivas das consultas modeladas para esse teste. A eficiência na recuperação de vídeos é medida
calculando-se a percentual de vídeos relevantes em diversos intervalos consecutivos
de vídeos dentre o total retornado.
A Figura 5.19 apresenta o gráfico sobre o cálculo de eficiência das 8 consultas
modeladas. O eixo das abscissas (x) apresenta a quantidade de vídeos retornados,
analisando-se intervalos de 5 em 5 vídeos. O eixo das ordenadas (y) ilustra a percentagem de vídeos relevantes dentro dos intervalos de vídeos retornados. Quanto mais
próxima a curva estiver do eixo y, tem-se maior eficiência, ou seja, os vídeos mais relevantes estão posicionados nas primeiras posições das listas de recuperação como
ocorre para a consulta corrupção política que apresenta tal comportamento em todos
os intervalos de ocorrência de vídeos. A curva referente à eficiência para a consulta
problema saúde possui uma inclinação menor e mais distante do eixo y em relação
à primeira consulta, ilustrando que os vídeos relevantes estão diluídos ao longo da
lista de recuperação, não sendo mais retornados a partir de 15 vídeos dentre os 20
primeiros vídeos avaliados na lista.
Figura 5.19: Gráfico de eficiência para as 8 consultas modeladas.
102
A curva da consulta violência urbana apresenta o melhor comportamento de eficiência, tendo-se pouco mais de 60% dos vídeos relevantes nas 5 primeiras posições e
80% nas 10 primeiras posições da lista de recuperação de até 10 vídeos, retornando
todos os vídeos relevantes esperados na lista de recuperação de tamanho 20. Já a
curva de eficiência para a consulta direitos do cidadão alcança 60% dos vídeos relevantes dentre os 10 primeiros vídeos retornados e, depois disso, só apresenta mais
vídeos relevantes para essa consulta a partir da 15a posição da lista de recuperação,
impactando dessa forma no índice de precisão do sistema para essa consulta. Vale
ressaltar que o número de vídeos relevantes para a consulta violência urbana é menor
que a lista de vídeos esperados para a consulta direitos do cidadão que, além disso,
apresenta índice nulo de precisão e revocação para o grupo de metadados discursivos, como informado nas tabelas situadas no início dessa seção.
A consulta discriminação social apresentou a pior taxa de eficiência para o módulo
de recuperação do sistema proposto, tendo-se menos de 40% dos vídeos relevantes
nas 10 primeiras posições, mas a partir disso ocorre um crescimento acentuado para
75% de vídeos relevantes retornados, ou seja, muitos vídeos relevantes apareceram
distantes do topo da lista de recuperação (ver Figura 5.19).
Para a consulta literatura brasileira, percebe-se uma boa taxa de eficiência para
os 5 primeiros vídeos, porém essa taxa cresce com menos intensidade no restante
da lista de recuperação. Esse comportamento aparece em toda a curva da consulta
filosofia humanidade, indicando que seus vídeos relevantes aparecem aos poucos
e de forma esparsa ao longo de toda a lista de recuperação. Já para a consulta
vida artistas, a taxa de crescimento no cálculo de eficiência é ligeiramente melhor em
relação à consulta filosofia humanidade, porém ocorre novamente sua diminuição a
partir dos 10 primeiros vídeos.
Analisando-se as 8 curvas descritas, 5 delas apresentam, em média, 44% dos
vídeos relevantes entre os 5 primeiros vídeos retornados e 61% entre os 10 primeiros vídeos na lista de recuperação. Em alguns casos, foi necessária uma lista de
recuperação maior para que mais vídeos relevantes ou todos eles, no caso da consulta violência urbana, fossem retornados, mas a percentagem apresentada para as
10 primeiras posições recuperadas ilustra boa eficiência do módulo de recuperação
do sistema de informação proposto.
5.5 Análise do Nível de Interesse de Vídeos
103
Para a execução dos testes, foi utilizada uma base de dados contendo 46 vídeos
referentes aos programas Conexão Roberto D’Ávila e Roda Viva, ambos da TV Brasil,
e os programas Brasil das Gerais e Rede Mídia da TV Rede Minas. Todos os programas são divididos entre 3 a 6 blocos, cada um com duração média de 27 minutos.
Quando esse teste foi realizado, os vídeos televisivos referentes ao Jornal Minas ainda
não haviam sido indexados. Os vídeos foram indexados no início do mês de junho de
2011 e os testes de avaliação foram acompanhados entre os dias 20 e 24 do mesmo
mês durante o processamento das consultas dos usuários na recuperação de vídeos.
No início dos testes, como era esperado, todos os vídeos da base apresentaram
notas entre 0% e 2% de interesse, visto que os mesmos tinham um ou nenhum acesso
e nem ao menos foram reproduzidos. Durante a semana de testes, com o apoio
de 06 alunos do curso de Engenharia da Computação do CEFET-MG, o sistema de
informação foi utilizado e definiu-se dois grupos de vídeos: um para os vídeos a serem
acessados e um para os vídeos a serem ignorados. Para o primeiro grupo, foram
escolhidos os dois primeiros blocos de cada programa totalizando 29 vídeos, e para o
segundo grupo, o restante.
O primeiro teste foi formulado para analisar a evolução positiva ou negativa do
nível de interesse dos vídeos ao longo de alguns dias. Esse tipo de abordagem é
relevante, pois uma das variáveis de entrada do módulo de avaliação nebulosa processa o valor real, não-normalizado, da quantidade de dias em que um vídeo não é
visualizado. Além disso, ao longo do tempo, conforme o uso do sistema feito pelos
usuários, a quantidade de acessos aos vídeos pode crescer muito e, dessa forma,
influenciar no processamento do nível de interesse de todos os vídeos da base, pois a
partição de entrada correspondente processa valores normalizados a partir da razão
da quantidade de acessos de cada vídeo pela quantidade de acessos feita sobre o
vídeo mais acionado. Para facilitar a medição da evolução dos níveis de interesse dos
vídeos testados, calculou-se a média entre os níveis de interesse de todos os vídeos
pertencentes a um mesmo grupo durante o período de 5 dias da realização dos testes.
A Tabela 5.6 apresenta os valores médios dos níveis de interesse na recuperação dos
vídeos ao final de cada dia da semana dos experimentos.
Percebe-se que o nível médio de interesse do grupo 1 de vídeos atinge altas pontuações durante os testes na recuperação dos respectivos vídeos, com uma taxa de
104
Tabela 5.6: Nível de interesse médio entre os grupos de vídeos definidos.
Dia
1
2
3
4
5
Nível de Interesse do Grupo 1
55, 13%
62, 30%
70, 59%
78, 01%
89, 93%
Nível de Interesse do Grupo 2
1, 92%
0, 31%
0, 02%
0, 00%
0, 00%
acréscimo notavelmente maior que a taxa de decaimento no nível de interesse médio
do grupo 2 a partir do segundo dia. Pode-se explicar esse fenômeno por meio do número de acessos calculado sobre cada vídeo em relação ao vídeo mais acessado e,
como são cada vez mais acessados, os vídeos do grupo 1 ganham mais contribuições
desse indicador no processo de inferência dos níveis de interesse do que os vídeos
do grupo 2. Os valores para a quantidade de dias desde a última visualização entre
os dois grupos são completamente opostos e contribuíram com os resultados obtidos:
enquanto no grupo 1 é nulo (os vídeos são constantemente acessados, possuindo 0
dias desde a última visualização), no grupo 2 aumenta durante a semana (como são
ignorados, com o passar do tempo, o número de dias sem ser vistos aumenta).
O segundo teste, realizado paralelamente ao primeiro, foi formulado para analisar
a velocidade da evolução entre dois vídeos específicos durante o dia. Dessa forma,
é possível quantificar estatisticamente o grau de influência que os indicadores possuem sobre o nível de interesse dos vídeos. Como os testes foram baseados em
vários acessos sobre os vídeos durante o dia, logo não foi avaliado o indicador referente a quantidade de dias em que os mesmos não são vistos, pois o valor é sempre
nulo nesse tipo de processamento. Para a realização desse teste, foram utilizados os
Tabela 5.7: Níveis de interesse estimulados por indicadores diferentes.
Dia
1
2
3
4
5
Níveis de Interesse por Indicadores Diferentes
Conexão Roberto D’Ávila (quantidade acessos) Roda Viva (tempo assistido)
69, 41%
71, 08%
72, 15%
75, 71%
75, 06%
79, 24%
79, 17%
83, 01%
82, 39%
86, 99%
105
vídeos pertencentes ao grupo 1 definido para o primeiro teste, pois se fossem escolhidos os vídeos do outro grupo, o primeiro teste seria invalidado ao longo da semana. A
metodologia para a esse segundo teste foi acessar várias vezes um dos vídeos, inclusive por mais de uma pessoa, não sendo necessário assistir ao respectivo vídeo até
o final. Já o segundo vídeo foi acessado a metade das vezes em relação ao primeiro,
porém sempre assistido até o final ou, pelo menos, tendo uma visualização de 90% de
seu conteúdo. A Tabela 5.7 apresenta os valores absolutos, medidos ao final de cada
dia, dos níveis de interesse dos vídeos referentes ao bloco 2 do programa Conexão
Roberto D’Ávila, sobre a entrevista do jornalista e escritor Carlos Heitor Cony, e ao
bloco 1 do programa Roda Viva com a entrevista de José Dirceu.
Conforme os valores apresentados no segundo teste, os níveis de interesse para
o primeiro vídeo (Conexão Roberto D’Ávila) evoluiu com uma taxa média de 2, 59% ao
dia e de 3, 18% ao dia para o segundo vídeo (Roda Viva), informando que o processo
de avaliação sobre o indicador referente ao tempo médio assistido pode contribuir mais
que o número de acessos ao vídeo e a quantidade de dias sem visualização, porém
a integração de indicadores com características diferentes ainda se mostra relevante
para o processamento global. O capítulo sobre as conclusões desse trabalho apresenta uma reflexão sobre esse assunto, bem como apresenta as aplicações viáveis
que podem ser desenvolvidas como trabalhos futuros.
106
6
Conclusões e Trabalhos Futuros
Nos capítulos anteriores foram apresentados todos os componentes implementados para o pleno funcionamento do sistema de informação proposto para apoiar a
análise discursiva de vídeos televisivos.
Dentre os principais componentes implementados tem-se o módulo de geração de
gráficos discursivos que permite a análise quantitativa dos elementos extraídos de metadados dependentes dos conteúdos dos vídeos, fornecidos manualmente por meio de
um formulário preenchido por um usuário especialista (documentalista) durante o processo de indexação. Sobre a estrutura gerida pelos outros módulos implementados,
o serviço de geração extensiva de gráficos permite ao usuário construir seu gráfico
selecionando as opções disponíveis referentes aos metadados discursivos modelados e indexados para todos os vídeos do acervo televisivo armazenado. É importante
ressaltar que os estudos interdisciplinares realizados neste trabalho com o apoio de
pesquisadores das áreas de Estudos de Linguagens e Ciência da Computação permitiram a definição e implementação de funcionalidades para a geração automática
de gráficos referentes àqueles recorrentes na literatura para o tipo de análise que os
pesquisadores se dispõem a fazer sobre a produção do sistema brasileiro de televisão.
Para agregar valor ao sistema e facilitar os trabalhos de pesquisa de seus usuários, foram implementados outros serviços além da geração de gráficos discursivos,
tais como os serviços de busca para a recuperação de vídeos televisivos e a avaliação
automática do nível de interesse nesse processo de recuperação. Embora simples, o
processamento utilizado no serviço de avaliação do nível de interesse utilizando-se da
lógica nebulosa apresentou bons resultados, identificando os vídeos mais interessantes para pesquisa por meio do número de acessos, tempo decorrido desde sua última
visualização e o tempo em que o mesmo foi assistido em cada acesso. Essas informações são adicionadas aos gráficos, se for de interesse do usuário ao selecioná-las, a
fim de se analisar a influência de algum programa ou gênero televisivo sobre o comportamento dos usuários, podendo subsidiar a descoberta da retórica ou intencionalidade
107
em relação à produção midiática para aquele público. Já os serviços de recuperação
de vídeos são importantes para auxiliar as pesquisas dos usuários, principalmente
caso o usuário queira assistir aos vídeos contemplados nos gráficos por ele utilizados,
a fim de se complementar sua análise referente ao conteúdo informacional dos vídeos.
Os serviços de busca, suportados pelos módulos de indexação e recuperação,
foram testados e avaliados quanto à sua eficácia e eficiência, em especial o serviço
de busca geral, por meio de métricas bastante difundidas na literatura. O serviço de
busca atendeu às expectativas desse trabalho e, para estudos futuros, pode ser aprimorado quanto à definição mais criteriosa dos pesos dos metadados envolvidos no
processo de recuperação, sendo acionados de forma adaptativa em relação aos dados da base. Os resultados apresentados foram favoráveis ao objetivo principal desse
trabalho em relação aos metadados discursivos, principalmente pelo fato do respectivo
módulo de geração de gráficos utilizar o módulo de recuperação para acessar devidamente os metadados selecionados pelo usuário por meio das opções disponíveis na
interface. O módulo de geração de gráficos realiza uma consulta full em toda a base
de dados, retornando todos os metadados textuais de todos os vídeos, realizando o
filtro de opções discursivas somente no módulo de interação com o usuário, ou seja,
o módulo de geração de gráficos carrega todos os metadados discursivos antes do
usuário selecionar as respectivas opções de seu interesse utilizando a interface Web
do sistema proposto.
Dentre os metadados modelados nesse trabalho, encontra-se o metadado dependente de conteúdo relacionado ao sinal de áudio de cada vídeo processado. Foi implementado, dentro do módulo de indexação, um método para extrair o conteúdo textual
dos sinais de áudio por meio de reconhecimento de voz, utilizando-se o software Julius. Conforme os resultados apresentados, o processo de transcrição de áudio é
ainda um campo de estudo que deve ser mais explorado para que esse tipo de problema seja sanado e, por isso, no momento da indexação, devem ser devidamente
considerados, mas com um nível de confiança reduzido. Dessa forma, indica-se para
propostas futuras de trabalhos a criação de modelos linguísticos temáticos com vocabulários de tamanhos reduzidos, verificando-se, para um determinado vídeo de entrada, o metadado que informa seu respectivo gênero e, com base em tal, é escolhido
o modelo linguístico apropriado para ser utilizado pelo decodificador no processo de
reconhecimento de voz.
O processamento dos quadros-chave ou keyframes dos vídeos pode promover
108
outras formas de consulta obtidas da modelagem e extração de informações afetivas
por meio de técnicas como Lógica Nebulosa (ZHAOMING et al., 2009). Pode-se com
essas técnicas realizar a avaliação automática dos vídeos por meio de indicadores
sobre o uso que o usuário faz da informação recuperada, no caso os vídeos televisivos,
cobrindo a demanda por uma ferramenta de análise automática de conteúdo.
As perspectivas supracitadas proporcionam valiosos estudos para outros trabalhos que envolvam a interdisciplinaridade entre a Ciência da Computação e a área de
Estudos da Linguagem. Além das abordagens discursivas consideradas para esse trabalho na geração de gráficos, o devido processamento dos metadados dependentes
do conteúdo inerentes aos sinais de áudio e componentes visuais dos vídeos podem
subsidiar a Análise do Discurso (AD) quanto ao levantamento dos capitais verbal e
visual. O capital verbal refere-se à contabilização do tempo em que cada interlocutor participante falou durante a emissão dos programas. Para se obter tais dados,
mostra-se necessário promover trabalhos sobre o reconhecimento de locutor em sinais de áudio, extrair a assinatura para o timbre de voz identificado, contabilizar todos
os instantes em que essa assinatura ocorreu no sinal de áudio e, finalmente, plotar o
respectivo gráfico discursivo. Esses procedimentos são similares para a geração de
gráficos do capital visual dos participantes, tendo-se, para esse caso, a necessidade
de extrair a assinatura da imagem obtida da detecção de face de cada participante.
Sob os conceitos de bibliotecas digitais que caracterizam o sistema de informação proposto, pretende-se também implementar o processo de coleta e exportação
de metadados textuais por meio do protocolo OAI-PMH, que utiliza o padrão Dublin
Core, bastante difundido na comunidade científica (GONÇALVES, 2004). Com isso,
além de prover a interoperabilidade entre as instâncias do sistema, pode-se recuperar
documentos de outros sistemas de informação como, por exemplo, a Biblioteca Digital
Brasileira de Teses e Dissertações (BDTD), a fim de subsidiar os pesquisadores com
um serviço adicional em um ambiente de pesquisa cada vez mais integrado.
109
AKINOBU, L. Open-Source Large Vocabulary CSR Engine Julius. 2011. Disponível
em: <http://julius.sourceforge.jp/en/>.
ARAÚJO, A.; GUIMARÃES, S. J. F. Recuperação de informação visual com base no
conteúdo em imagens e vídeos digitais. Revista de Informática Teórica e Aplicada, v. 7,
n. 2, p. 43–72, 2000.
BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. : ACM Press
Series, 1999.
BARRETO, J. S. Desafios e avanços na recuperação automática da informação audiovisual. Ciência da Informação - SCIELO Brasil, v. 36, n. 3, p. 17–28, Set–Dez 2007.
BENVENISTE Émile. Problèmes de linguistique générale II. : Gallimard, 1976. 356 p.
BERTINI, M.; BIMBO, A. D.; PALA, P. Content-based indexing and retrieval of tv news.
Pattern Recognition Letters, v. 22, n. 5, p. 503–516, 2001.
BITTENCOURT, G. Inteligência Artificial - Ferramentas e Teorias. 3. ed. Florianópolis:
, 2006. 371 p.
BORBA, S. d. F. P.; MORALES, A. B. T. Aplicação de banco de dados orientado a
objetos na modelagem multidimensional. XXI Simpósio Brasileiro de Banco de Dados
- SBBD, p. 132–146, 2006.
BORGES, G. S. B.; MACULAN, B. C. M. S.; LIMA, G. Á. B. O. Indexação automática
e semântica: estudo da análise do conteúdo de teses e dissertações. VII ENANCIB:
Encontro Nacional de Pesquisa em Ciência da Informação, 2007.
BORGMAN, C. L. Social aspects of digital libraries. In: FOX, E.; MARCHIONINI, G.
(Ed.). Proceedings of the 1st ACM international conference on digital libraries. 1996.
p. 170–171.
BRAIGHI, A. A. A TV que o mineiro vê: Análise Discursiva da Encenação Visual de
Telejornais em Minas Gerais. Dissertação (Mestrado) — Centro Federal de Educação
Tecnológica de Minas Gerais - Departamento de Estudos de Linguagens, 2012.
BROWN, E.; SRINIVASAN, S.; CODEN, A.; PONCELEON, D.; COOPER, J.; AMIR,
A.; PIEPER, J. Towards speech as a knowledge resource. X CIKM: International Conference on Information and Knowledge Management, p. 526–528, 2001.
CARDOSO, O. N. P. Recuperação de informação. INFOCOMP - Journal of Computer
Science, v. 2, n. 1, p. 33–38, 2000.
110
CHAN, K. C. C.; AU, W.-H. Mining fuzzy association rules. In: Proceedings
of the Sixth International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 1997. (CIKM ’97), p. 209–215. Disponível em:
<http://dl.acm.org/citation.cfm?doid=266714.266898>.
CHARAUDEAU, P. Le contrat de communication de l’information médiatique. Revista
Lefrançais dans le monde, Julho 1994.
CHARAUDEAU, P. Visées discursives, genres situationnels et construction textuelle.
2001.
CHARAUDEAU, P.; GHIGLIONE, R. A palavra confiscada: um gênero televisivo: o talk
show. Lisboa: Tradução Susana Farias Azevedo, 1997.
CHRISTEL, M.; SMITH, M.; TAYLOR, C.; WINKLER, D. Evolving video skims into useful multimedia abstractions. Conference on Human factors in Computing Systems, p.
171–178, 1998.
CHRISTEL, M. G. Establishing the utility of non-text search for news video retrieval with
real world users. MULTIMEDIA ’07 Proceedings of the 15th international conference on
Multimedia, p. 707–716, 2007.
CROFT, W. B.; METZLER, D.; STROHMAN, T. Search Engines: Information Retrieval
in Practice. : Pearson Education, Inc, 2010.
DANTAS, T. M. Uma aplicação de inteligência computacional e estatística clássica na
previsão do mercado de seguros de automóveis brasileiro. In: Simpósio Nacional de
Probabilidade e Estatística - SINAPE. São Pedro - SP: , 2010.
DAVID-SILVA, G. A Informação Televisiva: Uma Encenação da Realidade (Comparação entre Telejornais Brasileiros e Franceses). Tese (Doutorado) — Universidade
Federal de Minas Gerais - Faculdade de Letras, Belo Horizonte, 2005.
DAVID-SILVA, G. Análise semiolinguística da identidade midiático-discursiva de telejornais brasileiros e franceses. XI SILEL - XI Simpósio Nacional de Letras e Linguística
- I Simpósio Internacional de Letras e Linguística, p. 10–19, 2006.
DIAS, E. W.; NAVES, M. M. L. Análise de Assunto: teoria e prática. : Brasília: Thesaurus, 2007.
DIMITROVA, N.; ZHANG, H.; SHAHRARAY, B.; SEZAN, I.; HUANG, T.; ZAKHOR, A.
Applications of video-content analysis and retrieval. IEEE Multimedia, p. 42–55, 2002.
DING, W.; SOERGEL, D.; MARCHIONINI, G. Performance of visual, verbal, and combined video surrogates. Annual Conference of the American Society for Information
Science and Technology, p. 651–664, 1999.
DUGUID, P.; ATKINS, P. Digital libraries - report of the sanfa fe planning wokshop on
distribued knowledge work environments. March 1997.
ELMASRI, R.; NAVATHE, S. Sistemas de banco de dados: fundamentos e aplicações.
3. ed. : LTC - Rio de Janeiro, 2002. 837 p.
111
ENSER, P. The evolution of visual information retrieval. Journal of Information Science,
v. 34, n. 4, p. 531–546, 2008.
FREITAS, M. H. G.; PÁDUA, F. L. C.; BARROS, W. F. An immune-inspired approach
for content-based image retrieval. In: Proceedings of ICCCI - International Conference
on Computer and Computational Intelligence. Bangkok: , 2011.
GEISLER, G. AgileViews: A Framework for Creating More Effective Information Seeking Interfaces. Tese (Doutorado) — University of North Carolina, Chapel Hill, United
States, 2003.
GEISLER, G.; MARCHIONINI, G.; WILDEMUTH, B. M.; HUGHES, A.; YANG, M.; WILKENS, T. Video browsing interfaces for the open video project. ACM SIGCHI Conference on Human Factors in Computing Systems, p. 514–515, 2002.
GONÇALVES, M. A. Streams, Structures, Spaces, Scenarios, and Societies (5S): A
Formal Digital Library Framework and Its Applications. Tese (Doutorado) — Faculty of
the Virginia Polytechnic Institute and State University, 2004.
GONÇALVES, M. A.; FOX, E. A.; WATSON, L. T.; KIPP, N. A. Streams, structures,
spaces, scenarios, societies (5s): A formal model for digital libraries. ACM Transactions
on Information Systems, v. 22, n. 2, p. 270–312, 2004.
GONZALEZ, M.; LIMA, V. L. S. de; LIMA, J. V. de. Termos, relacionamentos e representatividade na indexação de texto para recuperação de informação. Revista Letras
de Hoje, v. 41, n. 2, p. 65–87, Junho 2006.
GOSPODNETIĆ, O.; HATCHER, E. Lucene in action: a guide to the Java search engine. : Manning Publications, 2005. (1-932394-28-1).
HANSEN, J.; SATO, M.; RUEDY, R.; LO, K.; LEE, D. W.; MEDINA-ELIZADE, M. Global
temperature change. PNAS - Proceedings of the National Academy of Sciences - USA,
v. 103, n. 39, p. 14288–14293, 2006.
HUANG, X.; ACERO, A.; HON, H.-W. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. : Prentice Hall PTR, 2001.
HUGHES, A.; WILKENS, T.; WILDEMUTH, B.; MARCHIONINI, G. Text or pictures?
an eyetracking study of how people view digital video surrogates. Lecture notes in
computer science, p. 271–280, 2003.
JOHNSTON, P.; POWELL, A. Expressing Dublin Core Description Sets using XML
(DC-DS-XML). 2008. Disponível em: <http://dublincore.org/>.
JOST, F. Introduction à l’Analyse de la Télévision. : Elypses Editions Marketing, 1999.
KETTERL, M.; SCHULT, O. A.; HOCHMAN, A. Opencast matterhorn: A communitydriven open source solution for creation, management and distribution of audio and
video in academy. 11th IEEE International Symposium on Multimedia, p. 687–692,
2009.
112
KETTERL, M.; SCHULT, O. A.; HOCHMAN, A. Opencast matterhorn: A communitydriven open source software project for producing, managing, and distributing academic video. Interactive Technology and Smart Education, v. 7, n. 3, p. 168–180, 2010.
LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. 2. ed. : Briquet de Lemos,
2004.
LEE, H.; SMEATON, A. Designing the user interface for the físchlár digital video library.
Journal of Digital information, v. 2, n. 4, 2006.
LEVY, D. M.; MARSHALL, C. C. Going digital: a look at assumptions underlying digital
libraries. Communications of the ACM, v. 38, n. 8, p. 77–84, 1995.
LEW, M.; SEBE, N.; DJERABA, C.; JAIN, R. Content-based multimedia information
retrieval: State of the art and challenges. ACM Transactions on Multimedia Computing,
Communications, and Applications (TOMCCAP), v. 2, n. 1, p. 1–19, 2006.
LI, Y.; SMITH, J.; ZHANG, T.; CHANG, S. Multimedia database management systems.
Journal of Visual Communication and Image Representation, v. 15, n. 3, p. 261–264,
2004.
LIMA, F. B.; SOUZA, C. L.; PáDUA, F. L. C.; DAVID-SILVA, G. Reconhecimento automático de fala aplicado à indexação e recuperação de vídeos televisivos com sinais
de Áudio em português brasileiro. In: Anais do XIII EMC - Encontro de Modelagem
Computacional. Nova Friburgo: , 2010.
LIRA, W. A. L.; SOARES, T. de A. C.; BRITTO, R. de S.; RABÊLO, R. A. L.; NETO,
P. de A. dos S. Uma Abordagem Baseada em Sistemas de Inferência Fuzzy para o
Problema de Alocação de Equipes. A Escola Regional de Computação dos Estados
do Ceará, Maranhão e Piauí (ERCEMAPI), 2011.
MAINGUENEAU, D. Analyser les textes de communication. Paris: Armand Colin, 2007.
MAMDANI, E. H. Application of Fuzzy Algorithms for Control of Simple Dynamic Plant.
In: Proceedings of the 4th International Symposium on Multivalued Logic. 1974. (IEEE,
v. 121), p. 1585–1588.
MAMDANI, E. H. Application of Fuzzy Logic to Approximate Reasoning Using Linguistic Synthesis. IEEE Transactions on Computers, v. 12, n. 26, p. 1182–1191, 1977.
MARCHIONINI, G.; WILDEMUTH, B.; GEISLER, G. The open video digital library: A
mobius strip of research and practice. Journal of the American Society for Information
Science and Technology, v. 57, n. 12, p. 1629–1643, 2006.
MARCU, D. Automatic Discourse Parsing. Encyclopedia of Language and Linguistics
2nd Edition, Elsevier, Elsevier, v. 3, p. 649–654, 2005.
MARCU, D.; ECHIHABI, A. An Unsupervised Approach to Recognizing Discourse Relations. Proceedings of the 40th Annual Meeting of the Association for Computational
Linguistics (ACL-02), Kluwer Academic Publishers, July 2002.
113
MU, X.; MARCHIONINI, G. Enriched video semantic metadata: Authorization, integration, and presentation. Annual Conference of the American Society for Information
Science and Technology, p. 316–322, 2003.
MUTHUKUMAR, K.; SEETHA, S.; PÁDUA, F. L. C. . Generating MPEG-7 Audio Descriptor for Content Based Retrieval. In: Proceedings of IEEE RAICS - IEEE Recent
Advances in Intelligent Computational Systems. Trivandrum: , 2011.
NEGNEVITSKY, M. Artificial Intelligence: A Guide to Intelligent Systems. 2. ed. :
Springer-Verlag, 2005. 231 p.
NUNES, F. H. C.; ARAÚJO, A. A.; SOUZA, L. A. C. Uso de sistemas de informação
multimídia em acervos permanentes. INFOCOMP, v. 3, n. 1, p. 1–6, 2004.
PACHECO, E. J. MorphoMap: Mapeamento Automático de Narrativas Clínicas para
uma Terminologia Médica. Tese (Doutorado) — Universidade Tecnológica Federal do
Paraná, Curitiba, Dezembro 2009.
PARDO, T. A. S.; NUNES, M. d. G. V. Review and Evaluation of Dizer - an Automatic
Discourse Analyzer for Brazilian Portuguese. In: Proceedings of the 7th international
conference on Computational Processing of the Portuguese Language. Berlin, Heidelberg: Springer-Verlag, 2006. (PROPOR’06), p. 180–189.
PEREIRA, M. H. R.; PEREIRA, T. T. D.; SABINO, J. L. F.; PáDUA, F. L. C.; DAVIDSILVA, G. Modelagem de um sistema de informação para recuperação de vídeos por
meio de metadados textuais. In: Anais do XIII EMC - Encontro de Modelagem Computacional. Nova Friburgo: , 2010.
PEREIRA, M. H. R.; PIVA, R. C.; PáDUA, F. L. C.; DAVID-SILVA, G.; ALMEIDA, P. E. M.
Avaliação do nível de interesse na recuperação de vídeos utilizando-se lógica fuzzy. In:
Anais do X CBIC - Congresso Brasileiro de Inteligência Computacional. 2011. (CBIC
’11).
PETRELLI, D.; AULD, D. An examination of automatic video retrieval technology on
access to the contents of an historical video archive. Information Systems, v. 42, n. 2,
p. 115–136, 2008.
POZO, D. P. V. del; SILVA, L. V. e; LAENDER1, A. H. F.; GONÇALVES, M. A. Modelagem de bibliotecas digitais usando a abordagem 5s: Um estudo de caso. In: Anais do
XIX Simpósio Brasileiro de Bancos de Dados. 2004.
REITTER, D.; MOORE, J. D. Predicting Success in Dialogue. Proc. 45th Annual Meeting of the Association of Computational Linguistics, p. 808–815, 2007.
RINGOOT, R. Por quê e como analisar o discurso no contexto dos estudos sobre
jornalismo? Revista Comunicação e Espaço Público, Ano IX, n. 1 e 2, p. 133–139,
2006.
ROSETTO, M. Metadados e recuperação da informação: padrões para bibliotecas digitais. II CIBERÉTICA: Simpósio Internacional de Propriedade Intelectual, Informação
e Ética, p. 58–87, April–June 2004.
114
SABINO, J. L. M. F. A Análise Discursiva de Entrevistas e Debates Televisivos como
Parâmetro para Indexação e Recuperação de Informações em um Banco de Dados
Audiovisuais. Dissertação (Mestrado) — Centro Federal de Educação Tecnológica de
Minas Gerais - Departamento de Estudos de Linguagens, 2011.
SAYÃO, L. F. Padrões para bibliotecas digitais abertas e interoperáveis. Encontros Bibli
- Revista Eletrônica de Biblioteconomia e Ciência da Informação, v. 2, n. 2, p. 18–47,
2007.
SILVA, E.; BAPTISTA, L.; FERNANDES, H.; KLAUTAU, A. Desenvolvimento de um sistema de reconhecimento automático de voz contínua com grande vocabulário para o
português brasileiro. Congresso da Sociedade Brasileira de Computação (SBC), 2005.
SILVA, P.; NETO, N.; KLAUTAU, A. Novos recursos e utilização de adaptacão de locutor no desenvolvimento de um sistema de reconhecimento de voz para o portugues
brasileiro. XXVII Simpósio Brasileiro de Telecomunicações, 2009.
SMEATON, A.; LEE, H.; MCDONALD, K. Experiences of creating four video library
collections with the físchlár system. International Journal on Digital Libraries, v. 4, n. 1,
p. 42–44, 2004.
SOUZA, C. L.; LOURO, L. G. C.; NUNES, C. F. G.; PáDUA, F. L. C.; DAVID-SILVA,
G. Extração de quadros chaves para sumarização de vídeos. In: Anais do XIV EMC Encontro de Modelagem Computacional. Nova Friburgo: , 2011.
SOUZA, J. C. A. de. Gêneros e Formatos na Televisão Brasileira. : Summus, 2004.
SOUZA, L. A. C.; ARAúJO, A. A.; NUNES, F. H. C.; CORREA, M. A. Um sistema
de informação multimídia para o CECOR. Brazilian Symposium on Multimedia and
Hypermedia Systems (SBMIDIA), p. 391–394, 2002.
STEDE, M. Connective-Based Local Coherence Analysis: a Lexicon for Recognizing Causal Relationships. In:
Proceedings of the 2008 Conference
on Semantics in Text Processing. Stroudsburg, PA, USA: Association for
Computational Linguistics, 2008. (STEP ’08), p. 221–237. Disponível em:
<http://dl.acm.org/citation.cfm?id=1626481.1626499>.
VALLE, E. A. Sistemas de Informação Multimídia na Preservação de Acervos Permanentes. Dissertação (Mestrado) — Universidade Federal de Minas Gerais, Belo
Horizonte, MG, Brasil, 2003.
VERHAGEN, M.; GAIZAUSKAS, R.; SCHILDER, F.; HEPPLE, M.; MOSZKOWICZ, J.;
PUSTEJOVSKY, J. The TempEval Challenge: Identifying Temporal Relations in Text.
Language Resources and Evaluation, v. 43, n. 2, p. 161–179, jun 2009.
WACTLAR, H.; CHRISTEL, M.; GONG, Y.; HAUPTMANN, A. Lessons learned from
the creation and development of a terabyte digital video library. IEEE Computer, v. 32,
n. 2, p. 66–73, 1999.
ZADEH, L. A. Fuzzy sets. information and control. v. 8, p. 338–353, 1965.
115
ZHAOMING, L.; XIANGMING, W.; XINQI, L.; WEI, Z. A video retrieval algorithm based
on affective features. IEEE Ninth International Conference on Computer and Information Technology, v. 1, p. 134–138, 2009.
116
ANEXO A -- Formulário de Pesquisa de Perfil
do Usuário
A.1 Sessão 01 – Hábitos de pesquisa de vídeos
1 - Com que propósito você costuma pesquisar vídeos televisivos? Caso queira,
marque mais de uma opção.
- Profissionais
- Acadêmicos
- Pessoais
- Outros
2 - Qual fonte você utiliza para ter acesso aos vídeos televisivos? Caso queira,
- Emissora (Cedocs)
- Gravação própria
- Internet
- Empresas Contratadas
- Arquivos Públicos
- Amigos
- Outros
2.1 - Caso tenha assinalado “outras” na questão anterior, especifique-as aqui.
3 - Há dificuldade em reunir o material desejado?
- Sempre
117
- Frequentemente
- Raramente
- Nenhuma
4 - Se há dificuldade em reunir o material desejado, pesquisas ou trabalhos deixam
de ser realizados?
- Sempre
- Frequentemente
- Raramente
- Nunca
5 - Se você utiliza sites para fazer a sua busca, indique abaixo qual (is)? Caso
queira, marque mais de uma opção.
- YouTube
- Vimeo
- Google Vídeos
- Yahoo! Vídeos
- Globo Vídeos
- TV UOL
- R7 Vídeos (Record)
- Sistemas de busca (Google, Cade, ...)
- Vídeos disponibilizados no próprio site da emissora/programa
- Outros
5.1 - Caso tenha assinalado “outros” na questão anterior, especifique-os aqui.
6 - Você costuma encontrar na internet os vídeos que precisa?
- Sempre
- Frequentemente
- Raramente
- Nunca
7 - A variedade de vídeos televisivos nos sites é importante para você?
118
- Totalmente
- Muito
- Moderadamente
- Pouco
- Nada
8 - Atualmente a variedade de vídeos televisivos encontrados por você nos sites é:
- Grande
- Suficiente
- Pouca
- Insuficiente
9 - A qualidade dos vídeos televisivos, considerando aspectos como a boa condição
audio-visual, é importante para você?
- Totalmente
- Muito
- Moderadamente
- Pouco
- Nada
10 - Atualmente a qualidade dos vídeos disponíveis nos sites é:
- Excelente
- Muito boa
- Boa
- Regular
- Ruim
- Péssima
11 - Você conhece o site da Inathèque da França (inatheque.ina.fr)?
- Sim
- Não
119
11.1 - Você já realizou buscas ou fez downloads na Inathèque?
- Sim
- Não
11.2 - Cite as principais contribuições da Inathèque para o seu trabalho?
12 - Um banco de dados constituído por arquivos de vídeos televisivos facilitaria o
seu trabalho de pesquisa?
- Sim
- Não
- Não sei
13 - Marque abaixo os tipos de programas com as quais você trabalha prioritariamente:
- Telejornalismo
- Documentários
- Programas de entrevista
- Programas de debates
- Humorísticos
- Esportivos
- Reality Shows
- Programas de Auditório
- Educativos
- Infantis
- Culturais
- Variedades
- Filmes
- Outros
A.2 Sessão 02 – Estrutura
120
14 - Com que propósito você costuma pesquisar vídeos televisivos? Caso queira,
- Data/horário de emissão
- Resumo do programa
- Texto/Áudio do apresentador, repórter e/ou de cada convidado dos programas
- Nome da emissora
- Nome do programa
- Tipo de programa
- Temas
- Outros
15 - Caso as atrações exibidas nas emissoras sejam divididas e indexadas em partes
no sistema CAPTE, que tipo de cenas, temáticas ou até imagens seriam de seu
interesse? Caso queira, marque mais de uma opção.
- Saúde
- Política
- Economia
- Turismo
- Educação
- Sexo
- Drogas
- Violência Urbana
- Tragédias
- Esporte
- Música
- Dança
121
- Literatura
- Teatro
- Artes Plásticas
- Celebridades
- Outras cenas, temas e imagens
15.1 - Caso tenha assinalado “Outras cenas, temas e imagens” na questão anterior,
especifique-as aqui.
16 - Uma ferramenta de análise (quantitativa) automática do conteúdo dos programas
seria importante para a sua pesquisa?
- Sim
- Provavelmente
- Não
17 - Assinale dentre as informações quantitativas listadas abaixo, aquelas que seriam
importantes para sua pesquisa.
- Duração total do programa
- Duração de cada matéria exibida
- Tempo utilizado pelos apresentadores dos programas (tempo de fala)
- Tempo de exibição dos apresentadores nos programas (capital visual - imagem)
- Número de temáticas abordadas por programa
- Tempo de temáticas abordadas por programa
- Sequência temática das matérias e quadros em cada programa
- Tempo total de fala dos locutores nas matérias
- Tempo total de fala dos participantes nas matérias
- Tempo de exibição dos participantes nas matérias (capital visual ? imagem)
- Tempo de exibição dos locutores nas matérias (capital visual ? imagem)
- Número de quadros apresentados nos programas
- Tempo de exibição de cada quadro no programa
- Número de blocos apresentados em cada programa
122
- Tempo de exibição de cada bloco do programa
- Número e classificação dos planos fílmicos apresentados em cada matéria
- Número e classificação dos planos fílmicos apresentados em cada programa
- Número de participantes no programa
- Outras
17.1 - Caso tenha assinalado “Outras” na questão anterior, especifique-as aqui.
18 - A descrição do cenário de cada programa seria importante para a sua pesquisa?
- Sim
- Provavelmente
- Não
18.1 - Quais dados e informações sobre os cenários seriam importantes de serem descritos e apresentados pelo sistema CAPTE?
19 - A descrição das vinhetas de cada programa seria importante para a sua pesquisa?
- Sim
- Provavelmente
- Não
20 - O levantamento e descrição de infográficos utilizados por cada programa seria
importante para a sua pesquisa?
- Sim
- Provavelmente
- Não
20.1 - Quais dados e informações relacionados aos infográficos deveriam ser descritos
e apresentados pelo sistema CAPTE?
21 - Como essas informações poderiam ser apresentadas?
- Em gráficos, que possam ser extraídos do site para utilização em pesquisas
A.3 Sessão 03 – Análise do pesquisador
123
- Em textos, objetivos, que possam ser extraídos do site para utilização em
pesquisas
- Em textos, com ampla descrição, que possam ser extraídos do site para
utilização em pesquisas
- Outras formas
21.1 - Caso tenha assinalado "outras formas"na questão anterior, especifique-as aqui:
A.3 Sessão 03 – Análise do pesquisador
22 - Quais são hoje, em sua opinião, as principais dificuldades para buscar/recuperar
vídeos de seu interesse?
23 - Que cuidados devem ser levados em consideração pelo CEFET-MG ao disponibilizar estas informações em rede?
24 - Existem outras informações e/ou sugestões que você gostaria de nos apresentar
para a elaboração do sistema?
124
ANEXO B -- Lista de vídeos relevantes para os
testes de recuperação
Consulta 1 : corrupção política
1 - Marina Silva - Bloco 02/03
2 - Tráfico e Mídia - Bloco 01/02
3 - Tráfico e Mídia - Bloco Final 02/02
4 - José Dirceu - Bloco 01/04
7 - José Dirceu - Bloco Final 04/04
8 - Novas Regras OMG - 2a Edição
9 - Reforma Política - 2a Edição
Consulta 2 : problemas saúde
1 - Os perigos de uma má alimentação - Bloco 01/03
2 - Os perigos de uma má alimentação - Bloco 02/03
3 - Os perigos de uma má alimentação - Bloco Final 03/03
4 - Creche de Guaxupé - 2a Edição
5 - Seminário de Agricultura Urbana - 1a Edição
6 - Campanha contra Queimaduras - 2a Edição
7 - Dificuldades Plano de Saúde - 2a Edição
8 - Poluição em BH - 1a Edição
9 - Benefícios para o Trabalhador com Câncer - 2a Edição
10 - Direito dos doentes e incapacitados - Bloco 01/03
12 - Direito dos doentes e incapacitados - Bloco Final 03/03
Consulta 3 : violência urbana
1 - Tráfico e Mídia - Bloco 01/02
2 - Tráfico e Mídia - Bloco Final 02/02
3 - Violência contra homossexuais no Brasil - Bloco 01/03
5 - Violência contra homossexuais no Brasil - Bloco Final 03/03
6 - Homens Agressores - 2a Edição
7 - Disque Direitos Humanos - 2a Edição
Consulta 4 : direitos do cidadão
3 - Direito dos doentes e incapacitados - Bloco Final 03/03
4 - Pensão alimentícia - Bloco 01/03
5 - Pensão alimentícia - Bloco 02/03
6 - Pensão alimentícia - Bloco Final 03/03
7 - Direitos do Imóvel Demolido - 2a Edição
8 - Disque Direitos Humanos - 2a Edição
9 - Greve dos Correios - 2 Edição
10 - Limite das Revistas Rotineiras - 2a Edição
11 - Risco da Migração Clandestina - 2a Edição
12 - Benefícios para o Trabalhador com Câncer - 2a Edição
Consulta 5 : discriminação social
3 - Violência contra homossexuais no Brasil - Bloco Final 03/03
125
4 - Monteiro Lobato - Preconceito na Literatura - Bloco 01/03
6 - Monteiro Lobato - Preconceito na Literatura - Bloco Final 03/03
7 - Risco da Migração Clandestina - 2a Edição
8 - Viviane Mosé - Friedrich Nietzsche - Bloco 03/06
Consulta 6 : literatura brasileira
3 - Monteiro Lobato - Preconceito na Literatura - Bloco Final 03/03
5 - Carlos Heitor Cony - Bloco 01/06
Consulta 7 : filosofia humanidade
6 - Carlos Heitor Cony - Bloco Final 06/06
Consulta 8 : discriminação social
5 - Marina Silva - Bloco Final 01/03
6 - Marina Silva - Bloco Final 03/03
126
9 - Contardo Calligaris - Bloco Final 04/04
127
128
ANEXO C -- Telas das Guias de Serviços da
Interface de Exibição de Vídeos
Figura C.1: Tela da guia do serviço de busca geral.
Figura C.2: Tela da guia do serviço de geração de gráficos discursivos.
Anexo C -- Telas das Guias de Serviços da Interface de Exibição de Vídeos
Figura C.3: Tela da guia do serviço de busca avançada.
129

Desenvolvimento de um Sistema de Informação - Piim-Lab

Transcrição

Documentos relacionados

palavra ´Arestra´, não consigo visualizar os vídeos

Neste espaço são sugeridos filmes e

Matéria sobre webséries internacionais

Curso de Premiere Descrição Pré-requisito Carga

EDU-datasheet_LATAM web

Lançamento Karsten: Coleção Marble

FORMATO – VÍDEOS COMERCIAIS 15s e 30s

Clique aqui para o

Fazer

Regulamento - Registro Visual