TCC Lorena Dutra da Costa - CA+SA – Computação Aplicada em

Transcrição

UNIVERSIDADE FEDERAL DE SANTA MARIA
CENTRO DE TECNOLOGIA
DEPARTAMENTO DE COMPUTAÇÃO APLICADA – DCOM
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
ESTRUTURAÇÃO E TRANSCRIÇÃO DO CONTEÚDO
DE LAUDOS RADIOLÓGICOS
TRABALHO DE CONCLUSÃO DE CURSO
Lorena Dutra da Costa
Santa Maria, RS, Brasil
2015
ESTRUTURAÇÃO E TRANSCRIÇÃO DO CONTEÚDO
DE LAUDOS RADIOLÓGICOS
Lorena Dutra da Costa
Monografia apresentada ao Curso de Bacharelado em Sistemas de
Informação, Área de Computação Aplicada, da Universidade Federal de Santa
Maria (UFSM, RS), como requisito parcial para obtenção do grau de
Bacharel em Sistemas de informação.
Orientador: Prof. Dr. Marcos Cordeiro d’Ornellas
Santa Maria, RS, Brasil
2015
DEDICATÓRIA
Para pessoas especiais que me ensinaram a ser quem eu sou hoje,
minha família. Principalmente minha mãe por nunca ter medido
esforços para que eu concluísse mais esta etapa, e por ser um exemplo
de coragem e persistência na minha vida. A minha irmã por sempre
torcer pela minha vitória, me transmitindo forças mesmo de longe.
Ao meu namorado, melhor amigo e companheiro de todas as horas,
pelo carinho, amor e compreensão de sempre e por me trazer paz e
tranquilidade em meio à correria de cada semestre.
Aos amigos e colegas pelo incentivo е pelo apoio constantes durante o
período da graduação.
A todos que vibraram comigo as minhas conquistas e ajudaram a
atravessar os momentos difíceis.
AGRADECIMENTOS
Professores do Curso de Sistemas de informação – pela qualidade do ensino e amizade;
Grupo de pesquisa Computação aplicada a saúde (CA+SA) – pela ajuda no acesso às
informações e colaboração na pesquisa;
Laboratório de computação aplicada – Pela disponibilização do lugar para o desenvolvimento
da pesquisa;
Marcos Cordeiro d’Ornelas – pelo estímulo à busca do conhecimento, além da orientação;
Animati Computação Aplicada à saúde – pela oportunidade de estágio e colaboração com a
pesquisa.
Luciana Dutra Elesbão e Thais de Oliveira Lopes - pela revisão do trabalho.
A todos aqueles que, de alguma forma, contribuíram para a realização deste trabalho.
RESUMO
Trabalho de conclusão de curso
Bacharelado em Sistemas de Informação
Universidade Federal de Santa Maria
ESTRUTURAÇÃO E TRANSCRIÇÃO DO CONTEÚDO CONTIDO
EM LAUDOS RADIOLÓGICOS
AUTORA: LORENA DUTRA DA COSTA
ORIENTADOR: MARCOS CORDEIRO D’ORNELLAS
Data e Local da Defesa: Santa Maria, 14 de dezembro de 2015.
Devido à falta de padronização do processo de criação de laudos médicos, que se difere entre
as organizações, variando de acordo com os métodos e tecnologias utilizadas, esse
procedimento, muitas vezes, mostra-se lento e/ou, sujeito a falhas. O reconhecimento de voz
vem sendo cada vez mais utilizado na medicina, com isso, a inserção desta tecnologia no
processo de criação de laudos é uma alternativa promissora, que propõe um processo
otimizado de geração de laudos, com mais agilidade e maior nível de confiança, uma vez que,
os métodos atualmente utilizados, exigem mais tempo e pessoal para a finalização do
procedimento. Assim, tornou-se relevante um estudo relacionado ao processo de elaboração
de laudos. Este trabalho objetivou a criação de uma ontologia para a criação de um padrão
para a geração de laudos radiológicos, e conceber um meio que permita o reconhecimento de
voz para o português brasileiro, através da criação de modelos, acústico e de linguagem,
voltados a este idioma, já que existem poucos estudos relacionados ao reconhecimento de voz
com o português. A criação dos modelos acústico e de linguagem, exigem a realização de um
treinamento da linguagem que é realizado através da criação de gravações em áudio, referente
a laudos de tomografia computadorizada. Com os modelos criados foram realizados testes
qualitativos com o objetivo de verificar e testar a qualidade dos modelos visando à obtenção
de melhores modelos possíveis com a base de dados utilizada.
Palavras-chave: Laudo; Radiologia; Ontologia; Tecnologia.
ABSTRACT
Trabalho de conclusão de curso
Bacharelado em Sistemas de Informação
Universidade Federal de Santa Maria
STRUCTURE AND TRANSCRIPTION OF THE REPORTS
RADIOLOGICAL
AUTHOR: LORENA DUTRA DA COSTA
ADVISER: MARCOS CORDEIRO D’ORNELLAS
Defense Place and Date: Santa Maria, december 14th, 2015.
Due to lack of standardization of the creation of medical reports process, which differs
between organizations, varying according to the methods and technologies used, this
procedure often proves to be slow and / or prone to failure. Therefore it became relevant a
study related to reports of drafting process. This work aimed to create an ontology likely to
set a standard for the generation of radiology reports, and devise a means to allow speech
recognition to Brazilian Portuguese, by creating models, acoustic and language, geared to this
language since there are few studies related to speech recognition with the Portuguese. Voice
recognition is being increasingly used in medicine, therefore, the inclusion of this technology
in the process of creating reports is a promising alternative, which proposes an optimized
process of generating reports, with more agility and higher level of confidence, since the
methods currently used, require more time and personnel for completion of the procedure.
Thus, this paper presents the creation of an ontology and the creation of acoustic and language
models, which require the completion of a training of language by creating audio recordings,
referring to computed tomography reports. With models created qualitative tests were
performed in order to verify and test the quality of the models in order to obtain the best
possible models with the database used.
Keywords: Report; Radiology; Ontology; Technology.
LISTA DE FIGURAS
Figura 1 - Arquitetura Sphinx-4.......................................................................................
Figura 2 - Processo de reconhecimento de fala...............................................................
Figura 3 - Etapas do treinamento......................................................................................
Figura 4 - Processo de criação da ontologia.....................................................................
Figura 5 - Resultados obtidos com o Poronto...................................................................
Figura 6 - Exemplificação das classes da ontologia.........................................................
Figura 7 - Ontologia exportada para o Protégé.................................................................
Figura 8 - Demonstração gráfica da ontologia no Protégé...............................................
Figura 9 - Exemplificação do Janelamento.....................................................................
Figura 10 - Cálculo dos MFCC (1) ..................................................................................
Figura 11 - Cálculo dos MFCC (2) ..................................................................................
11
18
19
21
23
24
25
25
27
28
29
LISTA DE TABELAS
Tabela 1 - Resultados extraídos com o Poronto...............................................................
Tabela 2 - Valores padrão do Sphinx para os parâmetros testados..................................
Tabela 3 - Resultados obtidos com os valores padrão do Sphinx.....................................
Tabela 4 - Resultado dos testes com variação dos estados compartilhados....................
Tabela 5 - Resultado dos testes com variação do número de gaussianas por estado........
Tabela 6 - Resultado dos teses com o número de coeficientes MFFCC..........................
Tabela 7 - Resultado dos testes com languagewheit........................................................
23
34
35
35
37
38
39
Tabela 8 - Resultados obtidos com os valores adequados de configuração para o
Sphinx...............................................................................................................................
40
LISTA DE GRÁFICOS
Gráfico 1 – Resultado dos testes com variação dos estados compartilhados.....................
Gráfico 2 – Resultado dos testes com variação do número de gaussianas por estado........
Gráfico 3 – Resultado dos teses com o número de coeficientes MFFCC...........................
Gráfico 4 – Resultado dos testes com languagewheit.........................................................
36
37
38
39
LISTA DE ABREVIATURAS E SIGLAS
ACC - Acurácia
BIREME- Biblioteca Regional de Medicina
BVS - Biblioteca Virtual em Saúde
CMU - Carnegie Mellon University
DCT - Discrete Cosine Transform
DeCS - Descritores em ciência da saúde
FFT - Fast Fourier Transform
GNU - Gnu is Not Unix
GPL - General Public License
HMM - Hidden Markov Models
HTK - Hidden Markov Model Toolkit
IBM - nternational Business Machines Corporation
MFCC - Mel-Frequency Cepstral Coefficients
OWL - Web Ontology Language
PDF Portable Document Format
PT-BR - Português Brasileiro
RDF - Resource Description Framework
Real Time Factor - RTF
XLS Formato utilizado pelo Microsoft Excel
XML -Extensible Markup Language
WER - Word Error Rate
LISTA DE APÊNDICES
Apêndice A - Arquivo de transcrições ..................................................................................................
46
Apêndice B - Arquivo de dicionário......................................................................................................
63
Apêndice C - Arquivo de configuração do Sphinx ...........................................................
72
SUMÁRIO
1 INTRODUÇÃO ........................................................................................................ 1
1.1 Justificativa ....................................................................................................................................... 3
1.2Objetivos ............................................................................................................................................ 4
1.3 Estrutura do trabalho ......................................................................................................................... 4
2 REVISÃO DA LITERATURA ............................................................................... 5
2.1 Ontologias ......................................................................................................................................... 6
2.2 Reconhecimento de voz .................................................................................................................... 6
2.2.1 Reconhecimento de voz para o PT-BR.............................................................................. 8
3 FERRAMENTAS UTILIZADAS ........................................................................... 8
3.1 Poronto .............................................................................................................................................. 9
3.2 Protégé............................................................................................................................................... 9
3.3 Audacity .......................................................................................................................................... 10
3.4 CMU Sphinx Toolkit....................................................................................................................... 10
3.4.1 Estrutura Sphinx-4 ........................................................................................................... 11
3.5 Sarvox ............................................................................................................................................. 12
4 FUNDAMENTOS................................................................................................... 13
4.1 Base de dados .................................................................................................................................. 13
4.1.1 Gravações ........................................................................................................................ 13
4.1.2 Transcrições ..................................................................................................................... 14
4.1.3 Dicionário ........................................................................................................................ 14
4.1.4 Fonemas ........................................................................................................................... 16
4.1.5 Filler ................................................................................................................................ 17
4.1.6 Arquivo de frases ............................................................................................................. 17
4.1.7 Arquivo de nomeação dos áudios .................................................................................... 18
4.1.8 Arquivo batch .................................................................................................................. 18
4.2 Processo de reconhecimento de voz ................................................................................................ 19
5 DESENVOLVIMENTO ........................................................................................ 21
5.1 Criação da Ontologia....................................................................................................................... 21
5.1.1 Estruturação da ontologia ................................................................................................ 23
5.2 Treinamento .................................................................................................................................... 28
5.2.1 Extração de características............................................................................................... 28
5.2.2 Treinamento do modelo acústico ..................................................................................... 32
5.2.2.1 Etapa 1: Treinamento dos modelos independentes de contexto....................................................................................33
5.2.2.2 Etapa 2: Treinamento dos modelos dependentes de contexto ........................................................................................34
5.2.2.3 Etapa 3: Geração da árvore de decisão e agrupamento de estados compartilhados .......................................................34
5.2.2.4 Etapa 4: Poda nas árvores..............................................................................................................................................34
5.2.2.5 Etapa 5: Retreinamento dos estados ..............................................................................................................................35
5.2.3 Empacotamento do modelo acústico ................................................................................................................................35
5.2.4 Treinamento do modelo de linguagem ............................................................................ 35
5.3 Decodificação .................................................................................................................................. 36
5.4 Testes de performance e resultados ................................................................................................. 37
6 CONSIDERAÇÕES FINAIS ................................................................................ 44
REFERENCIAS BIBLIOGRÁFICAS .................................................................... 46
Apêndice A – Arquivo de transcrições .................................................................... 49
Apêndice B – Arquivo de dicionário ....................................................................... 66
Apêndice C – Arquivo de configuração do Sphinx ................................................ 75
1
CAPÍTULO 1
Neste capítulo será dado início à apresentação da pesquisa efetuada, identificando-a
através da sua introdução, justificativa, objetivos e a estrutura do trabalho em si.
1 INTRODUÇÃO
O constante avanço tecnológico tem possibilitado a inserção da tecnologia em diversas
áreas, proporcionando em conjunto, a incorporação de conhecimentos científicos nesses
domínios. No âmbito clínico, diariamente são geradas inúmeras informações referentes a
laudos médicos, essas informações devem ser fidedignas e necessitam ser armazenadas de
forma a manter a segurança necessária, exigida pelo setor médico, por tratar-se de dados
relacionados a pacientes.
Geralmente as informações, referentes aos laudos radiológicos, são armazenadas em
forma de texto, juntamente com imagens e os dados pessoais dos pacientes. Este conjunto de
informações permitirá que o médico realize o diagnóstico do paciente através de um laudo
radiológico que, quando finalizado, será constituído de muitas informações, o que dificulta a
existência de um padrão para sua estruturação.
Cabe ressaltar que os laudos médicos têm suma importância no auxílio ao tratamento
de inúmeras patologias, pois, a partir deles, é possível obter um diagnóstico em relação à
saúde de um paciente. Em relação aos laudos radiológicos Zerbinatti 2010, descreve:
O diagnóstico por imagens é uma área que tem evoluído incessantemente. Esta área
apoia os profissionais da área da saúde em enxergar, através de imagens que
caracterizam a anatomia ou a funcionalidade de um determinado órgão ou, ainda,
alguma área do corpo humano (ZERBINATTI, 2010, p.30).
Para Fenelon (2003), um laudo radiológico é um documento impresso, no qual
constam informações sobre as técnicas utilizadas e as possíveis intercorrências ocorridas
durante um procedimento médico, além de descrição sucinta e completa, apresentando
diagnóstico seguro.
2
Quanto ao processo de criação dos laudos, ocorre da seguinte forma: o médico, ao
visualizar a radiografia, com o auxílio de um gravador, captura sua fala que, posteriormente, é
ouvida por outra pessoa, que digita as informações contidas no áudio. Como não é exigido
que a pessoa responsável pela transcrição do áudio possua conhecimento sobre seu conteúdo,
esse método poderá apresentar falhas, produzindo laudos imprecisos ou, até mesmo, errôneos.
Além disso, deve-se considerar que, esse procedimento, ao ser realizado por uma segunda
pessoa, exigirá maior quantidade de tempo até que seja finalizado. O processo de transcrição,
quando realizado desta forma, apresenta grande morosidade, fazendo com que o tempo de
espera seja bem maior do que o esperado pelos médicos ou pelos pacientes.
O autor lembra que quando os laudos são realizados desta forma podem ocorrer erros
quanto aos meios e condutas adotados, como erro de percepção, falta de conhecimento,
julgamento equivocado ou técnica e posicionamento inadequados. Assim, percebe-se a
complexidade e a importância dos procedimentos relativos à geração de laudos radiológicos,
desde a análise das imagens, feita pelo médico laudador.
Martins (2011) ressalta que esse problema poderá agravar-se consideravelmente
quando o laudo pertencer a um paciente que necessite de um diagnóstico imediato. O autor
menciona algumas dificuldades que podem surgir durante o processo, como a falta de
conhecimento do digitador, que ocorre quando quem realiza a passagem do áudio digital para
texto não possui o conhecimento necessário ou não tem entendimento sobre alguns termos da
área; a demora na conclusão dos laudos que pode ocorrer em virtude desses entraves; as trocas
recorrentes entre os laudos dos pacientes, dependendo da forma de identificação utilizada,
como fitas adesivas; a danificação do áudio quando o processo de transporte das gravações
pode prejudicar o dispositivo que contém a referida gravação; o sobrecarregamento do
responsável pela transcrição do áudio pode ocorrer quando a função desta pessoa, dentro da
instituição, é na verdade, outra.
Nesse contexto, considerando o grande volume de dados gerados e o valor que
possuem no tratamento dos pacientes, surge a necessidade de tratar o armazenamento das
informações geradas de forma mais rápida, fidedigna, segura e fácil de recuperar. Este
trabalho propõe, através da introdução de sistemas tecnológicos, suprir esta limitação.
Este trabalho objetivou além da criação de uma ontologia para a estruturação padrão
de informações, o desenvolvimento dos modelos acústico e de linguagem direcionados ao
português brasileiro para proporcionar o desenvolvimento de um sistema que faça a
transcrição direta dessas informações a laudos digitais, que serão gerados a partir do
envolvimento somente do médico laudador.
3
1.1 Justificativa
O laudo radiológico, conforme Netto et al (2011), é um documento composto por
imagens, dados pessoais dos pacientes e informações textuais que o médico laudador desejar.
A quantidade de informações contidas no documento, e os diferentes métodos realizados
pelos médicos, em cada instituição, ocasiona uma falta de padronização na geração destes
laudos.
Uma ontologia, para Annibal et al (2011), é um meio utilizado para demonstrar,
estruturalmente, termos que pertencem a um domínio em comum, como também seus
relacionamentos, com a finalidade de permitir que seja elaborado e compartilhado um
vocabulário em comum entre seus usuários.
Quanto ao que vem sendo estudado na área, Farinazzo (2011), destaca:
Muito pouco tem sido explorado em questão da avaliação destes sistemas de voz
para uso em domínio restrito na área da Saúde. Não há trabalhos suficientes na
literatura que estabeleçam os requisitos específicos da área que devem ser atendidos
de forma a tornar o uso de reconhecimento de voz efetivo e eficaz (FARINAZZO,
2011, p. 22).
Conforme Jasinski (2006), a inserção do uso de reconhecimento de voz para a
realização de diagnóstico de pacientes vem sendo utilizada por várias empresas no campo da
saúde, como Phillips e Nuance Dictaphone Healthcare Solutions. O autor observa que vários
produtos que realizam reconhecimento de voz estão no mercado para uso em radiologia e
patologia. Durlin e Lumsden (2008) destacam que a criação de relatórios utilizando o
reconhecimento de voz é proposta para reduzir, significativamente, o tempo de resposta em
serviços de diagnóstico, e que muitos autores convergem ao afirmar que o foco principal das
pesquisas relacionadas ao reconhecimento de fala em aplicações de saúde tem sido, até então,
a facilitação da geração da documentação médica.
Diante do exposto, esta pesquisa justifica-se pela importância e relevância deste
estudo, sobre o tema aqui tratado, para a medicina. O processo de gravação em fitas para
posterior transcrição, realizada por uma segunda pessoa, tarda a conclusão do laudo. Martins
(2011) afirma que os sistemas de transcrição automática de laudos têm sido cogitados como
4
solução para diminuir esse tempo e também como redutor dos custos globais dos
departamentos de radiologia.
Dessa forma, a criação de meios que permitam o desenvolvimento um sistema de
reconhecimento de voz, utilizando uma ontologia específica da área como base, para a
geração de laudos radiológicos, pode contribuir significativamente com a comunidade
científica e médica, uma vez que o sistema agilizará o processo, realizando-o em menor
espaço de tempo e garantindo a confiabilidade que é exigida nos processos médicos.
1.2Objetivos
Este estudo objetivou além da elaboração de uma ontologia específica para laudos
radiológicos através da criação de um padrão para geração destes laudos, a criação dos
modelos acústico e de linguagem que permitissem o reconhecimento de voz voltado ao
Português Brasileiro (PT-BR), o que torna necessário a realização de um treinamento desses
modelos, para possibilitar a realização do processo de reconhecimento de voz no idioma
especificado e que este reconhecimento seja o mais preciso possível.
O objetivo principal envolveu uma análise dos métodos e ferramentas para o
desenvolvimento de ontologias, limitando o estudo apenas a ferramentas Open Source; a
estruturação do conhecimento em forma de uma ontologia que possibilite a padronização das
informações para a geração de laudos radiológicos; a análise de ferramentas e o estado da arte
do reconhecimento de voz para o PT-BR; a realização de gravações em forma de áudio dos
dados obtidos na pesquisa, para se obter um banco de dados de voz e o teste da ferramenta
escolhida verificando a qualidade da transcrição.
1.3 Estrutura do trabalho
Este trabalho encontra-se dividido em seis capítulos, denominados: Introdução,
Revisão
da
literatura,
Ferramentas
Considerações Finais, respectivamente.
utilizadas,
Fundamentos,
Desenvolvimento
e
5
No capítulo 1 são apresentadas as considerações iniciais do trabalho como, a
introdução, a justificativa e os objetivos do estudo. No capítulo 2 é apresentada a revisão da
literatura, que inclui uma revisão sobre ontologias e o reconhecimento de voz, assim como o
reconhecimento voltado ao PT-BR, que é o foco deste trabalho. No capítulo 3 são
apresentadas as ferramentas utilizadas para o desenvolvimento do trabalho. No capítulo 4 são
apresentados alguns fundamentos, como a base de dados que foi utilizada e o processo de
reconhecimento de voz. O capitulo 5 apresenta o processo de desenvolvimento, que inclui a
criação da ontologia, a edição da ontologia, o treinamento dos modelos assim como a
decodificação e testes com os modelos criados. O capítulo 6 apresenta as considerações finais
do trabalho.
CAPÍTULO 2
Neste capítulo será apresentada a revisão da literatura realizada, sendo esta dividida
em ontologias e reconhecimento de voz.
2 REVISÃO DA LITERATURA
Nesta seção são apresentadas as principais referências que embasaram o estudo. Os
principais assuntos tratados serão: ontologias, reconhecimento de voz, assim como sua
utilização para o português brasileiro.
Ressalta-se que, para realização da pesquisa bibliográfica, foram utilizadas, através da
ferramenta de pesquisa Google, as seguintes palavras de busca ou a junção das mesmas: (1)
Reconhecimento de Voz; (2) Laudo(s) Radiológico(s); (3) Speech Recognizer; (4) Radiology;
(4) Ontologia(s); (5) Ferramenta(s).
Do material obtido, foi feita revisão e identificação do que tinha relação com o assunto
tratado neste trabalho, mais especificamente, sobre o estado da arte de reconhecimento de
voz, direcionando para a área da saúde em radiologia e sobre ferramentas Open Source para
criação de ontologias e reconhecimento de voz, assim como, sobre o funcionamento e
6
utilização das mesmas. A seguir será apresentada a revisão da literatura obtida na pesquisa,
estruturada em tópicos, separados por assuntos específicos.
2.1 Ontologias
A área da informação em saúde corresponde a uma das esferas interdisciplinares da
ciência que apresentam um crescimento significativo (MACDOUGALL
et al apud
BIOLCHINI, 2001).
Biolchini, 2001 ressalta ainda:
Uma vez que se destinam a auxiliar os processos de raciocínio e de tomada de
decisão dos profissionais, os sistemas de informação devem ser desenvolvidos
visando ampliar as potencialidades, não somente de busca e recuperação de unidades
informacionais, como também de organização e apresentação de unidades
semanticamente relacionadas, ampliando a recuperação e evocação de unidades de
sentido e de conjuntos informacionais relevantes e significativos ( BIOLCHINI,
2001, p. 11).
O conhecimento possui natureza progressiva, e o processo de obtenção do
conhecimento se dá através da criação de padrões cognitivos, que permitem uma redução nas
diferenças de comunicação entre os usuários. Com isso, é identificada uma necessidade de
recorrer à construção de ontologias voltadas ao domínio médico (BIOLCHINI, 2001).
Uma ontologia pode ser vista como forma de obtenção de conhecimento a partir de
textos. Podem ser utilizadas para representar um domínio, pois permitem representar através
de uma estruturação simples, vocabulários formais que descrevem as premissas básicas de
uma determinada área (FREITAS e SCHULZ, 2009).
Portanto, em um domínio como o médico, onde estão envolvidas várias pessoas e a
área de conhecimento é muito extensa, verifica-se a necessidade de criar uma ontologia,
visando a estruturação deste conhecimento e a facilitação da comunicação entre a comunidade
envolvida.
2.2 Reconhecimento de voz
7
De acordo com Farinazzo (2011), o reconhecimento de voz é o processo pelo qual o
computador pode converter um sinal acústico em um texto.
Conforme Johnson et al (2014), os estudos pioneiros utilizando a relação de
tecnologias e o processamento da linguagem natural foram publicados em 1970 e 1980. As
inserções das tecnologias computacionais no ramo da saúde têm ocorrido com um
crescimento substancial nos últimos 40 anos. Sua utilização em radiologia tem sido efetuada
com os autores observando uma redução no tempo de resposta de relatórios de 15,7 horas para
4,7 horas.
De acordo com Durling e Lumsden (2008), quando foi iniciada a inserção do
reconhecimento de voz na área da saúde os usuários precisavam aprender a falar devagar,
inserindo pausas entre palavras, a fim de serem entendidos. Contudo os sistemas atuais são,
no entanto, contínuos, permitindo que os usuários falem mais naturalmente. Estes sistemas
podem ser dependentes de quem está falando ou, independentes.
Os autores alegam que sistemas dependentes de locutor exigem que os usuários
realizem um treinamento para que o sistema conheça a voz do usuário quando está realizando
a transcrição. Sistemas independentes de locutor estão configurados para conhecer qualquer
indivíduo que passe a usar o sistema (DURLING e LUMSDEN, 2008).
Nesse sentido, os sistemas dependentes de locutor se enquadram na proposta deste
trabalho, já que será realizado um treinamento da linguagem, através de gravações com a voz
da autora..
Segundo White (2005), o reconhecimento de fala contínua é uma tecnologia
emergente que permite a transcrição digital direta de relatórios de radiologia em forma de
ditado. Destaca ainda, que esta tecnologia está sendo amplamente implantada na comunidade
de radiologia:
Reconhecimento de fala contínua estão aos poucos substituindo os serviços de
transcrição convencionais em departamentos de radiologia em toda a Europa e
América do Norte. Esta revolução na forma como os relatórios de radiologia são
gerados tem sido impulsionada por dois fatores principais: (1) um interesse em
diminuir os custos operacionais departamentais e (2) o desejo de diminuir os prazos de
entrega de relatórios de radiologia. Implantação de Sistemas de Comunicação e
Arquivamento de Imagens (PACS) foi um preâmbulo para este crescimento (WHITE,
2005, p. 01).
Durling e Lumsden (2008) veem o reconhecimento de voz como uma tecnologia
auspiciosa que favorece ao aumento da usabilidade desta técnica em sistemas da área da
saúde.
8
2.2.1 Reconhecimento de voz para o PT-BR
Diante do, já exposto, é possível afirmar que o reconhecimento de voz vem sendo cada
vez mais utilizado na área da saúde. Nesse sentido, observa-se que, quando se trata de
sistemas que utilizam a língua inglesa, vários são encontrados no mercado, porém, a situação
se difere quando se trata sistemas que utilizem o português brasileiro - PT-BR. Poucos
sistemas foram desenvolvidos com suporte ao PT-BR, e estes foram descontinuados, entre
eles, o ViaVoice da IBM e o FreeSpeech 2000 da Nuance, porém, quando se fala em sistemas
de reconhecimento de voz para a língua inglesa, existem ótimos reconhecedores, como o
Dragon Naturally Speaking e o Windows Speech Recognition (BATISTA, 2013).
Diante deste contexto, surge a ideia deste trabalho, que tem como finalidade
desenvolver meios que permitam a criação de um sistema reconhecedor de voz, voltado ao
PT-BR, utilizando ferramentas Open Source.
CAPÍTULO 3
Neste capítulo são apresentadas as ferramentas utilizadas para o desenvolvimento
deste trabalho.
3 FERRAMENTAS UTILIZADAS
Nesta seção são exibidas as ferramentas utilizadas, explicando a utilidade de cada uma
delas. Vale salientar que todas as ferramentas utilizadas são ferramentas de código aberto, ou
seja, sem custo nenhum para utilizá-las. Entre as ferramentas usadas estão o Poronto, o
Protégé, Audacity, CMU Sphinx Toolkit, e o Sarvox, descritas com mais detalhes nas seções
seguintes.
9
3.1 Poronto
Foi realizada uma busca via web à procura de uma ferramenta que permitisse a
construção de ontologias a partir de textos, sendo que os documentos disponíveis para a
realização deste trabalho foram laudos, dispostos em forma textual.
O meio escolhido para a criação da ontologia foi a ferramenta Poronto, uma
ferramenta Web para construção semiautomática de ontologias em português, associado à área
da saúde. Utiliza como medida para refinar a extração dos termos os Descritores em Ciência
da Saúde1 (DeCS) visando facilitar a seleção dos termos pelo usuário (ZAHRA,2009).
A escolha da ferramenta para o desenvolvimento deste trabalho deu-se pelo fato de ser
uma ferramenta Open Source, ou seja, desenvolvida com tecnologias de código aberto.
3.2 Protégé
Para dar suporte à construção semiautomática de ontologias a partir de textos, várias
ferramentas foram desenvolvidas, cada uma, com técnicas e métodos diferentes (ZAHRA,
2014). A escolhida para o desenvolvimento deste trabalho foi o Protégé.
Segundo Oliveira (2011), o Protégé foi desenvolvido pelo departamento de
informática médica da Universidade de Stanford, sendo que o projeto original propunha uma
ferramenta de aquisição de conhecimento limitada a um sistema especialista para oncologia,
assim, evoluiu até tornar-se uma ferramenta de aquisição de conhecimento. Esta ferramenta
dá suporte ao desenvolvimento, visualização e manipulação de ontologias em diferentes
formatos como, Web Ontology Language (OWL), Extensible Markup Language (XML) e o
Resource Description Framework (RDF) (OLIVEIRA, 2011).
1
Criado pela BIREME, o DeCS é um vocabulário estruturado trilíngue utilizado para servir como uma
linguagem única na indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos, e
outros tipos de materiais, assim como para ser usado na pesquisa e recuperação de assuntos da literatura
científica nas fontes de informação disponíveis na Biblioteca Virtual em Saúde (BVS) (DeCS, 2015).
10
É uma plataforma livre, de código aberto, que contém um conjunto de ferramentas que
permitem a construção de modelos de domínio e aplicações baseadas no conhecimento com
ontologias (PROTÉGÉ WIKI).
A escolha desta ferramenta para o desenvolvimento do trabalho deu-se pelo fato de ser
uma ferramenta Open Source, com interface amigável, com tutoriais disponíveis e de fácil
entendimento.
3.3 Audacity
Audacity é um software livre e multiplataforma para gravação e edição de áudios, foi
desenvolvido por um grupo de voluntários e distribuído sob a GNU General Public License GPL (AUDACITY,2015). Este software foi escolhido para o desenvolvimento deste trabalho,
pois apresenta uma interface amigável e fácil de ser utilizada, disponibilizando todas as
ferramentas que foram necessárias, como a gravação no formato WAVEform audio format
(WAV). A versão 2.1.0 do Audacity foi a utilizada para a construção do banco de dados de
voz necessário para a realização do treinamento dos modelos acústico e de linguagem.
3.4 CMU Sphinx Toolkit
Desenvolvido na Universidade de Carnegie Mellon, o CMU Sphinx Toolkit, é um kit
de ferramentas que oferece diversos componentes para implementar as etapas de um sistema
de reconhecimento de fala, provendo flexibilidade na alteração de vários parâmetros
(OLIVEIRA, 2010).
O CMU Sphinx é um conjunto de ferramentas de reconhecimento de voz, tais
ferramentas conduzem os usuários à construção de aplicações que utilizam o reconhecimento
de voz. Possui uma série de pacotes para diferentes tarefas e aplicações, que são:
PocketSphinx, uma biblioteca de reconhecedor de voz; Sphinxbase uma biblioteca de suporte
exigida pelo PocketSphinx; Sphinx-4 é reconhecedor ajustável e modificável; CMUclmtk é
uma ferramenta para a construção de modelos de linguagem; SphinxTrain é uma ferramenta
para a criação do modelo acústico (ARAUJO, 2014).
11
O Sphinx é considerado o estado da arte na área de reconhecimento de voz
(MARTINS, 2013; OLIVEIRA, 2010), proporcionando facilidades ao desenvolvimento de
sistemas específicos em reconhecimento de fala.
A escolha desta ferramenta para o desenvolvimento deste trabalho deu-se, a princípio,
por ser uma ferramenta de código aberto, por possuir uma boa documentação disponível na
Web e por possibilitar sua utilização em qualquer idioma, porém, necessitando que seja
realizado um treinamento da linguagem antes da criação dos modelos acústico e de
linguagem. Possuindo estas características, esta ferramenta se enquadra ao escopo deste
trabalho.
3.4.1 Estrutura Sphinx-4
No Sphinx-4 ocorrem os principais procedimentos para o reconhecimento de fala, é
um decodificador disponibilizado pelo framework Sphinx, e está dividido em três módulos
principais, interface, decodificador e linguística, conforme pode ser visto na figura 1.
Figura 1 - Arquitetura Sphinx-4
Fonte: Adaptado de Sartori, H.; Harti, M.; Chenfour, N., 2007
12
Na interface acontece a discretização do sinal de voz. Os arquivos em formato de
áudio devem ser inseridos na aplicação e como saída, serão disponibilizados os parâmetros do
sinal, os quais serão utilizados pela aplicação para a criação dos modelos acústico e de
linguagem. No módulo linguistíca, são criados os dados utilizados pelo decodificador, sendo
estes dados: o modelo acústico, que contém a verossimilhança entre as palavras, o dicionário
correspondente ao banco de dados utilizado e o modelo de linguagem que contém a
probabilidade da ocorrência de uma palavra. O gráfico de busca carrega os modelos acústico,
de linguagem e o dicionário. O decodificador lê os dados gerados na interface, acessa os
modelos e o dicionário carregados no módulo linguística, constrói o gerenciador de pesquisa
que irá construir a lista ativa, que representa a lista de nós ativos durante a busca, o marcador,
pontua cada nó e o removedor poda a lista ativa.
3.5 Sarvox
É um sistema Web de análise de reconhecimento de voz baseado em CMU Sphinx
que foi desenvolvido durante um projeto de mestrado da Universidade Federal do Rio de
Janeiro. (MARTINS, 2013).
Este sistema permite a inserção dos arquivos necessários para o treinamento (Seção
4.1), e através de linhas de código codifica o Sphinx para que o treinamento seja realizado
contemplando todas as suas etapas (Seção 5.2), por fim, apresenta dados estatísticos sobre os
resultados obtidos com a decodificação dos modelos. Este sistemas foi utilizado inicialmente
como teste da ferramenta, neste teste foram utilizadas 63 sentenças para o treinamento, o que
se mostrou um banco de dados pequeno para a criação de modelos válidos.
CAPÍTULO 4
Neste capítulo serão apresentados todos os elementos necessários para a realização da
pesquisa.
13
4 FUNDAMENTOS
Este capítulo apresenta os fundamentos desta pesquisa, ou seja, a base de dados que é
necessária para o treinamento dos modelos acústico e de linguagem, e o funcionamento do
processo de reconhecimento de voz em si.
4.1 Base de dados
Nesta seção serão apresentados todos os dados e arquivos utilizados no treinamento. A
base de dados foi composta pelas gravações, as transcrições dos áudios, o arquivo de
dicionário, o arquivo de fonemas, o arquivo filler, o arquivo de frases, o arquivo de nomeação
dos áudios e o Arquivo batch. Todos serão apresentados em detalhes nas seções seguintes.
4.1.1 Gravações
Os primeiros dados que se fizeram necessários foram as gravações dos modelos de
laudos em formato de áudio. Estas gravações foram realizadas em formato .WAV, com taxa
de amostragem específica de 16 kHz, 16 bit, mono, estas configurações foram realizadas no
Audacity e de acordo com as especificações do Sphinx. Outro fator relevante é que o silêncio
do início e do fim das frases não pode ultrapassar 0,2 s.
Inicialmente foram realizados testes no Framework Sphinx, onde foram gravadas
sessenta e três sentenças para teste. Posteriormente foram realizadas gravações de todo o
grupo de sentenças disponíveis no banco de dados totalizando trezentos e noventa e uma
sentenças, incluindo as 63 que já tinham sido gravadas no grupo de gravações. Logo após,
estas gravações foram utilizadas para o treinamento dos modelos acústico e de linguagem.
14
4.1.2 Transcrições
Um dos arquivos necessários para o treinamento do modelo acústico é o arquivo de
transcrições dos áudios, onde deve conter a transcrição de cada áudio por linha, entre as tags
<s> </s> seguidamente o nome do áudio entre parêntesis.
Assim como segue:
<s> tomografia computadorizada </s> (fala1)
<s> abdome superior </s> (fala2)
<s> com contraste venoso </s> (fala3)
<s> fígado de volume SIL contornos e densidade normais SIL sem evidências de
lesões focais </s> (fala4)
<s> veias porta e supra hepáticas e de calibre preservado </s> (fala5)
<s> não se observa dilatação das vias biliares intra ou extra hepáticas </s> (fala6)
<s> vesícula biliar sem sinais de alterações ao método </s> (fala7)
<s> baço de volume usual SIL impregnando se homogeneamente pelo meio de
contraste </s> (fala8)
<s> pâncreas de morfologia e volume normais SIL com impregnação habitual pelo
meio de contraste SIL sem sinais de dilatação ductal ou calcificações parenquimatosas </s>
(fala9)
<s> supra renais com densidade SIL morfologia e volume preservados </s> (fala10)
...
O arquivo de transcrições utilizado pode ser visto no apêndice A.
4.1.3 Dicionário
Para o treinamento do modelo acústico e de linguagem é necessário o arquivo de dicionário,
onde se encontram todas as palavras que contêm os modelos de laudos e suas seguintes
transcrições fonéticas. O mesmo arquivo deve ser usado para o treinamento dos dois modelos.
O arquivo de dicionário contém 847 palavras e foi criado seguindo o padrão utilizado pelo
15
Laboratório de Processamento de Sinais na criação de modelos de linguagem
Assim como segue:
aa
áa
àa
abaulamentos a b a w l a m ee t u s
abdome a b d oo m i
abdominais a b d o m ii n a j s
abdominal a b d o m ii n a w
aberta a b e xm t a
acima a s ii m a
acordo a k o rm d u
adequada a d e k w a
adequadamente a d e k w a d a m ee ts i
adequado a d e k w a d u
adjacentes a dz zm a s ee ts i s
administração a dz m ii n i s t r a s aa ww
aeração a j r a s aa ww
aérea a em r e a
aéreas a em r e a s
aéreo a em r e u
alinhamento a l ii jm a m ee t u
alterações a w t e r a s oo jj s
altura a w t u r a
ampla aa p l a
amplitude aa p l i t u dz i
amplitudes aa p l i t u dz i s
amputação aa p u t a s aa ww
analisar a n a l i z a xm
anatômica a n a t oo m i k a
anatômicas a n a t oo m i k a s
anatômico a n a t oo m i k u
...
16
O dicionário utilizado pode ser visto no apêndice B.
4.1.4 Fonemas
O arquivo de fonemas deve conter todos os fonemas das palavras que contém no
dicionário, sem repetição e incluindo o fonema de silêncio, e pode ser criado a partir do
dicionário.
Assim como segue:
SIL
a
aa
b
d
dz
e
ee
em
f
g
i
ii
j
jj
k
l
lm
m
n
...
17
4.1.5 Filler
Este arquivo representa os momentos de silêncio entre as falas como as vírgulas. O
arquivo deve ser estruturado da seguinte maneira:
<s> SIL
<sil> SIL
</s> SIL
4.1.6 Arquivo de frases
Para o treinamento do modelo de linguagem é necessário o arquivo de frases, que é
semelhante ao arquivo de transcrições, porém não aparece o nomeação do arquivo de áudio
entre parêntesis, as frases aparecem somente entre as tags <s> </s>.
Assim como segue:
<s> tomografia computadorizada </s>
<s> abdome superior </s>
<s> com contraste venoso </s>
<s> fígado de volume contornos e densidade normais sem evidências de lesões focais
</s>
<s> veias porta e supra hepáticas e de calibre preservado </s>
<s> não se observa dilatação das vias biliares intra ou extra hepáticas </s>
<s> vesícula biliar sem sinais de alterações ao método </s>
<s> baço de volume usual impregnando se homogeneamente pelo meio de contraste
</s>
<s> pâncreas de morfologia e volume normais com impregnação habitual pelo meio
de contraste sem sinais de dilatação ductal ou calcificações parenquimatosas </s>
<s> supra renais com densidade morfologia e volume preservados </s>
...
18
4.1.7 Arquivo de nomeação dos áudios
Para o treinamento do modelo acústico ainda é necessário um arquivo que contenha
todos os nomes dos arquivos de áudio, disponibilizados um em cada linha.
Assim como segue:
fala1
fala2
fala3
fala4
fala5
...
4.1.8 Arquivo batch
O arquivo batch é um arquivo necessário à realização dos testes com os modelos
criados. Deve conter a nomeação do arquivo de áudio com a extensão e sua transcrição
correspondente.
Assim como segue:
fala1.wav tomografia computadorizada
fala2.wav abdome superior
fala3.wav com contraste venoso
fala4.wav fígado de volume contornos e densidade normais sem evidências de lesões
focais
fala5.wav veias porta e supra hepáticas e de calibre preservado
fala6.wav não se observa dilatação das vias biliares intra ou extra hepáticas
fala7.wav vesícula biliar sem sinais de alterações ao método
fala8.wav baço de volume usual impregnando se homogeneamente pelo meio de
contraste
fala9.wav pâncreas de morfologia e volume normais com impregnação habitual pelo
meio de contraste sem sinais de dilatação ductal ou calcificações parenquimatosas
fala10.wav supra renais com densidade morfologia e volume preservados...
19
4.2 Processo de reconhecimento de voz
O processo de reconhecimento de voz consiste em transformar a voz em texto, ou seja,
do sinal acústico, passa-se a ter um texto referente àquele áudio, na figura 2 é apresentado de
forma simplificada esse processo.
Figura 2 - Processo de reconhecimento de fala
Fonte: Adaptado MARTINS, 2013
Considerando a obtenção de um sistema de reconhecimento de voz para o PT-BR, é
necessária a realização do treinamento de linguagem, para a obtenção dos modelos
necessários para o reconhecimento. Este treinamento é dividido em duas etapas: treinamento e
execução (testes), conforme apresentado na figura 3.
20
Figura 3 - Etapas do treinamento
Fonte: Adaptado OLIVEIRA, 2010
A etapa de treinamento compreende o treinamento do modelo acústico e do modelo de
linguagem. A partir do banco de dados de áudio são extraídas características do sinal, que
serão utilizadas para o treinamento do modelo acústico. Este processo ocorre através dos
coeficientes mel-cepstrais (MFCC), coeficientes utilizados para a representar a fala baseada
na percepção auditiva humana. São considerados o estado da arte para representação dos
sinais da fala humana, o que estará apresentado em detalhes na seção 5.2.1.
Através das transcrições dos áudios, documentos descritos na seção 4.1, e com a
extração de características realizada, é obtido o modelo acústico, onde é calculada a
verossimilhança entre as palavras contidas no banco de dados. A partir do arquivo de textos,
também descritos na seção 4.1, é obtido o modelo de linguagem, onde é mapeado o
relacionamento entre as palavras, obtendo uma probabilidade da ocorrência de uma sentença
relacionada a sentença anterior. Terminando a etapa de treinamento, ocorre a etapa de
execução ou testes onde os modelos criados são utilizados para realizar a decodificação a
partir do áudios contidos no banco de dados, a partir desta etapa pode ser realizado uma
análise qualitativa nos resultados e avaliar os modelos criados.
21
CAPÍTULO 5
Neste capítulo são apresentados todos os procedimentos realizados para a obtenção
dos resultados deste trabalho.
5 DESENVOLVIMENTO
Esta seção apresenta como foi realizada a criação da ontologia e o treinamento da
linguagem para a criação dos modelos acústico e de linguagem.
5.1 Criação da Ontologia
O processo de criação da ontologia com o Poronto está apresentado na figura 4, o qual
é dividido em duas etapas: a criação do corpus e a criação da ontologia. Para a criação do
corpus, foi necessário enviar os documentos onde estavam as informações necessárias para a
geração da ontologia, em formato .pdf ou .txt. Os documentos foram transformados em texto
limpo e foi realizado um pré-processamento nos textos dividindo o texto com espaços em
branco para posteriormente ser feito o processamento de anotação linguística, as stopwords
são removidas, e os textos são processados com a ferramenta TreeTagger2(ZAHRA,2009).
A próxima etapa é a criação da ontologia, na qual o usuário precisa preencher os filtros
apresentados na ferramenta, escolhendo a quantidade mínima de vezes que os termos simples
ou compostos irão aparecer no corpus, se deseja ou não a inclusão dos termos compostos no
resultado ou se apenas substantivos irão aparecer, e se apenas os termos marcados pelo
TreeTagger irão aparecer como substantivo ou todos os termos. Na figura 4 é apresentado o
processo completo de criação de uma ontologia, após a extração dos termos é criada a
estrutura do texto final, podendo ser exportada em dois formatos, que são: OWL e .xlsx.
2
Desenvolvida por Helmut Schmid (1994) no Institute for Computational Linguistics of the University of
Stuttgart. É uma ferramenta de anotação linguística, onde cada palavra é anotada com a sua classe gramatical,
suportando doze idiomas distintos, dentre eles, o português (ZAHRA,2009).
22
Figura 4 – Processo de criação da ontologia
Fonte: Adaptado (ZAHRA,2013).
Para a criação do corpus utilizado neste trabalho foram utilizados 32 modelos de
laudos distintos de tomografia computadorizada adaptados de acordo com a literatura
(WERLANG, 2009). Estes documentos foram disponibilizados pelos integrantes da área da
saúde do grupo de pesquisa, no qual o desenvolvimento deste trabalho está inserido.
Os laudos utilizados são referentes a abdome superior (com contraste venoso), abdome
superior (sem contraste venoso), abdome total (abdome superior e pelve com contraste
venoso), abdome total (abdome superior e pelve sem contraste venoso), angiotomografia
computadoriazada da aorta, angiotomografia computadorizada das artérias carótidas e
vertebrais, angiotomografia computadorizada dos membros inferiores (avaliação arterial),
angiotomografia computadorizada dos vasos encefálicos, angiotomografia computadorizada
dos vasos hepáticos (transplante hepático- doador), angiotomografia computadorizada
dos
vasos pulmonares
dos
(protocolo
de
TEP), angiotomografia
computadorizada
vasos renais (transplante renal - doador), articulações (ombro, cotovelo, punho, quadril,
joelho, tornozelo
cavidades
e
sacroilíacas), articulações temporomandibulares
(atm),
paranasais, colonoscopia virtual, coluna cervical, coluna dorsal, coluna lombar,
crânio (pré e pós contraste), crânio (sem contraste), órbitas, ossos temporais (ouvidos e
mastóides), pelve (com contraste venoso), pelve (sem contraste venoso), pescoço, rins e vias
urinárias (sem contraste venoso), rins e vias urinárias (com contraste venoso), laringe,
segmentos apendiculares (mão, antebraço, braço, coxa, perna e pé), joelhos e estudo
rotacional dos membros inferiores (medidas baseadas no protocolo de Lyon modificado), sela
23
túrcica, tórax (protocolo de Swensen) e tórax (WERLANG; BERGOLI; MADALOSSO,
2009).
O preenchimento dos filtros para a geração da ontologia foi realizado da seguinte
forma: o mínimo que é a quantidade mínima de vezes em que um termo simples aparece no
corpus e a quantidade mínima de termos compostos, não foram levados em consideração, não
sendo atribuído nenhum valor para estes tipos de filtro. Os termos compostos, filtro que inclui
os termos compostos no resultado, foi assinalado. Apenas substantivos, filtro que inclui
apenas os termos selecionados pelo TreeTagger como substantivos no resultado, não foi
assinalado, esta estratégia foi utilizada devido ao desejo de obter o maior número de termos
possíveis na ontologia. Tfidf: medida que mede a frequência de um termo no documento, foi
selecionada para seleção dos termos. Quanto mais alta a frequência maior é a relevância do
termo para o domínio. Entropy: medida que utiliza a entropia para a seleção dos termos, foi
selecionada, medindo o grau de desorganização do conjunto de termos (TILLEY, 1990).
5.1.1 Estruturação da ontologia
O processamento da ferramenta sobre os textos resultou na obtenção de 3695 palavras
repetidas, 1064 palavras únicas e 1064 palavras selecionadas, o que pode ser observado na
tabela 1.
Tabela 1 – Resultados extraídos com o Poronto
Total de Palavras (Repetidas)
3695
Total de Palavras (Únicas)
1064
Total de Palavras (Selecionadas)
738(100.0%)
Considerando a quantidade de palavras repedidas, o que é comum na área médica
quando trata-se de laudos, percebe-se a importância de ter os dados estruturados, pois a
estruturação da informação facilita o seu entendimento, o que favorece um auxílio para o
trabalho do médico.
O resultado da seleção dos termos pode ser visto na figura 5, onde é apresentada a
24
descrição de cada termo, a quantidade de vezes que cada termo aparece no corpus, as medidas
de frequência tfidf e entropy para cada termo, e se o termo aparece ou não no DeCS.
Figura 5 - Resultados obtidos com o Poronto
O Poronto criou 162 classes distintas e relacionadas entre si, sendo cada uma delas
representante de um dos principais termos que compõem os laudos de tomografia
computadorizada. Algumas delas estão apresentadas na figura 6.
25
Figura 6 - Exemplificação das classes da ontologia
A seguir são descritos alguns exemplos de classes que foram criadas formando a
ontologia. Classe dimensões - engloba os distintos tipos de variação entre as dimensões,
sendo elas: dimensões anatômicas, dimensões normais, dimensões preservadas e dimensões
usuais. Classe contraste - varia entre contraste em medida, contraste em medida da densidade,
contraste simétrica e contraste venoso. Classe corpos - dividida em corpos livres e corpos
vertebrais. Classe densidade - divida em densidade de partes, densidade na fase, densidade
normais, densidade usuais, densidade óssea. Classe dilatações - varia entre dilatações
aneurismáticas e dilatações vasculares. Classe emergência - composta por: emergência da
artéria, emergência das artérias e emergência do tronco. Classe espaços - formada por espaços
articulares e espaços sublingual. Classe estruturas – onde aparecem os termos compostos,
estruturas da linha, estruturas vasculares e estruturas ósseas; a classe evidências, formada por
evidências de calcificações, evidências de derrame, evidências de dilatações, evidências de
estenoses, evidências de lesão, evidências de lesões, evidências de subluxações. Classe lesões
- dividida em lesões destrutivas, lesões expansivas, lesões focais, lesões osteoblásticas e
lesões osteolíticas. Estas são alguns exemplos de classes que foram criadas na criação da
ontologia.
26
Após sua criação, a ontologia foi exportada para a ferramenta protégé (PROTÉGÉ
Wiki, 2014), uma ferramenta Open Source para criação e edição de ontologias, na figura 7
pode ser vista a ontologia exportada para o protégé e na figura 8, uma das formas de
representação possibilitada pelo protégé. Sendo os retângulos maiores representantes das
maiores classes.
Figura 7 - Ontologia exportada para o Protégé
27
Figura 8 - Demonstração gráfica da ontologia no Protégé
28
Esta umas das possíveis formas de apresentação da ontologia, pois o protégé permite
várias formas de exibição, possibilitando que o profissional use a que desejar para melhor
representar o conteúdo trabalhado.
Os dados obtidos com a criação da ontologia proporcionam à comunidade médica a
utilização da extensa quantidade de informações contida no âmbito clinico de forma
estruturada, permitindo manter um padrão para tais informações, o que facilita a troca dos
dados entre os envolvidos.
A próxima seção deste trabalho consiste em apresentar os passos realizados para
efetuar o treinamento de linguagem da ontologia criada, para que seja possível a utilização
dos modelos criados na construção de um sistema de reconhecimento de fala voltado ao PTBR.
5.2 Treinamento
Nesta seção serão apresentadas as etapas realizadas para a obtenção dos modelos
acústico e de linguagem.
5.2.1 Extração de características
Extrair as características ou parâmetros do sinal de voz corresponde ao primeiro passo
para a criação do modelo acústico. Muitos dados são gerados quando a fala humana é
gravada. Ao realizar a extração de características do sinal é possível reduzir a quantidade de
dados a processar, além de ser possível obter os vetores de características, nos quais
encontram-se elementos importantes de classificação, os quais contribuirão para o
reconhecimento das palavras, diferenciando uma das outras. (GORDILLO, 2013). Este
processo é realizado através da ferramenta chamada Sphinx_fe que está contida no Sphinx,
cuja ferramenta não apenas possibilita a extração dos parâmetros do sinal, como também o
ajuste de algumas variáveis de acordo com o banco de dados que está sendo utilizado. O
processo de extração de características do sinal de fala abrange três etapas, amostragem do
sinal, janelamento e extração de parâmetros. Na extração de parâmetros ocorre a divisão do
29
sinal em blocos, e esses blocos são chamados de janelas, esta parte do procedimento também
sobrepõe blocos para que seja possível capturar a informação que pertence aos limites das
gravações (OLIVEIRA, 2010).
A taxa de amostragem é um parâmetro utilizado para transformar o sinal sonoro em
um sinal digitalizado. O janelamento é a divisão do sinal de voz em blocos. Frame rate é a
variável que determina o tamanho da sobreposição entre as janelas adjacentes, na figura 9 é
apresentada a figuração do janelamento simplificado.
Figura 9 - Exemplificação do Janelamento
Fonte: Adaptado de YOUNG, S., EVERMANN, G., GALES, M., et al., 2009
Fast Fourier Transform (FFT) é a técnica que é aplicada a cada janela para realizar a
extração dos coeficientes MFCC através de um banco de filtros (MARTINS, 2013). Discrete
Cosine Transform (DCT) é a que é utilizada para reduzir o número de coeficientes gerados,
concentrando os valores mais significativos nos primeiros espaços do vetor, procedimento que
melhora a eficiência computacional (GORDILLO, MARTINS 2013). O número de
coeficientes é onde é definido o número de coeficientes por janela. Coeficiente de Liftragem
Cepstral, necessário para a realização da liftragem cepstral, consiste em reescalonar os
30
coeficientes que tenham magnitudes similares de forma a se obter uma melhor representação
das partes de um segmento de voz (MARTINS, 2013).
Os sinais da fala são representados através dos MFCC. O cálculo destes coeficientes
são realizados através de banco de filtros, para isto, o sinal de voz é passado através do filtro
de pre-ênfase, essa etapa é realizada para diminuir as altas frequências causadas pela
ferramenta utilizada para a produção de voz. Após a filtragem do sinal, é aplicada a janela de
Hamming, que geralmente é utilizada para sistemas de reconhecimento de fala (PICONE,
1993), para melhorar a qualidade do sinal no início e no fim de cada segmento diminuindo a
transição entre frames adjacentes, as janelas são de 25 ms de comprimento, com
deslocamento de 10 ms entre janelas, o que permite obter vetores MFCC a cada 10 ms. Após
o janelamento, a FFT é aplicada para obter o espectro de sinal que resulta na obtenção da
potência espectral. O banco de filtros está formado por filtros triangulares, espaçados de
acordo com a escala mel3, cada filtro calcula a média do espectro em relação a frequência
central. A próxima etapa é obter a log-energia da saída resultante de cada um dos filtros mel.
Por fim, os coeficientes MFCC são obtidos aplicando a DCT ao logaritmo dos coeficientes de
energia obtidos, processo apresentado na figura 10 (GORDILLO,2013).
3
"A escala mel está baseada no sistema auditivo humano, cuja sensibilidade aos sinais de voz se processa em
uma escala não linear de freqüências" (PARANAGUÁ, 1997) . Não corresponde linearmente à freqüência física,
mas sim à frequência percebida (PETRY.; ZANUZ; BARONE, 1999)
31
Figura 10 - Cálculo dos MFCC (1)
Fonte: Adaptado GORDILLO, 2013
Todo este processo compreende primeiramente o cálculo cepstral do sinal, logo após a
liftragem cepstral, que compreende a organização dos coeficientes similares, para assim se
obter uma melhor representação dos construtores do bloco de voz, o que está representado na
figura 11 (MARTINS, 2013).
32
Figura 11 - Cálculo dos MFCC (2)
Fonte: Adaptado MARTINS, 2013
A ideia principal da extração de atributos é captar as mudanças temporais bruscas
presentes no espectro (GORDILLO,2013).
5.2.2 Treinamento do modelo acústico
O treinamento do modelo acústico compreende a próxima etapa após a extração de
características. É realizado através da ferramenta SphinxTrain, que está composta no Sphinx.
SphinxTrain é composta por outras ferramentas menores que são necessárias para a realização
das cinco etapas do treinamento acústico, o qual é realizado em duas fases, o treinamento do
modelo em si, que compreende cinco diferentes etapas e o empacotamento deste modelo.
33
Para realizar o treinamento do modelo acústico são necessárias as gravações em
formato de áudio, o arquivo das transcrições, o dicionário e o arquivo de fonemas.
A modelagem acústica é realizada com o objetivo de calcular a verossimilhança entre
as palavras. Os Modelos Ocultos de Markov ou Hidden Markov Models (HMMs) são
considerados o estado da arte para modelagem acústica (OLIVEIRA, 2010).
O treinamento do modelo acústico é realizado através do algoritmo de reestimação de
parâmetros Baum-Welch, ou Forward-Backward algorithm. Para a execução deste algoritmo é
necessária que seja feita uma definição algumas variáveis, como os números máximo e
mínimo de iterações do algoritmo e a taxa de convergência.
Os HMMs podem ser vistos como máquinas de estado finitas, onde a cada unidade de
tempo ocorre uma transição entre estados e cada estado emite um vetor acústico com uma
função densidade de probabilidade associada (OLIVEIRA,2010).
Para melhorar o modelo acústico é realizado o compartilhamento de estados, visando
diminuir o número de parâmetros a serem computados, técnica chamada states-tying, que
significa basicamente na agrupação de estados com questões fonéticas semelhantes, ou seja,
fonemas que estão em contextos diferentes e não produzem uma variabilidade acústica
suficientemente para serem modelados por diferentes HMM’s.
O agrupamento dos estados é realizado através de algoritmos de árvores de decisão,
onde são agrupados em um mesmo estado os fonemas que se encontram no mesmo nó da
árvore. É necessário definir o número máximo e mínimo de estados a serem compartilhados.
Para cada fonema é construída uma árvore de decisão, sendo os nós pai todos os estados com
os diferentes contextos em que um mesmo fonema pode ser inserido. (MARTINS, 2013;
OLIVEIRA, 2010).
As cinco etapas da primeira fase do treinamento acústico serão apresentadas nas
subseções a seguir.
5.2.2.1 Etapa 1: Treinamento dos modelos independentes de contexto
Esta etapa abrange a inicialização dos parâmetros dos modelos através de estimação a
partir dos vetores de coeficientes obtidos na extração de características. Posteriormente, são
realizadas uma série de iterações do algoritmo Baum-Welch até atingir uma determinada taxa
de convergência, procedimento chamado flat initialization que é realizado utilizando as
34
ferramentas mk_flat e ini_gau do SphinxTrain. Os scripts 20.ci_hmm compostos no
SphinxTrain realizam esta parcela do treinamento.
5.2.2.2 Etapa 2: Treinamento dos modelos dependentes de contexto
Nesta etapa ocorre o treinamento dos tri fones, ou seja, fonemas que tenham um
contexto à esquerda e outro à direita, e ainda não existem estados compartilhados.
Os parâmetros utilizados são os mesmo da etapa anterior, logo após são realizadas
novas iterações para a reestimação de novos parâmetros. Os scripts 30.cd_hmm_untied
compostos no SphinxTrain realizam esta parcela do treinamento.
5.2.2.3 Etapa 3: Geração da árvore de decisão e agrupamento de estados compartilhados
Esta etapa do treinamento corresponde à criação de árvores de decisão através da
ferramenta bldtree, com as questões fonéticas já avaliadas, para que seja realizado o
agrupamento de estados. Os scripts 40.buildtrees são responsáveis por esta etapa do
treinamento.
A execução destes scripts unem em um mesmo modelo os trifones com
propriedades acústicas similares.
5.2.2.4 Etapa 4: Poda nas árvores
Para esta etapa são utilizados os scripts 45.prunetree, através da ferramenta prunetree,
que realizam uma poda nas árvores visando a eliminação de nós para que seja atingido o
número máximo de estados compartilhados definidos pelo desenvolvedor e agrupar estes
estados. A poda é realizada eliminando os nós que tem verossimilhança pequena e substitui
estes nós pelos nós pais correspondentes.
35
5.2.2.5 Etapa 5: Retreinamento dos estados
Nesta etapa é realizado o retreinamento de todos os estados, este procedimento é
realizado pelos scripts 50.cd_hmm_tied. São distribuídos nós, retreinando recursivamente os
modelos.
5.2.3 Empacotamento do modelo acústico
O empacotamento do modelo acústico é relativo à união de todos os modelos treinados
e os parâmetros extraídos em um arquivo compactado com extensão .jar.
Um arquivo XML de configuração do empacotamento deve ser criado referenciando o
arquivo de dicionário e o modelo de linguagem. Este arquivo deve ter o mesmo nome do
arquivo com extensão .jar. Com o empacotamento do modelo acústico o treinamento acústico
está concluído.
5.2.4 Treinamento do modelo de linguagem
Para o treinamento do modelo de linguagem é utilizada a ferramenta cmuclmtk
disponibilizada pelo Sphinx. O treinamento do modelo de linguagem é basicamente o cálculo
da probabilidade da ocorrência de uma palavra em relação à palavra anterior ou um conjunto
de palavras anteriores, técnica que é chamada de n-gramas, correspondendo aos bigramas,
trigramas, etc. Sendo utilizado neste trabalho uma análise com base nos trigramas.
Para realizar o treinamento do modelo de linguagem são necessários o arquivo de
frases e o dicionário. A forma para verificar o desempenho do modelo de linguagem é a taxa
de erros de reconhecimento de palavras, o Word Error Rate (WER), que é calculado através
da equação 1, sendo sub o número de palavras substituídas erroneamente, ins o número de
inserções incorretas, del a quantidade de palavras que deveriam existir e foram excluídas e
#palavras a quantidade total de palavras da sentença correta (MARTINS, 2013).
36
Equação 1
O objetivo do treinamento do modelo de linguagem é diminuir a entropia do conteúdo
das sentenças e, com isso, facilitar o reconhecimento (OLIVEIRA, 2010).
5.3 Decodificação
A etapa de decodificação representa testes que o decodificador Sphinx4 realiza com os
modelos criados, com objetivo de verificar a qualidade destes. Para realizar esta etapa são
necessários os arquivos de áudio e o arquivo de transcrições específico para testes, e é
executada através do decodificador Sphinx-4. Esta etapa se baseia em uma busca pela
sequência de palavras que melhor se adapta aos vetores acústicos que foram criados nas
etapas anteriores, é feita uma busca pela sequência de estados que maximiza a probabilidade a
posteriori. O teorema de Bayes é aplicado através do algoritmo Viterbi, um algoritmo de
busca síncrona que busca o estado mais provável a cada unidade de tempo.
As variáveis avaliadas para medir o desempenho do decodificador utilizando os
modelos criados foram, a taxa de erro de palavras (WER), que verifica a porcentagem de
palavras que foram reconhecidas de forma incorreta, o fator de tempo real, que mede o tempo
médio do processamento de uma palavra, ou Real Time Factor (RTF), e a acurácia (ACC). A
taxa de erro analisa os possíveis erros de inserção, que acontecem quando uma palavra é
inserida no texto de forma errada e não está presente nas transcrições, os erros de substituição
também são analisados pela WER que ocorrem quando uma palavra é substituída por outra no
texto que está sendo reconhecido, e por fim os erros de deleção, que ocorrem quando uma
palavra que está contida nas transcrições é excluída do texto que está sendo reconhecido.
As equações que calculam a acurácia e o fator de tempo real podem ser vistas nas
equações 2 e 3 respectivamente. A equação que calcula WER foi apresentada na equação 1.
(2)
37
( 3)
O Sphinx-4 permite que o usuário tenha o controle sob a memória e velocidade do
decodificador. Este controle pode ser feito através do tamanho da Active List. Para se ter o
controle desta lista é necessária a atribuição de valores para dois atributos, o
absoluteBeamWidth, um número que define o tamanho máximo da Active List, e o
relativeBeamWidth, um valor que deve ser atingido por um nó, para que ele permaneça na
Active List. Existe outro parâmetro que também é importantes na etapa de decodificação, o
languageWeight que influência na decisão da importância relativa dada às probabilidades
acústicas das palavras na hipótese. Este parâmetro foi utilizado para testar sua influência na
decodificação.
O desempenho do descodificador foi testado utilizando os modelos acústico e de
linguagem treinados. Os parâmetros do decodificador foram recebendo valores diferentes, e
os valores resultantes de WER, RTF e ACC foram analisados. (OLIVEIRA,2010).
O tamanho da base de dados utilizada é considerado pequeno e por isso o valor de
RTF permaneceu sempre o mesmo. RFT é um tempo entre o tempo de e o tempo de
decodificação, os dois medidos em segundos, por isso, RFT é adimensional. A decodificação
foi rápida, com RTF de 0,02, que permaneceu constante durante todos os testes.
5.4 Testes de performance e resultados
Para verificar a qualidade dos modelos criados foram realizados diversos testes
variando o valor das principais variáveis que influenciam na criação dos modelos e na
qualidade do decodificador.
Inicialmente foi realizado um treinamento com os valores padrão dos parâmetros que o
Sphinx possui. Os parâmetros utilizados para teste e seus respectivos valores são apresentados
na tabela 2. Logo após foram feitas variações nestes valores para uma posterior comparação
entre os modelos.
38
Tabela 2 - Valores padrão do Sphinx para os parâmetros testados
PARÂMETROS
VALOR PADRÃO
Estados Compartilhados
200
Gaussianas
64
Número de coeficientes
13
LanguageWeight
10
A cada parâmetro que ia sendo variado o seu valor, os outros eram mantidos
constantes. O resultado para treinamento de decodificação com os valores padrão do Sphinx é
apresentado na tabela 3.
Tabela 3 – Resultados obtidos com os valores padrão do Sphinx
SENTENCE ERROR (391)
162
41,40%
WER (4057)
441
10,90%
ACC
RTF
89,11%
0,02
Inicialmente foram atribuídos diferentes valores para o número de estados
compartilhados. Os diferentes valores atribuídos a este parâmetro foram, 100, 200, que é o
valor padrão do Sphinx, 300, 400 e 500. Estes valores foram testados considerando o tamanho
da base de dados que era pequena, foi levado em consideração também que um número muito
pequeno de estados compartilhados poderia não agrupar estados similares e levar a uma
redução de desempenho. E que um número muito grande não era desejável, devido ao
tamanho da base de dados, pois, com a utilização de muitos estados compartilhados não era
possível realizar o treinamento, já que o sistema a presentava erro pedindo para que o número
de estados fosse menor. Na tabela 4 e no gráfico 1 podem ser vistos os resultados obtidos com
a variação dos valores para os estados compartilhados.
39
Tabela 4 – Resultado dos testes com variação dos estados compartilhados
ESTADOS COMPARTILHADOS SENTENCE ERROR (391) WER (4057) ACC
100
168
469
88,42%
200*
300
400
500
162
163
161
161
441
430
410
430
89,11%
89,38%
89,87%
89,40%
RTF
0,02
0,02
0,02
0,02
0,02
*Valor padrão
Gráfico 1 – Resultado dos testes com variação dos estados compartilhados
Como o valor padrão de configuração do Sphinx para este parâmetro é 200, este valor
foi variado até que parasse de apresentar melhora no desempenho. Ao diminuir o valor do
parâmetro para 100 foi possível notar uma piora no desempenho, sendo que a quantidade de
40
erros no reconhecimento das sentenças foi de 41,40% para 43%, a taxa de erros por palavras
foi de 10,90% para 11,60% e a acurácia de 89,11% para 88,42%, sendo que quanto mais alto
o valor da acurácia melhor é o reconhecimento do sistema.
Quando valor foi aumentado para 300 foi possível observar que os erros por sentenças
foram de 41,40% para 41.70%, a taxa de erros por palavra foi de 10,90% para 10,60% e a
acurácia de 89,11% para 89,38%.
Quando o valor foi aumentado para 400, foi obtido o melhor desempenho possível,
diminuindo a sentença de erros para 41,20%, a taxa de erros por palavra para 10,10%, e um
amento na acurácia para 89,87%. Ao aumentar o valor para 500 o desempenho voltou a
reduzir, com uma taxa de erros por sentença de 41,20% uma taxa de erro por palavra de
10,60% e uma acurácia de 89,40%.
O segundo parâmetro a ser testado foi o número de gaussianas por estado, que foi
variado entre os seguintes valores: 16, 32, 48, 64 e 80, sendo 64 o valor padrão de
configuração.
Os melhores valores para a quantidade de erros por sentença, a taxa de erros por palavra e
acurácia se apresentaram com 16, 32 e 48 e 80 gaussianas por estados. Para os quatro valores
foram observados os mesmo valores de sentença de erros que foi 41,20%, taxa de erros por
palavra de 10,60% e acurácia de 89,40%. O valor padrão não apresentou os melhores
resultados, porém a diferença entre os resultados não foi significativa. Os valores deste teste
são apresentados na tabela 5 e gráfico 2.
Tabela 5 – Resultado dos testes com variação do número de gaussianas por estado
GAUSSIANAS
16
32
48
64
80
*Valor padrão
SENTENCE ERROR (391) WER (4057)
161
430
161
430
161
430
441
162
161
430
ACC
89,40%
89,40%
89.40%
89,11%
89,40%
RTF
0,02
0,02
0,02
0,02
0,02
41
Gráfico 2 - Resultado dos testes com variação do número de gaussianas por estado
A melhor configuração para o número de coeficientes MFCC apresentou-se com o
valor 8 para este parâmetro, com erro por sentença de 90,81, taxa de erro por palavra de
9,20% e acurácia de 90%,81.
Os valores 10 e 13 apresentaram resultados indesejáveis para configuração. Taxa de
erro por sentença de 90,78% e 89,11%, taxa de erro por palavra de 9,20% e 10,90% e acurácia
de 90,78% e 89,11 respectivamente. A partir do valor padrão, 13, o sistema começou a
apresentar erro devido ao tamanho do banco de dados utilizado para o treinamento. Na tabela
6 e gráfico 3 são apresentados os resultados dos testes com este parâmetro.
Tabela 6 – Resultado dos teses com o número de coeficientes MFFCC
NÚMERO DE COEFICIENTES SENTENCE ERROR (391) WER (4057)
168
372
8
10
162
374
441
162
13*
*Valor padrão
ACC
90,81%
90,78%
89,11%
RTF
0,02
0,02
0,02
42
Gráfico 3 - Resultado dos teses com o número de coeficientes MFFCC
O ultimo parâmetro urilizado para testes foi o languagewheit, parâmetro que é
utilizado na decisão de importância relativa dada às probabilidades acústicas das palavras na
hipótese do reconhecimento. O valor 16 foi o mais adequado para este parâmetro, pois
apresentou valores adequados para as variáveis analisadas. Apresentou erros por sentença de
40,70, taxa de erro por palavra de 9,00% e acurácia de 90,12%. Os outros valores testados
para este parâmetro foram 6, 8, 10, 12, 14 e 18. Conforme foi aumento o valor de
LanguageWeight os resultados foram melhorando até o valor 16, depois deste valor a eficiência voltou
a diminuir, estes resultados estão apresentados na tabela 7 e gráfico 4.
Tabela 7 – Resultado dos testes com languagewheit
LANGUAGEWEIGHT SENTENCE ERROR (391) WER (4057)
6
172
469
8
168
449
441
162
10*
12
161
428
14
160
419
16
159
400
18
162
428
*Valor padrão
ACC
88,42%
88,91%
89,11%
89,43%
89,67%
90,12%
89,45%
RTF
0,02
0,02
0,02
0,02
0,02
0,02
0,02
43
Gráfico 4 – Resultado dos testes com languagewheit
Após estes testes foi realizado um treinamento com os valores que se apresentaram de
forma mais adequada para os parâmetros testados.
Para estados compartilhados foi utilizado o valor 400, para o número de gaussianas
por estado foi utilizado 48, para o languagewheit foi utilizado 16. Porém para o número de
coeficientes o valor 8 que apresentou os melhores valores para as variáveis quando foi feito o
teste com o restante dos parâmtros mantidos com os valores padrão não pôde ser utilizado,
devido ao fato de que utilizando o valor 8 com a configuração não padrão do Sphinx o
sistema começou apresentar erros durante ao treinamento, o que ocorreu devido ao número de
estados compartilhados que deveria ser mais baixo que 400.
O resultado para o treinamento com a configuração adequada é apresentado na tabela
8.
44
Tabela 8 - Resultados obtidos com os valores adequados de configuração para o Sphinx
SENTENCE ERROR (391)
WER (4057)
ACC
RTF
158
40.4%
404
10.0%
90,04%
0,02
Ao comparar com resultados obtidos com a configuração padrão e a configuração
modificada e considerada adequada para criação e decodificação dos modelos, é possível
perceber uma melhora no desempenho do decodificador e com isso a obtenção dos melhores
modelos para a base de dados treinada.
Levando em consideração o propósito da utilização dos modelos e a área em que serão
utilizados, os modelos devem ser treinados da melhor forma para que o decodificador
encontre as menores taxas de erro possíveis. Para assim atingir o objetivo desta pesquisa que é
desenvolver os modelos acústico e de linguagem para a criação de um sistema reconhecedor
de voz para o âmbito médico.
CAPÍTULO 6
Neste capítulo serão apresentados os resultados obtidos com a pesquisa.
6 CONSIDERAÇÕES FINAIS
Este trabalho apresentou a criação de uma ontologia para facilitar e padronizar a troca
de informações na área médica, e a criação de modelos acústico e de linguagem para serem
utilizados em um sistema de reconhecimento de voz.
Foi apresentada toda a base teórica do processo de criação de uma ontologia utilizando
informações de laudos médicos de tomografia computadorizada, o funcionamento do
processo de reconhecimento de voz, as ferramentas utilizadas, a base de dados utilizada nesta
45
pesquisa, o treinamento de linguagem para o português brasileiro, incluindo a criação de
modelos acústico e de linguagem e os testes realizados com estes modelos buscando a
obtenção de modelos que proporcionassem uma melhor decodificação.
A contribuição deste trabalho está na facilitação e simplificação dos procedimentos
dentro das instituições médicas. O sistema utilizado para criação e avaliação dos modelos
mostrou-se adequado, já que permite adequar parâmetros para a obtenção de melhores
modelos acústico e de linguagem, vale ressaltar que a melhor configuração varia de acordo
com a base de dados utilizada.
Em relação aos estados compartilhados é observado que parâmetro influencia muito se
a base de dados é pequena. Para uma base de dados menor que a utilizada é necessário utilizar
um número de estados compartilhados menor que 200, para uma base de dados maior que a
utilizada o número de estado compartilhados pode ser até maior que 500, aumentando o
número de estados compartilhados até 400 com a base de dados aqui testada os modelos se
mostravam de maior qualidade.
Gaussianas por estado foi o parâmetro que apresentou menos influência nos resultados
dos testes, a variação entre os valores desta variável não mudaram significativamente.
O número de coeficientes é muito influenciado pelo tamanho da base de dados e
consequentemente pelo número de estados compartilhados, para os dados utilizados os
melhores resultados apareceram conforme diminuía o número de coeficientes e para um
número de coeficientes maior do que 13 não só pioraram os resultados, como o treinamento
dos modelos começou a apresentar erros.
Os resultados melhoram conforme aumenta o valor de languagewheit. Aumentando o
valor até 16, o reconhecimento do decodificador foi melhorando apresentando resultados
superiores. Com uma base de dados maior é recomendável utilizar valores maiores que 16
para este parâmetro.
Para trabalhos futuros é sugerido que as gravações sejam realizadas de forma
independente de locutor, já que a base de dados utilizada neste trabalho restringe muito o
sistema por ser dependente de locutor e que sejam criados novos modelos testando a
eficiência do decodificador. Também é sugerido que seja utilizada uma base de dados maior
para treinamento e o desenvolvimento de uma interface para ser realizada a decodificação.
46
REFERENCIAS BIBLIOGRÁFICAS
ANNIBAL, L. P.; et al. Uma Ontologia para Estruturação da Informação contida em
Laudos
Radiológicos
CBIS11.
2011.
Disponível
em:
<http://www.sbis.org.br/cbis11/arquivos/717.pdf>. Acesso em: 23 nov. 2014.
ARAUJO,
Gabriel.
Sphinx-Voxforge
Pt-Br.
2014.
Disponível
em:
<
http://pt.slideshare.net/gabrielaraujof/treinamento-Sphinxtrain>. Acesso em: 23 nov. 2014.
AUDACITY Disponível em: http://audacityteam.org/, Acesso em: 08/12/2014.
BATISTA, P. dos S. Avanços em Reconhecimento de Fala para Português
Brasileiro e Aplicações: Ditado no LibreOffice e Unidade de Resposta Audível com
Asterisk, Belem. 2013. Dissertação (Mestrado em Engenharia Elétrica) – Universidade
Federal do Para, 2013.
BIOLCHINI, J. C. de A. Semântica e Cognição em Bases de Conhecimento: do
vocabulário controlado à ontologia DataGramaZero - Revista de Ciência da Informação - v.2
n.5 out/2001
DeCS. DeCS - Descritores em Ciências da Saúde. Disponível
<http://decs.bvs.br/P/DeCS2008_Alfab_por.htm>. Acesso em: 10 jul. 2015.
em:
em
DURLING, S.; LUMSDEN, J. Speech recognition use in healthcare applications. In:
Proceedings of the 6th international conference on advances in mobile computing and
multimedia. ACM, p. 473-478, 2008.
FALABRASIL Acesso em: 20/12/2015, Disponível em: http://www.laps.ufpa.br/falabrasil/
FARINAZZO V. Avaliação De Usabilidade Para Sistemas
Automática De Laudos Em Radiologia. Tese (Doutorado
Universidade de São Paulo, São Paulo, 2011.
De Transcrição
em Engenharia)
47
FENELON, Sandro. Aspectos ético-legais em Imaginologia. Radiol Bras [online], vol.36,
n.1, pp. 03-06, 2003.
FREITAS, F; SCHULZ, S. Ontologies, semantic Web and health. RECIIS, R.
Eletr. de Com. Inf. Inov. Saúde. Rio de Janeiro, v. 3, n. 1, p. 4-7, mar. 2009.
GORDILLO, C. D. A. Reconhecimento de Voz Contínua Combinando os Atributos
MFCC e PNCC com Métodos de Robustez SS, WD, MAP e FRN, Dissertação (Mestrado
em engenharia elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro,
2013.
JASINSKI, M. G. Comparação entre metodologias de análise de sinal aplicadas ao
reconhecimento de voz utilizando um vocabulário restrito, Florianópolis, 2006.
JOHNSON, M. et al. A systematic review of speech recognition technology in health care.
BMC medical informatics and decision making, v. 14, n. 1, p. 94, 2014.
MARTINS, F. C. V. Implementacão de interface para realização de experimentos com
sistemas de reconhecimento da fala, Rio de Janeiro, 2013. Dissertação (Mestrado em
Engenharia Elétrica) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2013.
MARTINS, V. F., Avaliação De Usabilidade Para Sistemas De Transcrição
Automática De Laudos Em Radiologia, Tese (Doutorado em Engenharia) – Escola
Politécnica da Universidade de São Paulo, São Paulo, 2011.
NETTO, O. P. et al Uma Metodologia para Estruturação de Laudos Médicos usando
Ontologias, Anais do XXXI Congresso da Sociedade Brasileira de Computação, XI
Workshop de Informática Médica, Natal, RN, 2011.
OLIVEIRA, A. OntoNegli: uma ontologia no domínio das doenças negligenciadas.
Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual de Maringá,
2011.
OLIVEIRA, V. de F. Reconhecimento de fala contínua para o português brasileiro
baseado em HTK e SPHINX, Rio de Janeiro, 2010.
PARANAGUÁ, E. D. S. Reconhecimento de locutores utilizando modelos de Markov
escondidos contínuos, 1997, Tese (Mestrado em ciências em engenharia elétrica) - Instituto
militar de engenharia, Rio de Janeiro, 1997.
PETRY, A.; ZANUZ, A.; BARONE, D. A. C. Utilização de Técnicas de Processamento
Digital de Sinais para a Identificação Automática de Pessoas pela Voz. In: SSI'99 Simpósio de Segurança em Informática, 1999, São José do Rio Preto. SSI'99 - Simpósio de
Segurança em Informática, 1999.
48
PICONE, J. “Signal Modeling Techiques in Speech Recognition”, Proceedings of the IEEE,
v. 81, n. 9, pp. 1215–1246, set. 1993.
PROTÉGÉ
Wiki
Acesso
em:
http://protegewiki.stanford.edu/wiki/Main_Page
08/12/2014,
Disponível
em:
SARTORI, H.; HARTI, M.; CHENFOUR, N. Introduction to Arabic Speech Recognition
Using CMUSphinx System. UFR Informatique et Nouvelles Technologies d'Information et
de Communication. França, 2007.
TILLEY, C.B. Medical Databases and Health Information Systems. ASIS/Elsevier
Science Publishers: Annual Review of Information Science and Technology (ARIST), v.25,
p.313-356, 1990
ZAHRA, F. M. Poronto - ferramenta para construção semiautomática de ontologias em
português, Curitiba, 2009.
ZAHRA, F. M.; CARVALHO, D. R.; MALUCELLI, A. Poronto: ferramenta para
construção semi automática de ontologias em português. Journal of Health Informatics, v.
5, n. 2, 2013.
Zahra F. M. Ferramentas para aprendizagem de ontologias a partir de textos,
Perspectivas em Ciência da Informação v.19, n.1, p.3-21, jan./mar. 2014
Zahra, F. M.; Carvalho, D. R.; Malucelli, A. Poronto: ferramenta para construção
semiautomática de ontologias em português. J. Health Inform. 2013 Abril-Junho; 5(2): 52-9
Zerbinatti, L. Extração de conhecimento de laudos de radiologia torácica utilizando
técnicas de processamento estatístico de linguagem natural Tese (Doutorado em
Engenharia) - Escola Politécnica da Universidade de São Paulo, São Paulo, 2010.
Werlang, H. Z.; Bergoli, P. M.; Madalosso, B. H. Manual do residente de radiologia -2.ed. Rio de Janeiro: Guanabara Koogan, 2009
WHITE, Keith S. Speech recognition implementation in radiology. Pediatric radiology, v.
35, n. 9, p. 841-846, 2005.
YOUNG, S., EVERMANN, G., GALES, M., et al. The HTK Book (for HTK Version 3.4).
http://htk.eng.cam.ac.uk/docs/docs.shtml, 2009.
49
Apêndice A – Arquivo de transcrições
<s> tomografia computadorizada </s> (fala1)
<s> fígado de volume SIL contornos e densidade normais SIL sem evidências de lesões focais
</s> (fala4)
<s> veias porta e supra hepáticas e de calibre preservado </s> (fala5)
<s> baço de volume usual SIL impregnando se homogeneamente pelo meio de contraste </s>
(fala8)
<s> pâncreas de morfologia e volume normais SIL com impregnação habitual pelo meio de
contraste SIL sem sinais de dilatação ductal ou calcificações parenquimatosas </s> (fala9)
<s> rins em topografia anatômica SIL de volume SIL densidade e contornos normais SIL com
espessura parenquimatosa preservada SIL concentrando e excretando o meio de contraste
simétrica e satisfatoriamente </s> (fala11)
<s> não se observam sinais de litíase ou lesões focais parenquimatosas renais </s> (fala12)
<s> cavidades pielocalicinais e segmentos uretrais visibilizados sem alterações </s> (fala13)
<s> porções visibilizadas da orta abdominal e da veia cava inferior com aspecto anatômico
</s> (fala14)
<s> segmentos intestinais avaliados sem sinais de alterações relevantes detectáveis ao método
</s> (fala15)
50
<s> não se observam linfonodomegalias ou líquido livre na cavidade abdominal superior </s>
(fala16)
<s> sem contraste venoso </s> (fala18)
<s> fígado de volume SIL contornos e densidade normais </s> (fala19)
<s> vias biliares sem sinais evidentes de dilatação </s> (fala20)
<s> baço de volume e densidade usuais </s> (fala22)
<s> pâncreas de morfologia e volume normais SIL sem sinais de calcificações
parenquimatosas </s> (fala23)
<s> rins em topografia usual SIL de volume SIL densidade e contornos normais </s> (fala25)
<s> ausência de litíase renal ou sinais de hidronefrose </s> (fala26)
<s> porções visibilizadas da aorta abdominal e da veia cava inferior de calibre anatômico
</s> (fala27)
<s> segmentos intestinais
avaliados sem sinais de alterações relevantes detectáveis ao
método </s> (fala28)
<s> não se observam linfonodomegalias ou líquido livre na cavidade abdominal superior </s>
(fala29)
<s> abdome total </s> (fala30)
<s> abdome superior e pelve com contraste venoso </s> (fala31)
<s> fígado de volume SIL contornos e densidade normais SIL sem evidências de lesões focais
</s> (fala32)
<s> veias porta e supra hepáticas pérvias e de calibre preservado </s> (fala33)
<s> baço de volume usual SIL impregnandose homogeneamente pelo meio de contraste </s>
(fala36)
<s> pâncreas de morfologia e volume normais SIL com impregnação habitual pelo meio de
contraste SIL sem sinais de dilatação </s> (fala37)
<s> rins em topografia anatômica SIL de volume SIL densidade e contornos normais SIL com
espessura parenquimatosa preservada SIL concentrando e excretando o meio de contraste
simétrica e satisfatoriamente </s> (fala39)
51
<s> não se observam sinais de litíase ou lesões focais parenquimatosas renais </s> (fala40)
<s> cavidades pielocalicinais e ureteres sem alterações </s> (fala41)
<s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem falhas de
repleção ou zonas de compressão extrínseca anormal </s> (fala42)
<s> próstata de morfologia SIL volume e densidade usuais SIL somente em homens </s>
(fala43)
<s> útero de volume SIL morfologia e densidade normais SIL com impregnação habitual pelo
meio de contraste SIL somente em mulheres </s> (fala44)
<s> aorta abdominal e da veia cava inferior com aspecto anatômico </s> (fala45)
</s> (fala46)
<s> não se observam linfonodomegalias ou líquido livre na cavidade abdominal </s> (fala47)
<s> abdome total </s> (fala48)
<s> abdome superior e pelve sem contraste venoso </s> (fala49)
<s> fígado de volume SIL contornos e densidade normais </s> (fala50)
<s> vias biliares sem sinais evidentes de dilatação </s> (fala51)
<s> baço de volume e densidade usuais </s> (fala53)
<s> pâncreas de morfologia e volume normais SIL sem sinais de calcificações
parenquimatosas </s> (fala54)
<s> rins em topografia usual SIL de volume SIL densidade e contornos normais </s> (fala56)
<s> ausência de sinais de urolitíase ou hidronefrose </s> (fala57)
<s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem sinais de cálculos
radiopacos em seu interior ou espessamentos parietais detectáveis ao método </s> (fala58)
<s> próstata de volume e densidade usuais SIL somente em homens </s> (fala59)
<s> útero de volume e densidade habituais SIL somente em mulheres </s> (fala60)
<s> aorta abdominal e veia cava inferior de calibre anatômico </s> (fala61)
</s> (fala62)
<s> não se observam linfonodomegalias ou líquido na cavidade abdominal </s> (fala63)
<s> angiotomografia computadorizada da aorta </s> (fala64)
<s> aspectos gerais </s> (fala65)
52
<s> os diversos segmentos da aorta têm trajeto anatômico SIL atenuação para fluxo
preservada SIL sem evidências de calcificações ateromatosas ou espessamentos parietais SIL
dissecção SIL estreitamentos ou dilatações aneurismáticas </s> (fala66)
<s> medidas </s> (fala67)
<s> segmento torácico ascendente SIL na altura do plano valvar aórtico raiz da aorta </s>
(fala68)
<s> segmento torácico ascendente SIL centímetros antes do tronco braquiocefálico
centímetros </s> (fala69)
<s> segmento torácico descendente proximal imediatamente após a topografia do ligamento
arterioso centímetros </s> (fala70)
<s> terço médio do segmento torácico descendente centímetros </s> (fala71)
<s> segmento torácico descendente SIL imediatamente acima do diafragma hiato
centímetros </s> (fala72)
<s> na altura da emergência do tronco celíaco centímetros </s> (fala73)
<s> na altura da emergência das artérias renais centímetros </s> (fala74)
<s> segmento intermediário entre a emergência das artérias renais e a origem bifurcação das
ilíacas centímetros </s> (fala75)
<s> imediatamente acima da origem bifurcação das artérias ilíacas centímetros </s> (fala76)
<s> angiotomografia computadorizada das artérias carótidas e vertebrais </s> (fala77)
<s> segmentos identificados do arco aórtico com aspecto angiotomográfico normal </s>
(fala78)
<s> a origem dos ramos supra aórticos se faz da maneira anatômica habitual SIL sem sinais
de estenoses </s> (fala79)
<s> as carótidas comuns apresentam trajeto e calibre usuais SIL sem placas ateromatosas ou
espessamentos parietais </s> (fala80)
<s> os bulbos carotídeos encontram se pérvios SIL com configuração anatômica e sem placas
ateromatosas ou espessamentos parietais </s> (fala81)
<s> os segmentos identificados das carótidas internas apresentam trajeto normal e
preenchimento adequado pelo meio de contraste SIL sem sinais de dilatações ou áreas de
estenoses </s> (fala82)
<s> as artérias vertebrais apresentam origem habitual nas artérias subclávias e trajeto
anatômico através dos forames transversos SIL não se identificando estenoses ou assimetria
de calibre </s> (fala83)
<s> angiotomografia computadorizada dos membros inferiores </s> (fala84)
53
<s> avaliação arterial </s> (fala85)
<s> membro inferior direito </s> (fala86)
<s> artérias femoral e profunda pérvias da coxa SIL de calibre e trajeto habituais SIL sem
evidências de estenoses </s> (fala87)
<s> segmentos visibilizados das artérias circunflexas sem sinais de alterações </s> (fala88)
<s> artéria poplítea pérvia SIL sem evidências de dilatações ou estenoses significativas </s>
(fala89)
<s> o tronco tibiofibular e seus principais ramos artérias fibular SIL tibial anterior e tibial
posterior estão pérvios e não apresentam alterações parietais significantes </s> (fala90)
<s> segmentos identificados das artérias dorsal do pé e plantares SIL bem como seus
principais ramos SIL sem sinais de alterações </s> (fala91)
<s> membro inferior esquerdo </s> (fala92)
<s> artérias femoral e profunda pérvias da coxa SIL de calibre e trajeto habituais SIL sem
evidências de estenoses </s> (fala93)
<s> segmentos visibilizados das artérias circunflexas sem sinais de alterações </s> (fala94)
<s> artéria poplítea pérvia SIL sem evidências de dilatações ou estenoses significativas </s>
(fala95)
<s> o tronco tibiofibular e seus principais ramos artérias fibular SIL tibial anterior e tibial
posterior estão pérvios e não apresentam alterações parietais significativas </s> (fala96)
<s> segmentos identificados das artérias dorsal do pé e plantares SIL bem como seus
principais ramos SIL sem sinais de alterações </s> (fala97)
<s> angiotomografia computadorizada dos vasos encefálicos </s> (fala98)
<s> segmentos identificados das artérias carótidas internas com trajeto e calibre preservados
SIL sem sinais de calcificações ateromatosas ou espessamentos parietais </s> (fala99)
<s>
porções
visibilizadas
das
artérias
carótidas
externas
apresentando
aspecto
angiotomográfico usual </s> (fala100)
<s> os segmentos identificados das artérias vertebrais e a artéria basilar apresentam se pérvios
SIL com trajeto e calibre normais </s> (fala101)
<s> segmentos vasculares identificados do círculo arterial do cérebro polígono de willis
encontram se pérvios SIL apresentando trajeto e calibre anatômicos </s> (fala102)
<s> não se identificam dilatações aneurismáticas ou malformações arteriovenosas </s>
(fala103)
<s> angiotomografia computadorizada dos vasos hepáticos </s> (fala104)
<s> transplante hepático doador </s> (fala105)
54
<s> o fígado apresenta morfologia e dimensões normais SIL observando se impregnação
adequada pelo meio de contaste SIL sem sinais de lesões focais </s> (fala107)
<s> não há sinais de dilatação das vias biliares intra ou extra hepáticas </s> (fala108)
<s> observação analisar criteriosamente todos os demais órgãos e estruturas abdominais
incluídos no campo de visão SIL colocando como observação apenas as alterações
identificadas </s> (fala110)
<s> aspectos vasculares </s> (fala111)
<s> tronco celíaco em topografia anatômica SIL com calibre de centímetros SIL dando
origem às artérias gástrica esquerda SIL esplênica e hepática comum SIL as quais se
apresentam com calibre usual e preenchimento homogêneo pelo meio de contraste </s>
(fala112)
<s> a artéria hepática comum dá origem às artérias gastroduodenal e gástrica direita SIL
originando SIL após esse último ramo SIL a artéria hepática própria </s> (fala113)
<s> a artéria hepática própria apresenta calibre de aproximadamente centímetros na sua
origem imediatamente após a emergência da artéria gástrica direita e comprimento de cerca de
centímetros até sua bifurcação em artérias hepáticas direita e esquerda </s> (fala114)
<s> a artéria hepática direita apresenta um preenchimento adequado pelo meio de contraste
SIL possuindo um calibre de aproximadamente centímetros próximo à sua origem e uma
extensão extra hepática de centímetros </s> (fala115)
<s> a artéria hepática esquerda apresenta preenchimento homogêneo pelo meio de contraste
SIL possuindo um calibre de aproximadamente centímetros próximo à sua origem e uma
extensão extra hepática de centímetros </s> (fala116)
<s> não se identificam sinais de suprimento vascular arterial hepático supranumerário ou
anômalo caso haja variação vascular SIL utilizar a classificação de michel </s> (fala117)
<s> a veia porta encontra se pérvia SIL medindo cerca de centímetros junto à sua origem SIL
e estende se por aproximadamente
centímetros até sua bifurcação em ramos direito e
esquerdo SIL o que ocorre no hilo hepático </s> (fala118)
<s> o ramo portal direito irriga os segmentos hepáticos quinto SIL sexto SIL sétimo e oitavo e
o ramo esquerdo SIL os segmentos segundo SIL terceiro SIL quarto o segmento primeiro é
irrigado parte por ramo portal esquerdo e parte por ramo portal direito SIL e o suprimento
arterial se faz de forma semelhante </s> (fala119)
55
<s> presença de três veias supra hepáticas eu desembocam separadamente na veia cava
inferior e apresentam calibre anatômico e preenchimento adequado pelo meio de contraste
</s> (fala120)
<s> a veia hepática direita drena os segmentos sexto e sétimo SIL a veia hepática média SIL
os segmentos quarto SIL quinto e oitavo SIL e a veia hepática esquerda SIL o segmentos
segundo e terceiro </s> (fala121)
<s> a veia cava inferior encontra se prévia e com dimensões preservadas </s> (fala122)
<s> angiotomografia computadorizada dos vasos pulmonares </s> (fala123)
<s> protocolo de tep </s> (fala124)
<s> tronco da artéria pulmonar e artérias pulmonares principais direita e esquerda
apresentando topografia normal e atenuação homogênea pelo meio de contraste </s> (fala126)
<s> os ramos segmentares e subsegmentares das artérias pulmonares têm morfologia SIL
calibre e atenuações para fluxo preservados </s> (fala127)
<s> não se observam estenoses ou dilatações vasculares detectáveis ao método </s> (fala128)
<s> o tronco da artéria pulmonar mede cerca de centímetros e a artéria interlobar direita SIL
cerca de centímetros </s> (fala129)
<s> não há sinais de falhas de enchimento SIL amputação de trajetos vasculares ou de outras
características que possam sugerir tromboembolismo pulmonar </s> (fala130)
<s> câmaras cardíacas apresentando dimensões preservadas SIL com septo interventricular
em posição habitual SIL não se observando imagens que possam sugerir trombo intracardíaco
</s> (fala131)
<s> os rins apresentam topografia e morfologia anatômicas SIL concentrando e excretando o
meio de contraste simétrica e satisfatoriamente </s> (fala133)
<s> o rim direito mede cerca de centímetros SIL com volume aproximado de centímetros
</s> (fala134)
<s> o rim esquerdo mede cerca de centímetros SIL com volume aproximado de centímetros
</s> (fala135)
<s> sistemas pielocalicinais com morfologia preservada SIL não se observando sinais de
hidronefrose ou falhas de repleção na fase excretora </s> (fala136)
<s> ureteres únicos bilateralmente SIL sem sinais de dilatação </s> (fala137)
<s> bexiga adequadamente distendida SIL sem falhas de repleção </s> (fala138)
<s> não há sinais de urolitíase </s> (fala139)
56
<s> glândulas supra renais com dimensões SIL morfologia e topografia habituais </s>
(fala140)
<s> observação </s> (fala141)
<s> caso sejam identificados custos renais SIL descrever sua localização e colocar suas
medidas SIL sempre que possível SIL pois eles podem aumentar significativamente de
tamanho após o transplante SIL e esse dado será de extrema valia </s> (fala142)
<s> analisar criteriosamente todos os demais órgãos e estruturas abdominais e pélvicas
incluídos no campo de visão fov SIL colocando como observação apenas as alterações
identificadas </s> (fala143)
<s> artérias renais únicas SIL originando se nas regiões laterais da aorta </s> (fala145)
<s> a artéria renal direita apresenta um calibre de aproximadamente centímetros na sua
origem e de centímetros imediatamente antes de sua ramificação SIL o que ocorre a cerca de
centímetros da aorta e centímetros do hilo renal correspondente </s> (fala146)
<s> a artéria renal esquerda apresenta um calibre de aproximadamente centímetros na sua
origem e de centímetros imediatamente antes de sua ramificação SIL o que ocorre a cerca de
centímetros da aorta e centímetros do hilo renal correspondente </s> (fala147)
<s> artérias para os segmentos proximais dos ureteres identificadas SIL originando se do
segmento polar inferior </s> (fala148)
<s> as artérias supra renais inferiores originam se nas faces superiores das artérias renais SIL
à direita distando cerca de centímetros da aorta e à esquerda SIL cerca de centímetros </s>
(fala149)
<s> presença de veias renais únicas SIL desembocando nas faces laterais da veia cava inferior
SIL a direita apresentando um comprimento de aproximadamente
centímetros desde a
confluência de seus ramos até a veia cava inferior e a esquerda SIL cerca de centímetros </s>
(fala150)
<s> a veia supra renal direita desemboca diretamente na veia cava inferior e a esquerda SIL
na face superior da veia renal correspondente </s> (fala151)
<s> as veias gonadal e lombar ascendente esquerdas desembocam na face inferior da veia
renal ipsilateral SIL apresentando calibre preservado </s> (fala152)
<s> articulações </s> (fala153)
<s> ombro SIL cotovelo SIL punho SIL quadril SIL joelho SIL tornozelo e sacroilíacas </s>
(fala154)
<s> cortical e medular óssea de morfologia e densidade normais </s> (fala155)
57
<s> superfícies e espaços articulares íntegros SIL com relações articulares mantidas </s>
(fala156)
<s> não se observam sinais de derrame articular ou corpos livres intra articulares </s>
(fala157)
<s> planos musculogordurosos íntegros </s> (fala158)
<s> não há sinais de fraturas ou de lesões osteolíticas ou osteoblásticas </s> (fala159)
<s> não se observam massas ou coleções nas partes moles avaliadas </s> (fala160)
<s> articulações temporomandibulares atm </s> (fala161)
<s> côndilos mandibulares SIL eminências temporais e cavidades articulares de morfologia
habitual </s> (fala162)
<s> cortical e medular ósseas com densidade preservada </s> (fala163)
<s> espaços articulares temporomandibulares
simétricos e de amplitude conservada ao
estudo com boca fechada </s> (fala164)
<s> o estudo com a boca aberta demonstra excursão ampla e simétrica dos côndilos
mandibulares SIL sem evidências de subluxações </s> (fala165)
<s> não há sinais de fraturas ou de lesões osteolíticas ou osteoblásticas </s> (fala166)
<s> não se observam massas ou coleções nas partes moles avaliadas </s> (fala168)
<s> cavidades paranasais </s> (fala169)
<s> cavidade frontal e esfenoidal com pneumatização normal e recessos fronto e
esfenoetmoidais livres </s> (fala170)
<s> células etmoidais com aeração preservada e septos ósseos intercelulares íntegros </s>
(fala171)
<s> cavidades maxilares simétricas e com pneumatização adequada SIL sem sinais de
sinusopatia associada </s> (fala172)
<s> complexos ostiomeatais de aspecto anatômico </s> (fala173)
<s> cornetos nasais de morfologia e dimensões normais </s> (fala174)
<s> septo nasal íntegro e sem desvio significativo </s> (fala175)
<s> fóveas etmoidais simétricas e de boa profundidade </s> (fala176)
<s> fossas pterigoplatinais sem alterações </s> (fala177)
<s> coluna aérea da rinofaringe de calibre normal </s> (fala178)
<s> elementos ósseos avaliados sem alterações relevantes </s> (fala179)
<s> colonoscopia virtual </s> (fala180)
58
<s> a progressão retrógrada do meio de contraste ar se processou livremente SIL ocorrendo
distensão adequada de todos os segmentos cólicos </s> (fala181)
<s> os diversos segmentos cólicos encontram se em topografia habitual SIL com o ceco
localizado do flanco fossa ilíaca direitos </s> (fala182)
<s> junção ileocólica com topografia e aspecto tomográfico habituais </s> (fala183)
<s> apêndice cecal adequadamente visibilizado SIL sem sinais de alterações </s> (fala184)
<s> não se observam sinais de espessamentos ou ulcerações parietais SIL lesões estenosantes
SIL vegetantes SIL polipóides ou diverticulares nos segmentos cólicos avaliados </s>
(fala185)
<s> coluna cervical </s> (fala186)
<s> densidade óssea preservada </s> (fala187)
<s> corpos vertebrais com altura preservada e alinhamento posterior mantido </s> (fala188)
<s> discos intervertebrais com morfologia conservada SIL sem sinais de abaulamentos ou
hérnias discais </s> (fala189)
<s> elementos dos arcos posteriores íntegros </s> (fala190)
<s> articulações interapofisárias e uncovertebrais sem alterações </s> (fala191)
<s> forames neurais livres </s> (fala192)
<s> canal raquidiano de boa amplitude em toda a região estudada </s> (fala193)
<s> valores de atenuação do saco tecal de aspecto normal </s> (fala194)
<s> não se observam fraturas ou sinais de lesões osteoblásticas ou osteolíticas </s> (fala195)
<s> planos musculogordurosos paravertebrais íntegros </s> (fala196)
<s> coluna dorsal </s> (fala197)
<s> corpos vertebrais de altura preservada e alinhamento posterior mantido </s> (fala199)
<s> interapofisárias sem alterações </s> (fala202)
<s> canal raquidiano com boa amplitude em toda a região estudada </s> (fala204)
<s> coluna lombar </s> (fala208)
59
<s> corpos vertebrais de altura preservada e alinhamento posterior mantido </s> (fala210)
<s> articulações interapofisárias sem alterações </s> (fala213)
<s> canal raquidiano com boa amplitude em toda a região estudada </s> (fala215)
<s> crânio </s> (fala219)
<s> pré e pós contraste </s> (fala220)
<s> supratentorial </s> (fala221)
<s> parênquima cerebral com coeficientes de atenuação preservados </s> (fala222)
<s> núcleos da base e regiões capsulares de aspecto anatômico </s> (fala223)
<s> ventrículos laterais e terceiro ventrículo de morfologia e calibre normais </s> (fala224)
<s> cisternas SIL sulcos e fissuras sem alterações </s> (fala225)
<s> não há sinais de desvio das estruturas da linha média </s> (fala226)
<s> infratentorial </s> (fala227)
<s> parênquima cerebelar e tronco cerebral com morfologia e densidade preservadas </s>
(fala228)
<s> o quarto ventrículo tem topografia mediana e calibre normal </s> (fala229)
<s> cisternas basais sem alterações </s> (fala230)
<s> após a administração intravenosa do meio de contraste não houve impregnação anormal
(fala231)
<s> crânio </s> (fala232)
<s> sem contraste </s> (fala233)
<s> supratentorial </s> (fala234)
<s> parênquima cerebral com coeficientes de atenuação preservados </s> (fala235)
<s> núcleos da base e regiões capsulares de aspecto anatômico </s> (fala236)
<s> ventrículos laterais e terceiro ventrículo de morfologia e calibre normais </s> (fala237)
<s> não há sinais de desvio das estruturas da linha média </s> (fala238)
<s> infratentorial </s> (fala239)
60
<s> parênquima cerebelar e tronco com morfologia e densidade preservadas </s> (fala240)
<s> o quarto ventrículo tem topografia mediana e calibre normal </s> (fala241)
<s> cisternas basais sem alterações </s> (fala242)
<s> órbitas </s> (fala243)
<s> cavidades orbitárias com dimensões preservadas e paredes ósseas íntegras </s> (fala244)
<s> globos oculares de morfologia SIL dimensões e densidade normais </s> (fala245)
<s> musculatura retro orbitária e planos gordurosos intra e extraconais sem alterações </s>
(fala246)
<s> fissuras orbitárias e canais ópticos com amplitudes preservadas </s> (fala247)
<s> nervos ópticos sem tajeto SIL densidade e espessura normais </s> (fala248)
<s> glândulas lacrimais de topografia SIL dimensões e densidade usuais </s> (fala249)
<s> estruturas vasculares regionais de aspecto normal </s> (fala250)
<s> não se observam impregnações anômalas pelo meio de contraste somente quando for
utilizado contraste quarto </s> (fala251)
<s> ossos temporais </s> (fala252)
<s> ouvidos e mastóides </s> (fala253)
<s> condutos auditivos externos de dimensões e morfologia normais </s> (fala254)
<s> membranas timpânicas íntegras e de espessura normal </s> (fala255)
<s> cavidades timpânicas e recessos epitimpânicos normoaerados </s> (fala256)
<s> paredes laterais dos áticos íntegras </s> (fala257)
<s> ossículos auditivos com morfologia SIL densidade e relações articulares preservadas </s>
(fala258)
<s> janelas ovais e redondas com amplitudes anatômicas </s> (fala259)
<s> sáculos SIL utrículos e canais semicirculares com aspecto usual </s> (fala260)
<s> cócleas com morfologia anatômica </s> (fala261)
<s> aquedutos vestibulares sem alterações ao método </s> (fala262)
<s> porções petrosas dos ossos temporais com mineralização habitual para a faixa etária </s>
(fala263)
<s> condutos auditivos internos simétricos SIL com dimensões normais e cristas falciformes
íntegras </s> (fala264)
<s> porções visibilizadas dos nervos faciais e vestibulococleares com calibre e trajeto normais
</s> (fala265)
<s> células e antros das mastóides com aeração normal </s> (fala266)
<s> canais carotídeos e bulbos jugulares sem alterações </s> (fala267)
61
<s> não há evidências de lesão expansiva nos ângulos pontocerebelares </s> (fala268)
<s> não se observam lesões osteolíticas ou fraturas nos elementos ósseos avaliados </s>
(fala269)
<s> pelve </s> (fala270)
<s> com contaste venoso </s> (fala271)
<s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem falhas de
repleção ou zonas de compressão extrínseca anormal </s> (fala272)
<s> próstata de morfologia SIL volume SIL e densidade usuais somente em homens </s>
(fala273)
<s> útero de volume SIL morfologia e densidade normais SIL com impregnação habitual pelo
meio de contraste somente em mulheres </s> (fala274)
<s> ovários apresentando topografia e dimensões preservadas SIL sem sinais de calcificações
ou de lesões expansivas sólidas ou císticas associadas somente em mulheres </s> (fala275)
<s> segmentos intestinais identificados sem sinais de alterações relevantes detectáveis ao
método </s> (fala276)
<s> não se observam linfonodomegalias ou líquido livre na escavação pélvica </s> (fala277)
<s> estruturas vasculares avaliadas sem alterações </s> (fala278)
<s> planos musculogordurosos preservados </s> (fala279)
<s> estruturas ósseas regionais íntegras </s> (fala280)
<s> pelve </s> (fala281)
<s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem sinais de cálculos
radiopacos em seu interior ou espessamentos parietais detectáveis ao método </s> (fala283)
<s> próstata de volume e densidade usuais somente em homens </s> (fala284)
<s> útero de volume e densidade usuais somente em mulheres </s> (fala285)
<s> ovários apresentando topografia e dimensões preservadas SIL sem sinais de calcificações
ou de lesões expansivas sólidas ou císticas passíveis de identificação ao método somente em
mulheres </s> (fala286)
<s> segmentos intestinais avaliados sem sinais de alterações relevantes </s> (fala287)
<s> não se observam linfonodomegalias ou líquido livre na escavação pélvica </s> (fala288)
<s> planos musculogordurosos preservados </s> (fala289)
<s> estruturas ósseas regionais íntegras </s> (fala290)
<s> pescoço </s> (fala291)
62
<s> colunas aéreas da nasofaringe SIL orofaringe e laringofaringe hipofaringe com
morfologia e calibre normais </s> (fala292)
<s> espaços parotídeos SIL mastigadores e carotídeos sem alterações </s> (fala293)
<s> cavidade oral SIL base da língua SIL espaços sublingual e submandibular de aspecto
normal </s> (fala294)
<s> glândulas parótidas SIL submandibulares e tireóide apresentando volume SIL morfologia
e densidade usuais </s> (fala295)
<s> vasos cervicais de calibre preservado e preenchimento homogêneo pelo meio de contraste
somente em exame com contraste quarto </s> (fala296)
<s> vasos cervicais de calibre preservado utilizar esta frase em exame sem contraste quarto
</s> (fala297)
<s> não se observam linfonodomegalias </s> (fala298)
<s> espaços paravertebrais cervicais e planos musculogordurosos adjacentes íntegros </s>
(fala299)
<s> estruturas ósseas de aspecto normal </s> (fala300)
<s> rins e vias urinárias </s> (fala301)
<s> rins em topografia anatômica SIL com morfologia e contornos preservados </s> (fala303)
<s> o rim direito mede cerca de centímetro com volume aproximado de centímetro cúbico
</s> (fala304)
<s> o rim esquerdo mede cerca de centímetro SIL com volume aproximado de centímetro
cúbico </s> (fala305)
<s> cavidades pielocalicinais sem alterações ao método </s> (fala306)
<s> ureteres com trajeto e dimensões preservados </s> (fala307)
<s> não se observam sinais de urolitíase ou hidronefrose </s> (fala308)
<s> bexiga com boa repleção SIL de morfologia normal SIL sem sinais de compressão
extrínseca anormal </s> (fala309)
<s> rins e vias urinárias </s> (fala310)
<s> os rins apresentam topografia e morfologia anatômicas SIL concentrando e excretando o
meio de contraste simétrica e satisfatoriamente </s> (fala312)
<s> o rim direito mede cerca de centímetro SIL com volume aproximado de centímetro
63
<s> o rim esquerdo mede cerca de centímetro SIL com volume aproximado de centímetro
<s> sistemas pielocalicinais com morfologia preservada SIL não se observando sinais de
hidronefrose ou falhas de repleção na fase excretora </s> (fala315)
<s> ureteres únicos bilateralmente SIL sem sinais de dilatação </s> (fala316)
<s> bexiga adequadamente distendida SIL sem falhas de repleção </s> (fala317)
<s> não há sinais de urolitíase </s> (fala318)
<s> laringe </s> (fala319)
<s> coluna aérea da naso e da orofaringe de aspecto usual </s> (fala320)
<s> valéculas SIL seios periformes e epiglote sem alterações </s> (fala321)
<s> espaços pré epiglótico SIL pré vertebral e regiões paralaringeas de aspecto anatômico
</s> (fala322)
<s> osso hióde SIL cartilagens tireóide SIL aritenóides e cricóide íntegras </s> (fala323)
<s> cordas vocais de espessura e densidade normais SIL apresentando boa mobilidade no
estudo dinâmico em fonação </s> (fala324)
<s> espaço mucosofaríngeo de espessura e densidade normais SIL com comissura anterior e
vestíbulo preservados </s> (fala325)
<s> pregas glossoepiglóticas SIL aritenoepiglóticas e faringoepiglóticas simétricas e de
espessura normal </s> (fala326)
<s> elementos musculares de densidade e espessura normais </s> (fala327)
<s> segmentos apendiculares </s> (fala328)
<s> mão SIL antebraço SIL braço SIL coxa SIL perna e pé </s> (fala329)
<s> cortical e medular óssea íntegras SIL de morfologia e densidade normais </s> (fala330)
<s> espaços e relações articulares mantidos </s> (fala331)
<s> não há evidência de massas ou coleções em partes moles adjacentes </s> (fala333)
<s> não se observam fraturas ou lesões destrutivas ósseas </s> (fala334)
<s> joelhos e estudo rotacional dos membros inferiores </s> (fala335)
<s> medidas baseadas no protocolo de lyon modoficado </s> (fala336)
<s> patelas com densidade e contornos preservados SIL normoposicionada no sulco da
tróclea femoral SIL apresentando morfologia do tipo de wiberg </s> (fala338)
64
<s> segmentos ósseos visibilizados do fêmur e da tíbia apresentando cortical e medular ósseas
íntegras SIL com morfologia preservada SIL sem sinais de fraturas ou lesões osteoblásticas
ou osteolíticas </s> (fala339)
<s> espaços articulares femorotibiais e femoropatelares com amplitudes anatômicas </s>
(fala340)
<s> não há evidências de derrame articular SIL calcificações periarticulares ou corpos livres
intra articulares </s> (fala341)
<s> ângulos e medidas </s> (fala343)
<s> ângulo troclear direito esquerdo </s> (fala344)
<s> ângulo de inclinação da vertente externa troclear direito esquerdo </s> (fala345)
<s> inclinação troclear direito esquerdo </s> (fala346)
<s> ângulo patelofemoral lateral direito esquerdo </s> (fala347)
<s> luxação patelar direito esquerdo </s> (fala348)
<s> índice patelofemoral direito esquerdo </s> (fala349)
<s> razão morfológica da patela direito esquerdo </s> (fala350)
<s> altura da patela direito esquerdo </s> (fala351)
<s> tuberosidade anterior da tíbia garganta da tróclea direito esquerdo </s> (fala352)
<s> ângulo de anteversão femoral direito esquerdo </s> (fala353)
<s> ângulo de rotação tibial externa direito esquerdo </s> (fala354)
<s> ângulo condilomaleolar direito esquerdo </s> (fala355)
<s> ângulo direito esquerdo </s> (fala356)
<s> razão troclear lateral medial direito esquerdo </s> (fala357)
<s> inclinação patelar </s> (fala358)
<s> extensão em repouso direita esquerda </s> (fala359)
<s> extensão com contração muscular direita esquerda </s> (fala360)
<s> semiflexão quinze graus direita esquerda </s> (fala361)
<s> observação positivo lateral e negativo medial </s> (fala362)
<s> sela túrcica </s> (fala363)
<s> hipófise </s> (fala364)
<s> sela túrcica de dimensões anatômicas e paredes ósseas íntegras </s> (fala365)
<s> infundíbulo hipofisário e haste hipofisária centrados e de dimensões usuais </s> (fala366)
<s> hipófise de volume e densidade normais SIL com impregnação habitual após a
administração do meio de contraste </s> (fala367)
65
<s> região hipotalâmica e do quiasma óptico sem alterações </s> (fala368)
<s> cisterna supra selar e porções ventriculares individualizadas e de aspecto normal </s>
(fala369)
<s> seios cavernosos sem alterações </s> (fala370)
<s> cavidade esfenoidal normoaerada </s> (fala371)
<s> tórax </s> (fala372)
<s> protocolo de swensen </s> (fala373)
<s> comentários </s> (fala374)
<s> nódulo com densidade de partes moles SIL medindo cerca de centímetros SIL com
contorno regular SIL lobulado SIL espiculado SIL etcetera SIL localizado no segmento do
lobo do pulmão direito SIL esquerdo </s> (fala375)
<s> a medida da densidade na fase pré contraste foi de unidade de densidade tomográfica
</s> (fala376)
<s> foi realizado estudo dinâmico do nódulo após a infusão intravenosa do meio de contraste
SIL em que a medida da maior densidade unidade de densidade tomográfica foi obtida aos
segundos </s> (fala377)
<s> impressão </s> (fala378)
<s> caso tenha ocorrido realce significativo </s> (fala379)
<s> o nódulo pulmonar avaliado pelo protocolo de swensen possui aspecto incaracterístico
SIL levando se em consideração apenas o estudo dinâmico e seu comportamento em relação à
impregnação pelo meio de contraste </s> (fala380)
<s> caso não tenha ocorrido realce significativo </s> (fala381)
<s> de acordo com a avaliação pelo protocolo de swensen SIL a ausência de aumento
significativo da densidade após a infusão intravenosa do meio de contraste tem valor preditivo
de noventa por cento para benignidade </s> (fala382)
<s> tórax </s> (fala383)
<s> parênquima pulmonar com volume e coeficientes de atenuação preservados </s>
(fala384)
<s> o estudo em apnéia expiratória não demonstrou áreas significativas de apriosionamento
aéreo somente quando tiver estudo em expiração </s> (fala385)
<s> traquéia e brônquios fontes pérvios e de calibre conservado </s> (fala386)
<s> hilos de aspecto normal </s> (fala387)
<s> estruturas vasculares do mediastino de calibre preservado </s> (fala388)
<s> não se observam linfonodomegalias mediastinais ou axilares </s> (fala389)
66
<s> não há evidências de derrame pleural e ou pericárdio </s> (fala390)
<s> estruturas ósseas avaliadas de aspecto anatômico </s> (fala391)
Apêndice B – Arquivo de dicionário
aa
áa
àa
abaulamentos a b a w l a m ee t u s
abdome a b d oo m i
abdominais a b d o m ii n a j s
abdominal a b d o m ii n a w
aberta a b e xm t a
acima a s ii m a
acordo a k o rm d u
adequada a d e k w a
adequadamente a d e k w a d a m ee ts i
adequado a d e k w a d u
adjacentes a dz zm a s ee ts i s
administração a dz m ii n i s t r a s aa ww
aeração a j r a s aa ww
aérea a em r e a
aéreas a em r e a s
aéreo a em r e u
alinhamento a l ii jm a m ee t u
alterações a w t e r a s oo jj s
altura a w t u r a
ampla aa p l a
amplitude aa p l i t u dz i
amplitudes aa p l i t u dz i s
amputação aa p u t a s aa ww
analisar a n a l i z a xm
anatômica a n a t oo m i k a
anatômicas a n a t oo m i k a s
anatômico a n a t oo m i k u
anatômicos a n a t oo m i k u s
aneurismáticas a n e w r i z m a ts i k a s
angiotomografia aa zm i o t o m o g r a f i a
angiotomográfico aa zm i o t o m o g r a f i
ko
ângulo aa g u l u
ângulos aa g u l u s
anômalas a n o m a l a s
anômalo a n o m a l o
anormal a n o rm m a w
antebraço aa t e b r a s u
anterior aa t e r i o xm
antes aa ts i s
anteversão aa t e v e xm s aa ww
antros aa t r u s
ao a w
aorta a o xm t a
aórtico a o xm ts i k u
aórticos a o xm ts i k u s
aos a w s
apenas a p ee n a s
apêndice a p ee dz i s i
apendiculares a p ee dz i k u l a r i s
apnéia a p n em j a
após a p om j s
apresenta a p r e z ee t a
apresentam a p r e z ee t aa ww
apresentando a p r e z ee t aa d u
apriosionamento a p r i z i o n a m ee t u
aproximadamente a p r o sm ii m a d a m
ee ts i
aproximado a p r o sm ii m a d u
aquedutos a k e d u t u s
ar a xm
arco a xm k u
arcos a xm k u s
áreas a r e a s
aritenoepiglóticas a r i t ee n u g l om ts i k
as
aritenóides a r i t ee n om j dz i s
67
artéria a xm t em r i a
arterial a xm t e r i a w
artérias a xm t em r i a s
arterioso a xm t e r i o z u
arteriovenosas a xm t e r i o v e n om z a s
articulações a xm ts i k u l a s oo jj s
articular a xm ts i k u l a xm
articulares a xm ts i k u l a r i s
às a j s
as a j s
ascendente a s ee d ee ts i
aspecto a s p e k t u
aspectos a s p e k t u s
assimetria a s ii m e t r i a
associada a s o s i a d a
associadas a s o s i a d a s
até a t em
atenuação a t e n u a s aa ww
atenuações a t e n u a s oo jj s
ateromatosas a t e r o m a t om z a
áticos a ts i k u s
atm a t m
através a t r a v em j s
auditivos a w dz i ts i v u s
aumentar a uu m ee t a xm
aumento a uu m ee t u
ausência a w z ee s i a
avaliação a v a l i a s aa ww
avaliadas a v a l i a d a s
avaliado a v a l i a d u
avaliados a v a l i a d u s
axilares a sm i l a r i s
bb
baço b a s u
basais b a z a j s
base b a z i
baseadas b a z e a d a s
basilar b a z i l a r
bem b ee jj
benignidade b e n i g n i d a dz i
bexiga b e sm i g a
bifurcação b i f u xm k a s aa ww
bilateralmente b i l a t e r a w m ee ts i
biliar b i l i a r
biliares b i l i a r i s
boa b o a
boca b o k a
braço b r a s u
braquiocefálico b r a k j o s e f a l i k u
brônquios b r oo n k j o s
bulbos b u w b u s
ck
calcificações k a w s ii f i k a s oo jj s
cálculos k a w k u l u s
calibre k a l i b r i
câmaras k aa m a r a s
campo k aa p u
canais k a n a j s
canal k a n a w
capsulares k a p s u l a r i s
características k a r a k t e r i s ts i k a s
cardíacas k a rm d i a k a s
carótidas k a r om ts i d a s
carotídeos k a r om ts i d e u s
cartilagens k a xm ts i l a zm ee s
caso k a z u
cava k a v a
cavernosos k a v e rm n o z u s
cavidade k a v i d a dz i
cavidades k a v i d a dz i s
cecal s e k a w
ceco s e k o
celíaco s e i a k u
células s em l u l a s
centímetro s ee ts i m e t r u
centímetros s ee ts i m e t r u s
cento s ee t u
centrados s ee t r a d u s
cerca s e xm k a
cerebelar s e r e b e l a xm
cerebral s e r e b r a w
cérebro s em r e b r u
cervicais s e rm v i k a j s
cervical s e rm v i k a w
círculo s i xm k u l u
circunflexas s i xm k uu f l e k s a s
cisterna s i s t e rm n a
cisternas s i s t e rm n a s
císticas s i z ts i k a s
classificação k l a s i f i k a s aa ww
cócleas k om k l e a s
coeficientes k o e f i s i ee ts i s
coleções k o l e s oo jj s
cólicos k om l i k u s
colocando k o l o k aa d u
colocar k o l o k a xm
colonoscopia k o l oo n u s k o p i a
coluna k o l uu n a
colunas k o l uu n a s
com k oo
68
comentários k o m ee t a r i u s
comissura k o m i s u r a
como k oo m u
complexos k oo p l e k s u s
comportamento k oo p o xm t a m ee t u
compressão k oo p r e s aa ww
comprimento k oo p r ii m ee t u
computadorizada k oo p u t a d o r i z a d a
comum k o m uu
comuns k o m uu s
concentrando k oo s ee t r aa d u
condilomaleolar k oo dz i l o m a l e o l a
xm
côndilos k oo dz i l u s
condutos k oo d u t u s
configuração k oo f i g u r a s aa ww
confluência k oo f l u ee s i a
conservada k oo s e rm v a d a
conservado k oo s e rm v a d u
consideração k oo s i d e r a s aa ww
contaste k oo t r a s ts i
contorno k oo t o rm n u
contornos k oo t o rm n u s
contração k oo t r a s aa ww
contraste k oo t r a s ts i
cordas k o rm d a s
cornetos k o rm n e t u s
corpos k o xm p u s
correspondente k o rm e s p oo d ee ts i
cortical k o xm ts i k a w
cotovelo k o t o v em l u
coxa k o sm a
crânio k r aa n i u
cricóide k r i k om j dz i
cristas k r i s t a s
criteriosamente k r i t e r i om z a m ee ts i
cúbico k u b i k u
custos k u s t u s
dd
dá d a
da d a
dado d a d u
dando d aa d u
das d a j s
de dz i
demais d e m a j s
demonstra d e m oo s t r a
demonstrou d e m oo s t r o w
densidade d ee s i d a dz i
derrame d e rm aa m i
descendente d e s ee d ee ts i
descrever d e s k r e v e xm
desde d e z dz i
desemboca d e z ee b o k a
desembocam d e z ee b o k aa ww
desembocando d e z ee b o k aa d u
destrutivas d e s t r u ts i v a s
desvio d e z v i u
detectáveis d e t e k t a v e j s
diafragma dz i a f r a g m a
dilatação dz i l a t a s aa ww
dilatações dz i l a t a s oo jj s
dimensões dz ii m ee s oo jj s
dinâmico dz ii n aa m i k u
direita dz i r e j t a
direito dz i r e j t u
direitos dz i r e j t u s
diretamente dz i r e t a m ee ts i
discais dz i s k a j s
discos dz i s k u s
dissecção dz i s e k s aa ww
distando dz i s t aa d u
distendida dz i s t ee dz i d a
distensão dz i s t ee s aa ww
diversos dz i v e xm s u s
diverticulares dz i v e xm ts i k u l a r i s
do d u
doador d o a d o xm
dorsal d o xm s a w
dos d u j s
drena d r e n a
ductal d u k t a w
é em
ee
è em
elementos e l e m ee t u s
eles e l i s
em e m
emergência e m e rm g ee s i a
eminências e m ii n ee s i a s
encefálicos ee s e f a l i k u s
enchimento ee sm ii m ee t u
encontra ee k oo t r a
encontram ee k oo t r aa ww
entre ee t r i
epiglote e p i g l o ts i
epiglótico e p i g l om ts i k u
epitimpânicos e p i ts ii p aa n i k u s
escavação e s k a v a s aa ww
esfenoetmoidais e s f e n o e ts m u j d a j s
69
esfenoidal e s f e n o i d a w
espaço e s p a s u
espaços e s p a s u s
espessamentos e s p e s a m ee t u s
espessura e s p e s u r a
espiculado e s p i k u l a d u
esplênica e s p l ee n i k a
esquerda e s k e rm d a
esquerdas e s k e rm d a s
esquerdo e s k e rm d u
esse e s i
esta em s t a
estão e s t aa ww
estende e s t ee dz i
estenosantes e s ts e n om z aa t e z i
estenoses e s ts e n o z i s
estreitamentos e s t r e j t a m ee t u s
estruturas e s t r u t u r a s
estudada e s t u d a d a
estudo e s t u d u
etária e t a r i a
etcetera e ts s e t e r a
etmoidais e ts m o j d a j s
eu e w
evidência e v i d ee s i a
evidências e v i d ee s i a s
evidentes e v i d ee ts i s
exame e z aa m i
excretando e s k r e t aa d u
excretora e s k r e t o r a
excursão e s k u xm s aa ww
expansiva e s p aa s i v a
expansivas e s p aa s i v a s
expiração e s p i r a s aa ww
expiratória e s p i r a t om r i a
extensão e s t ee s aa ww
externa e s t e rm n a
externas e s t e rm n a s
externos e s t e rm n u s
extra e s t r a
extraconais e s t r a k o n a j s
extrema e s t r ee m a
extrínseca e s t r ii s e k a
ff
face f a s i
faces f a s i s
faciais f a s i a j s
faixa f a j sm a
falciformes f a w c i f o rm m i s
falhas f a lm a s
faringoepiglóticas f a r ii zm o e p i g l om
ts i k a s
fase f a z i
faz f a j s
fechada f e sm a d a
femoral f ee m o r a w
femoropatelares f ee m o r o p a t ee l a r i s
femorotibiais f ee m o r o ts i b i a j s
fêmur f ee m u xm
fibular f i b u l a xm
fígado f i g a d u
fissuras f i s u r a s
flanco f l aa k u
fluxo f l u sm u
focais f o k a j s
foi f o j
fonação f oo n a s aa ww
fontes f oo ts i s
for f o xm
forames f o r a r aa m i s
forma f o rm m a
fossa f o s a
fossas f o s a s
fov f o v
fóveas f om v e a s
frase f r a z i
fraturas f r a t u r a s
frontal f r oo t a w
fronto f r oo t u
gg
garganta g a rm g aa t a
gástrica g a j s t r i k a
gastroduodenal g a s t r o d u o d e n a w
gerais zm e r a j s
glândulas g l aa d u l a s
globos g l o b u s
glossoepiglóticas g l o s o e p i g l om ts i k
as
gonadal g o n a d a w
gordurosos g o rm d u r o z u s
graus g r a w s
há a
habituais a b i t u a j s
habitual a b i t u a w
haja a zm a
haste a s ts i
hepática e p a ts i k a
hepáticas e p a ts i k a s
hepático e p a ts i k u
hepáticos e p a ts i k u s
70
hérnias em rm n i a s
hiato i a t u
hidronefrose i d r o n e f r o z i
hilo i l u
hilos i l u s
hióde i om dz i
hipofaringe i p o f a r ii zm i
hipofisária i p o f i z t a r i a
hipofisário i p o f i z t a r i u
hipófise i p om f i z i
hipotalâmica i p o t aa m i k a
homens oo m ee s
homogênea o m o g ee n e a
homogeneamente o m o g ee n e a m ee ts i
homogêneo o m o g ee n e u
houve o w v i
ii
íi
identificação i d ee ts i f i k a s aa ww
identificadas i d ee ts i f i k a d a s
identificados i d ee ts i f i k a d u s
identificam i d ee ts i f i k aa ww
identificando i d ee ts i f i k aa d u
ileocólica i l e o k om l i k a
ilíaca i l i a k a
ilíacas i l i a k a s
imagens ii m a zm ee s
imediatamente ii m e dz i a t a m ee ts i
impregnação ii p r e g n a s aa ww
impregnações ii p r e g n a s oo jj s
impregnando ii p r e g n aa d u
impregnandose ii p r e g n aa d o s e
impressão ii p r e s aa ww
incaracterístico ii k a r a k t e r i s ts i k u
inclinação ii k l ii n a s aa ww
incluídos ii k l u i d u s
índice ii dz i s i
individualizadas ii dz i v i d u a l i z a d a s
inferior ii f e r i o xm
inferiores ii f e r i o r i s
infratentorial ii f r a t ee t o r i a w
infundíbulo ii f uu d i b u l u
infusão ii f u z aa ww
íntegras ii t e g r a s
íntegro ii t e g r u
íntegros ii t e g r u s
interapofisárias ii t e r a p o f i s a r i a s
intercelulares ii t e r s e l u l a r i s
interior ii t e r i o xm
interlobar ii t e r l o b a xm
intermediário ii t e rm m e dz i a r i u
internas ii t e rm n a s
internos ii t e rm n u s
interventricular ii t e r v ee t r i k u l a xm
intervertebrais ii t e r v e xm t e b r a j s
intestinais ii t e s ts ii n a j s
intra ii t r a
intracardíaco ii t r a k a rm d i a k u
intravenosa ii t r a v e n om z a
ipsilateral i p s i l a t e r a w
irriga i rm i g a
irrigado i rm i g a d u
j zm
janelas zm a n e l a s
joelho zm o e lm u
joelhos zm o e lm u s
jugulares zm u g u l a r i s
junção zm uu s aa ww
junto zm uu t u
kk
ll
lacrimais l a k r ii m a j s
laringe l a r ii zm i
laringofaringe l a r ii g o f a r ii zm i
laterais l a t e r a j s
lateral l a t e r a w
lesão l e z aa ww
lesões l e z oo jj s
levando l e v aa d u
ligamento l i g a m ee t u
linfonodomegalias l ii f oo n o d o m e g a l
ias
língua l ii g w a
linha l ii jm a
líquido l i k j d u s
litíase l i ts i a z i
livre l i v r i
livremente l i v r e m ee ts i
livres l i v r i s
lobo l o b u
lobulado l o b u l a d u
localização l o k a l i z a s aa ww
localizado l o k a l i z a d u
lombar l oo b a xm
luxação l u sm a s aa ww
lyon w j oo
mm
maior m a j om xm
malformações m a w f o rm m a s oo jj s
mandibulares m aa d i b u l a r i s
71
maneira m a n e j r a
mantidas m aa ts i d a s
mantido m aa ts i d u
mantidos m aa ts i d u s
mão m aa ww
massas m a s a s
mastigadores m a s ts i g a d o r i s
mastóides m a s t om j dz i s
maxilares m a sm i l a r i s
mede m e dz i
média m em dz i a
medial m em dz i a w
mediana m e dz i aa n a
mediastinais m e dz i a s ts ii n a j s
mediastino m e dz i a s ts ii n u
medida m e dz i d a
medidas m e dz i d a s
medindo m e dz ii d u
médio m em dz i u
medular m e d u l a xm
meio m e j u
membranas m ee b r aa n a s
membro m ee b r u
membros m ee b r u s
método m em t o d u
michel m i sm em w
mineralização m ii n e r a l i z a s aa ww
mobilidade m o b i l i d a dz i
modoficado m o dz i f i k a d u
moles m o l i s
morfologia m o xm f o l o zm i a
morfológica m o xm f o l om zm i k a
mucosofaríngeo m u k o z o f a r ii zm e u
mulheres m u lm e r i s
muscular m u s k u l a xm
musculares m u s k u l a r i s
musculatura m u s k u l a t u r a
musculogordurosos m u s k u l o g o rm d u
rozus
nn
na n a
não n a w
nas n a s
nasais n a z a j s
nasal n a z a w
naso n a z o
nasofaringe n a z o f a r ii zm i
negativo n e g a ts i v oo
nervos n e rm v u s
neurais n e w r a j s
no n u
nódulo n om d u l u
normais n o rm m a j s
normal n o rm m a w
normoaerada n o rm m o a j r a d a
normoaerados n o rm m o a j r a d u s
normoposicionada n o rm m o p o z i s i o
nada
nos n u j s
noventa n o v ee t a
núcleos n u k l e u s
oo
ó om
observa o b s e rm v a
observação o b s e rm v a s aa ww
observam o b s e rm v aa ww
observando o b s e rm v aa d u
obtida o b ts i d a
ocorre o k o rm i
ocorrendo o k o rm ee d u
ocorrido o k o rm i d u
oculares o k u l a r i s
oitavo o j t a v u
ombro oo b r u
óptico om p ts i k u
ópticos om p ts i k u s
oral o r a w
orbitária om rm b i t a r i a
orbitárias om rm b i t a r i a s
órbitas om rm b i t a s
órgãos om rm g aa ww s
origem o r i zm ee jj
originam o r i zm ii n aa ww
originando o r i zm ii n aa d u
orofaringe o r o f a r ii zm i
orta o xm t a
os u j s
óssea om s e a
ósseas om s e a s
ósseos om s e u s
ossículos o s i k u l u s
osso o s u
ossos o s u s
osteoblásticas o s t e o b l a s ts i k a s
osteolíticas o s t e o l i ts i k a s
ostiomeatais o s ts i o m a e t a j s
ou o w
outras o w t r a s
ouvidos o w v i d u s
ovais o v a j s
72
ovários o v a r i u s
pp
pâncreas p aa k r e a s
para p a r a
paralaringeas p a r a l a r ii zm i a s
paranasais p a r a n a z a j s
paravertebrais p a r a v e xm t e b r a j s
paredes p a r e dz i s
parênquima p a r ee k ii m a
parenquimatosa p a r ee k ii m a t om z a
parenquimatosas p a r ee k ii m a t om z a s
parietais p a r i e t a i s
parótidas p a r om ts i d a s
parotídeos p a r om ts i d e u s
parte p a xm ts i
partes p a xm ts i s
passíveis p a s i v e j s
patela p a t ee l a
patelar p a t ee l a xm
patelas p a t ee l a s
patelofemoral p a t ee l o f ee m u r a w
pé p em
pelo p e l u
pelve p e l v e
pélvica p em w v i k a
pélvicas p em w v i k a s
periarticulares p e r i a xm ts i k u l a r e z
pericárdio p e r i k a rm dz i u
periformes p e r i f o rm m i s
perna p e rm n a
pérvia p em r v i a
pérvias p em r v i a s
pérvios p em r v i u s
pescoço p e s k o s u
petrosas p e t r om z a s
pielocalicinais p i e l o k a l i s ii n a j s
placas p l a k a s
plano p l aa n u
planos p l aa n u s
plantares p l aa t a r i s
pleural p l e w r a w
pneumatização p n e uu m a ts i z a s aa
ww
podem p o d ee jj
pois p o j s
polar p o l a xm
polígono p o l i g o n u
polipóides p o l ii p om j dz i s
pontocerebelares p oo t u s e r e b e l a r i s
poplítea p o p l i ts e a
por p o xm
porções p o xm s oo jj s
porta p o xm t a
portal p o xm t a w
pós p om j s
posição p o z i s aa ww
positivo p o z i ts i v u
possam p o s aa ww
possível p o s i v e w
possui p o s u j
possuindo p o s u ii d u
posterior p o s t e r i o xm
posteriores p o s t e r i o r i s
pré p r em
preditivo p r e dz i ts i v u
preenchimento p r e ee sm ii m ee t u
pregas p r e g a s
presença p r e z ee s a
preservada p r e z e rm v a d a
preservadas p r e z e rm v a d a s
preservado p r e z e rm v a d u
preservados p r e z e rm v a d u s
prévia p r em v i a
primeiro p r ii m e j r u
principais p r ii s i p a j s
processou p r o s e s o w
profunda p r o f uu d a
profundidade p r o f uu dz i d a dz i
progressão p r o g r e s aa ww
própria p r om p r i a
próstata p r om s t a t a
protocolo p r o t o k o l u
proximais p r o sm ii m a j s
proximal p r o sm ii m a w
próximo p r om sm ii m u
pterigoplatinais p t e r i g o p l a ts ii n a j s
pulmão p u w m aa ww
pulmonar p u w m o n a xm
pulmonares p u w m o n a r i s
punho p uu jm u
qk
quadril k w a d r i
quais k w a j s
quando k w aa d u
quarto k w a xm t u
que k i
quiasma k j a s m a
quinto k ii t u
quinze k ii z i
r rm
73
radiopacos rm a dz i o p a k u s
raiz rm a j j s
ramificação rm a m i f i k a s aa ww
ramo rm aa m u
ramos rm aa m u s
raquidiano rm a k j dz i aa n u
razão rm a z aa ww
reais rm e a j s
realce rm e a w s i
realizado rm e a l i z a d u
recessos rm e s e s u
redondas rm e d oo d a s
região rm e zm i aa ww
regiões rm e zm i oo jj s
regionais rm e zm i o n a j s
regular rm e g u l a xm
relação rm e l a s aa ww
relações rm e l a s oo jj s
relevantes rm e l e v aa ts i s
renais rm e n a j s
renal rm e n a w
repleção rm e p l e s aa ww
repouso rm e p o w z u
retro rm e t r u
retrógrada rm e t r om g r a d a
rim rm ii
rinofaringe rm ii n o f a r ii zm i
rins rm ii s
rotação rm o t a s aa ww
rotacional rm o t a s i o n a w
ss
saco s a k u
sacroilíacas s a k r o i l i a k a s
sáculos s em k u l u s
satisfatoriamente s a ts i s f a t o r i a m ee
ts i
se s e
segmentares s e g m ee t a xm i s
segmento s e g m ee t u
segmentos s e g m ee t u s
segundo s e g uu d u
segundos s e g uu d u s
seios s e j u s
sejam s e zm aa ww
sela s em l a
selar s e l a xm
sem s ee jj
semelhante s e m e lm aa ts i
semicirculares s e m i s i xm k u l a r i s
semiflexão s e m i f l e k s aa ww
sempre s ee p r i
separadamente s e p a r a d a m ee ts i
septo s e p t u
septos s e p t u s
será s e r a
sétimo s em ts ii m u
seu s e w
seus s e w s
sexto s e s t u
significantes s i g n i f i k aa ts i s
significativamente s i g n i f i k a ts i v a m
ee ts i
significativas s i g n i f i k a ts i v a s
significativo s i g n i f i k a ts i v u
SIL s ii l
simétrica s ii m em t r i k a
simétricas s ii m em t r i k a s
simétricos s ii m em t r i k u s
sinais s ii n a j s
sinusopatia s ii n u z o p a ts i a
sistemas s i s t ee m a s
sólidas s om l i d a s
somente s o m ee ts i
sua s u a
suas s u a s
subclávias s u b k l a v e a s
sublingual s u b l ii g w a w
subluxações s u b l u sm a s oo jj s
submandibular s u b m aa d i b u l a xm
submandibulares s u b m aa d i b u l a r i s
subsegmentares s u b s e g m ee t a r i s
sugerir s u zm e r i xm
sulco s u w k u
sulcos s u w k u s
superfícies s u p e xm f i s i i s
superior s u p e r i o xm
superiores s u p e r i o r i s
supra s u p r a
supranumerário s u p r a n uu m e r a r i u
supratentorial s u p r a t ee t o r i a w
suprimento s u p r ii m ee t u
swensen s w ee s ee
tt
tajeto t a zm e t u
tamanho t a m aa jm u
tecal t e k a w
tem t ee jj
têm t ee jj
temporais t ee p o r a j s
74
temporomandibulares t ee p o r o m aa d i
bularis
tenha t ee jm a
tep t e p
terceiro t e xm s e j r u
terço t e xm s u
tíbia ts i b i a
tibial ts i b i a w
tibiofibular ts i b i o f i b u l a xm
timpânicas ts ii p aa n i k a s
tipo ts i p u
tireóide ts i r e om j dz i
tiver ts i v e xm
toda t o d a
todos t o d u s
tomografia t o m o g r a f i a
tomográfica t o m o g r a f i k a
tomográfico t o m o g r a f i k o
topografia t o p o g r a f i a
torácico t o r a s i k u
tórax t om r a k s
tornozelo t o rm n o z em l u
total t o t a w
trajeto t r a zm e t u
trajetos t r a zm e t u s
transplante t r aa s p l aa ts i
transversos t r aa z v e xm s u s
traquéia t r a k em j a
três t r e j s
tróclea t r om k l e a
troclear t r o k l e a xm
trombo t r oo b u
tromboembolismo t r oo b o ee b o l i z m u
tronco t r oo k u
tuberosidade t u b e r r o z i d a dz i
túrcica t u rm s i k a
uu
úu
ulcerações u w s e r a s oo jj s
último u w ts ii m u
um uu
uma uu m a
uncovertebrais uu k o v e xm t e b r a j s
únicas u n i k a s
únicos u n i k u s
unidade uu n i d a dz i
ureteres u r e t e r i s
uretrais u r e t r a j s
urinárias u r ii n a r i a s
urolitíase u r o l i ts i a z e
usuais u z u a j s
usual u z u a w
útero u t e r u
utilizado u ts i l i z a d u
utilizar u ts i l i z a xm
utrículos u t r i k u l u s
vv
valéculas v a l em k u l a s
valia v a l i a
valor v a l o xm
valores v a l o r i s
valvar v a w v a xm
variação v a r i a s aa ww
vascular v a s k u l a xm
vasculares v a s k u l a r i s
vasos v a z u s
vegetantes v e zm e t aa ts i s
veia v e j a
veias v e j a s
venoso v e n o z u
ventriculares v ee t r i k u l a r i s
ventrículo v ee t r i k u l u
ventrículos v ee t r i k u l u s
vertebrais v e xm t e b r a j s
vertebral v e xm t e b r a w
vertente v e xm t ee ts i
vesícula v e z i k u l a
vestibulares v e s ts i b u l a r i s
vestíbulo v e s ts i b u l u
vestibulococleares v e s ts i b u l o k o k l e
aris
via v i a
vias v i a s
virtual v i xm t u a w
visão v i z aa ww
visibilizadas v i z i b i l i z a d a s
visibilizado v i z i b i l i z a d u
visibilizados v i z i b i l i z a d u s
vocais v o k a j s
volume v o l uu m i
ww
wiberg w i b e b e rm g
willis w i w l i z
x sm
zz
zonas z oo n a s
75
Apêndice C – Arquivo de configuração do Sphinx
# Configuration script for Sphinx trainer
$CFG_VERBOSE = 1;
-*-mode:Perl-*-
# Determines how much goes to the screen.
# These are filled in at configuration time
$CFG_DB_NAME = "db";
# Experiment name, will be used to name model files and log files
$CFG_EXPTNAME = "$CFG_DB_NAME";
# Directory containing SphinxTrain binaries
$CFG_BASE_DIR = "/home/lorena/astout";
$CFG_SPHINXTRAIN_DIR = "/usr/local/lib/Sphinxtrain";
$CFG_BIN_DIR = "/usr/local/libexec/Sphinxtrain";
$CFG_SCRIPT_DIR = "/usr/local/lib/Sphinxtrain/scripts";
# Audio waveform and feature file information
$CFG_WAVFILES_DIR = "$CFG_BASE_DIR/wav";
$CFG_WAVFILE_EXTENSION = 'wav';
$CFG_WAVFILE_TYPE = 'mswav'; # one of nist, mswav, raw
$CFG_FEATFILES_DIR = "$CFG_BASE_DIR/feat";
$CFG_FEATFILE_EXTENSION = 'mfc';
# Feature extraction parameters
$CFG_WAVFILE_SRATE = 16000.0;
$CFG_NUM_FILT = 25; # For wideband speech it's 25, for telephone 8khz reasonable value
is 15
$CFG_LO_FILT = 130; # For telephone 8kHz speech value is 200
$CFG_HI_FILT = 6800; # For telephone 8kHz speech value is 3500
$CFG_TRANSFORM = "dct"; # Previously legacy transform is used, but dct is more accurate
$CFG_LIFTER = "22"; # Cepstrum lifter is smoothing to improve recognition
$CFG_VECTOR_LENGTH = 13; # 13 is usually enough
$CFG_MIN_ITERATIONS = 1; # BW Iterate at least this many times
76
$CFG_MAX_ITERATIONS = 10; # BW Don't iterate more than this, somethings likely
wrong.
# (none/max) Type of AGC to apply to input files
$CFG_AGC = 'none';
# (current/none) Type of cepstral mean subtraction/normalization
# to apply to input files
$CFG_CMN = 'current';
# (yes/no) Normalize variance of input files to 1.0
$CFG_VARNORM = 'no';
# (yes/no) Train full covariance matrices
$CFG_FULLVAR = 'no';
# (yes/no) Use diagonals only of full covariance matrices for
# Forward-Backward evaluation (recommended if CFG_FULLVAR is yes)
$CFG_DIAGFULL = 'no';
# (yes/no) Perform vocal tract length normalization in training. This
# will result in a "normalized" model which requires VTLN to be done
# during decoding as well.
$CFG_VTLN = 'no';
# Starting warp factor for VTLN
$CFG_VTLN_START = 0.80;
# Ending warp factor for VTLN
$CFG_VTLN_END = 1.40;
# Step size of warping factors
$CFG_VTLN_STEP = 0.05;
# Directory to write queue manager logs to
$CFG_QMGR_DIR = "$CFG_BASE_DIR/qmanager";
# Directory to write training logs to
$CFG_LOG_DIR = "$CFG_BASE_DIR/logdir";
# Directory for re-estimation counts
$CFG_BWACCUM_DIR = "$CFG_BASE_DIR/bwaccumdir";
# Directory to write model parameter files to
$CFG_MODEL_DIR = "$CFG_BASE_DIR/model_parameters";
# Directory containing transcripts and control files for
# speaker-adaptive training
$CFG_LIST_DIR = "$CFG_BASE_DIR/etc";
# Decoding variables for MMIE training
$CFG_LANGUAGEWEIGHT = "11.5";
$CFG_BEAMWIDTH
= "1e-100";
$CFG_WORDBEAM
= "1e-80";
$CFG_LANGUAGEMODEL = "$CFG_LIST_DIR/$CFG_DB_NAME.lm.DMP";
$CFG_WORDPENALTY = "0.2";
# Lattice pruning variables
$CFG_ABEAM
= "1e-50";
$CFG_NBEAM
= "1e-10";
77
$CFG_PRUNED_DENLAT_DIR = "$CFG_BASE_DIR/pruned_denlat";
# MMIE training related variables
$CFG_MMIE = "no";
$CFG_MMIE_MAX_ITERATIONS = 5;
$CFG_LATTICE_DIR = "$CFG_BASE_DIR/lattice";
$CFG_MMIE_TYPE = "rand"; # Valid values are "rand", "best" or "ci"
$CFG_MMIE_CONSTE = "3.0";
$CFG_NUMLAT_DIR = "$CFG_BASE_DIR/numlat";
$CFG_DENLAT_DIR = "$CFG_BASE_DIR/denlat";
# Variables used in main training of models
$CFG_DICTIONARY = "$CFG_LIST_DIR/$CFG_DB_NAME.dic";
$CFG_RAWPHONEFILE = "$CFG_LIST_DIR/$CFG_DB_NAME.phone";
$CFG_FILLERDICT = "$CFG_LIST_DIR/$CFG_DB_NAME.filler";
$CFG_LISTOFFILES = "$CFG_LIST_DIR/${CFG_DB_NAME}_train.fileids";
$CFG_TRANSCRIPTFILE = "$CFG_LIST_DIR/${CFG_DB_NAME}_train.transcription";
$CFG_FEATPARAMS = "$CFG_LIST_DIR/feat.params";
# Variables used in characterizing models
$CFG_HMM_TYPE = '.cont.'; # Sphinx 4, PocketSphinx
#$CFG_HMM_TYPE = '.semi.'; # PocketSphinx
#$CFG_HMM_TYPE = '.ptm.'; # PocketSphinx (larger data sets)
if (($CFG_HMM_TYPE ne ".semi.")
and ($CFG_HMM_TYPE ne ".ptm.")
and ($CFG_HMM_TYPE ne ".cont.")) {
die "Please choose one CFG_HMM_TYPE out of '.cont.', '.ptm.', or '.semi.', " .
"currently $CFG_HMM_TYPE\n";
}
# This configuration is fastest and best for most acoustic models in
# PocketSphinx and Sphinx-III. See below for Sphinx-II.
$CFG_STATESPERHMM = 3;
$CFG_SKIPSTATE = 'no';
if ($CFG_HMM_TYPE eq '.semi.') {
$CFG_DIRLABEL = 'semi';
# Four stream features for PocketSphinx
$CFG_FEATURE = "s2_4x";
$CFG_NUM_STREAMS = 4;
$CFG_INITIAL_NUM_DENSITIES = 256;
$CFG_FINAL_NUM_DENSITIES = 256;
die "For semi continuous models, the initial and final models have the same density"
if ($CFG_INITIAL_NUM_DENSITIES != $CFG_FINAL_NUM_DENSITIES);
} elsif ($CFG_HMM_TYPE eq '.ptm.') {
$CFG_DIRLABEL = 'ptm';
# Four stream features for PocketSphinx
$CFG_FEATURE = "s2_4x";
78
die "For phonetically tied models, the initial and final models have the same density"
if ($CFG_INITIAL_NUM_DENSITIES != $CFG_FINAL_NUM_DENSITIES);
} elsif ($CFG_HMM_TYPE eq '.cont.') {
$CFG_DIRLABEL = 'cont';
# Single stream features - Sphinx 3
$CFG_FEATURE = "1s_c_d_dd";
die "The initial has to be less than the final number of densities"
if ($CFG_INITIAL_NUM_DENSITIES > $CFG_FINAL_NUM_DENSITIES);
}
# Number of top gaussians to score a frame. A little bit less accurate computations
# make training significantly faster. Uncomment to apply this during the training
# For good accuracy make sure you are using the same setting in decoder
# In theory this can be different for various training stages. For example 4 for
# CI stage and 16 for CD stage
# $CFG_CI_TOPN = 4;
# $CFG_CD_TOPN = 16;
# (yes/no) Train multiple-gaussian context-independent models (useful
# for alignment, use 'no' otherwise) in the models created
# specifically for forced alignment
$CFG_FALIGN_CI_MGAU = 'no';
# (yes/no) Train multiple-gaussian context-independent models (useful
# for alignment, use 'no' otherwise)
$CFG_CI_MGAU = 'no';
# (yes/no) Train context-dependent models
$CFG_CD_TRAIN = 'yes';
# Number of tied states (senones) to create in decision-tree clustering
$CFG_N_TIED_STATES = 400;
# How many parts to run Forward-Backward estimatinon in
$CFG_NPART = 1;
# (yes/no) Train a single decision tree for all phones (actually one
# per state) (useful for grapheme-based models, use 'no' otherwise)
$CFG_CROSS_PHONE_TREES = 'no';
# Use force-aligned transcripts (if available) as input to training
$CFG_FORCEDALIGN = 'no';
# Use a specific set of models for force alignment. If not defined,
# context-independent models for the current experiment will be used.
$CFG_FORCE_ALIGN_MODELDIR =
"$CFG_MODEL_DIR/$CFG_EXPTNAME.falign_ci_$CFG_DIRLABEL";
79
# Use a specific dictionary and filler dictionary for force alignment.
# If these are not defined, a dictionary and filler dictionary will be
# created from $CFG_DICTIONARY and $CFG_FILLERDICT, with noise words
# removed from the filler dictionary and added to the dictionary (this
# is because the force alignment is not very good at inserting them)
# $CFG_FORCE_ALIGN_DICTIONARY =
"$ST::CFG_BASE_DIR/falignout$ST::CFG_EXPTNAME.falign.dict";;
# $CFG_FORCE_ALIGN_FILLERDICT =
"$ST::CFG_BASE_DIR/falignout/$ST::CFG_EXPTNAME.falign.fdict";;
# Use a particular beam width for force alignment. The wider
# (i.e. smaller numerically) the beam, the fewer sentences will be
# rejected for bad alignment.
$CFG_FORCE_ALIGN_BEAM = 1e-60;
# Calculate an LDA/MLLT transform?
$CFG_LDA_MLLT = 'no';
# Dimensionality of LDA/MLLT output
$CFG_LDA_DIMENSION = 29;
# This is actually just a difference in log space (it doesn't make
# sense otherwise, because different feature parameters have very
# different likelihoods)
$CFG_CONVERGENCE_RATIO = 0.1;
# Queue::POSIX for multiple CPUs on a local machine
# Queue::PBS to use a PBS/TORQUE queue
$CFG_QUEUE_TYPE = "Queue";
# Name of queue to use for PBS/TORQUE
$CFG_QUEUE_NAME = "workq";
# (yes/no) Build questions for decision tree clustering automatically
$CFG_MAKE_QUESTS = "yes";
# If CFG_MAKE_QUESTS is yes, questions are written to this file.
# If CFG_MAKE_QUESTS is no, questions are read from this file.
$CFG_QUESTION_SET =
"${CFG_BASE_DIR}/model_architecture/${CFG_EXPTNAME}.tree_questions";
#$CFG_QUESTION_SET = "${CFG_BASE_DIR}/linguistic_questions";
$CFG_CP_OPERATION =
"${CFG_BASE_DIR}/model_architecture/${CFG_EXPTNAME}.cpmeanvar";
# Configuration for grapheme-to-phoneme model
$CFG_G2P_MODEL= 'no';
# Configuration script for Sphinx decoder
# Variables starting with $DEC_CFG_ refer to decoder specific
80
# arguments, those starting with $CFG_ refer to trainer arguments,
# some of them also used by the decoder.
$DEC_CFG_VERBOSE = 1;
# Determines how much goes to the screen.
# These are filled in at configuration time
# Name of the decoding script to use (psdecode.pl or s3decode.pl, probably)
$DEC_CFG_SCRIPT = 'psdecode.pl';
$DEC_CFG_EXPTNAME = "$CFG_EXPTNAME";
$DEC_CFG_JOBNAME = "$CFG_EXPTNAME"."_job";
# Models to use.
$DEC_CFG_MODEL_NAME =
"$CFG_EXPTNAME.cd_${CFG_DIRLABEL}_${CFG_N_TIED_STATES}";
$DEC_CFG_FEATFILES_DIR = "$CFG_BASE_DIR/feat";
$DEC_CFG_FEATFILE_EXTENSION = '.mfc';
$DEC_CFG_AGC = $CFG_AGC;
$DEC_CFG_CMN = $CFG_CMN;
$DEC_CFG_VARNORM = $CFG_VARNORM;
$DEC_CFG_QMGR_DIR = "$CFG_BASE_DIR/qmanager";
$DEC_CFG_LOG_DIR = "$CFG_BASE_DIR/logdir";
$DEC_CFG_MODEL_DIR = "$CFG_MODEL_DIR";
$DEC_CFG_DICTIONARY = "$CFG_BASE_DIR/etc/$CFG_DB_NAME.dic";
$DEC_CFG_FILLERDICT = "$CFG_BASE_DIR/etc/$CFG_DB_NAME.filler";
$DEC_CFG_LISTOFFILES = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}_test.fileids";
$DEC_CFG_TRANSCRIPTFILE =
"$CFG_BASE_DIR/etc/${CFG_DB_NAME}_test.transcription";
$DEC_CFG_RESULT_DIR = "$CFG_BASE_DIR/result";
$DEC_CFG_PRESULT_DIR = "$CFG_BASE_DIR/presult";
# This variables, used by the decoder, have to be user defined, and
# may affect the decoder output
$DEC_CFG_LANGUAGEMODEL =
"$CFG_BASE_DIR/etc/${CFG_DB_NAME}.lm.DMP";
# Or can be JSGF or FSG too, used if uncommented
# $DEC_CFG_GRAMMAR = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}.jsgf";
# $DEC_CFG_FSG = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}.fsg";
$DEC_CFG_LANGUAGEWEIGHT = "10";
$DEC_CFG_BEAMWIDTH = "1e-80";
$DEC_CFG_WORDBEAM = "1e-40";
$DEC_CFG_ALIGN = "builtin";
81
$DEC_CFG_NPART = 1;
# Define how many pieces to split decode in
# This variable has to be defined, otherwise utils.pl will not load.
$CFG_DONE = 1;
return 1;

TCC Lorena Dutra da Costa - CA+SA – Computação Aplicada em

Transcrição

Documentos relacionados

Rezinc SIL 590 - Renner Coatings

Faça aqui o desse arquivo

Catalogo HIPPS português

Candidatos ao Conselho Deliberativo

Sistemas de Segurança em Instalações Petrolíferas

O Sistema TITAN é um Sistema de Informação Laboratorial (SIL/LIS

CÁLCULO DO SIL ATINGIDO – ESTUDO DE CASO Abstract Resumo

latam - Abear

Itaipava GT Brasil 2011

História Filosofia