TCC Lorena Dutra da Costa - CA+SA – Computação Aplicada em
Transcrição
TCC Lorena Dutra da Costa - CA+SA – Computação Aplicada em
UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA DEPARTAMENTO DE COMPUTAÇÃO APLICADA – DCOM BACHARELADO EM SISTEMAS DE INFORMAÇÃO ESTRUTURAÇÃO E TRANSCRIÇÃO DO CONTEÚDO DE LAUDOS RADIOLÓGICOS TRABALHO DE CONCLUSÃO DE CURSO Lorena Dutra da Costa Santa Maria, RS, Brasil 2015 ESTRUTURAÇÃO E TRANSCRIÇÃO DO CONTEÚDO DE LAUDOS RADIOLÓGICOS Lorena Dutra da Costa Monografia apresentada ao Curso de Bacharelado em Sistemas de Informação, Área de Computação Aplicada, da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para obtenção do grau de Bacharel em Sistemas de informação. Orientador: Prof. Dr. Marcos Cordeiro d’Ornellas Santa Maria, RS, Brasil 2015 DEDICATÓRIA Para pessoas especiais que me ensinaram a ser quem eu sou hoje, minha família. Principalmente minha mãe por nunca ter medido esforços para que eu concluísse mais esta etapa, e por ser um exemplo de coragem e persistência na minha vida. A minha irmã por sempre torcer pela minha vitória, me transmitindo forças mesmo de longe. Ao meu namorado, melhor amigo e companheiro de todas as horas, pelo carinho, amor e compreensão de sempre e por me trazer paz e tranquilidade em meio à correria de cada semestre. Aos amigos e colegas pelo incentivo е pelo apoio constantes durante o período da graduação. A todos que vibraram comigo as minhas conquistas e ajudaram a atravessar os momentos difíceis. AGRADECIMENTOS Professores do Curso de Sistemas de informação – pela qualidade do ensino e amizade; Grupo de pesquisa Computação aplicada a saúde (CA+SA) – pela ajuda no acesso às informações e colaboração na pesquisa; Laboratório de computação aplicada – Pela disponibilização do lugar para o desenvolvimento da pesquisa; Marcos Cordeiro d’Ornelas – pelo estímulo à busca do conhecimento, além da orientação; Animati Computação Aplicada à saúde – pela oportunidade de estágio e colaboração com a pesquisa. Luciana Dutra Elesbão e Thais de Oliveira Lopes - pela revisão do trabalho. A todos aqueles que, de alguma forma, contribuíram para a realização deste trabalho. RESUMO Trabalho de conclusão de curso Bacharelado em Sistemas de Informação Universidade Federal de Santa Maria ESTRUTURAÇÃO E TRANSCRIÇÃO DO CONTEÚDO CONTIDO EM LAUDOS RADIOLÓGICOS AUTORA: LORENA DUTRA DA COSTA ORIENTADOR: MARCOS CORDEIRO D’ORNELLAS Data e Local da Defesa: Santa Maria, 14 de dezembro de 2015. Devido à falta de padronização do processo de criação de laudos médicos, que se difere entre as organizações, variando de acordo com os métodos e tecnologias utilizadas, esse procedimento, muitas vezes, mostra-se lento e/ou, sujeito a falhas. O reconhecimento de voz vem sendo cada vez mais utilizado na medicina, com isso, a inserção desta tecnologia no processo de criação de laudos é uma alternativa promissora, que propõe um processo otimizado de geração de laudos, com mais agilidade e maior nível de confiança, uma vez que, os métodos atualmente utilizados, exigem mais tempo e pessoal para a finalização do procedimento. Assim, tornou-se relevante um estudo relacionado ao processo de elaboração de laudos. Este trabalho objetivou a criação de uma ontologia para a criação de um padrão para a geração de laudos radiológicos, e conceber um meio que permita o reconhecimento de voz para o português brasileiro, através da criação de modelos, acústico e de linguagem, voltados a este idioma, já que existem poucos estudos relacionados ao reconhecimento de voz com o português. A criação dos modelos acústico e de linguagem, exigem a realização de um treinamento da linguagem que é realizado através da criação de gravações em áudio, referente a laudos de tomografia computadorizada. Com os modelos criados foram realizados testes qualitativos com o objetivo de verificar e testar a qualidade dos modelos visando à obtenção de melhores modelos possíveis com a base de dados utilizada. Palavras-chave: Laudo; Radiologia; Ontologia; Tecnologia. ABSTRACT Trabalho de conclusão de curso Bacharelado em Sistemas de Informação Universidade Federal de Santa Maria STRUCTURE AND TRANSCRIPTION OF THE REPORTS RADIOLOGICAL AUTHOR: LORENA DUTRA DA COSTA ADVISER: MARCOS CORDEIRO D’ORNELLAS Defense Place and Date: Santa Maria, december 14th, 2015. Due to lack of standardization of the creation of medical reports process, which differs between organizations, varying according to the methods and technologies used, this procedure often proves to be slow and / or prone to failure. Therefore it became relevant a study related to reports of drafting process. This work aimed to create an ontology likely to set a standard for the generation of radiology reports, and devise a means to allow speech recognition to Brazilian Portuguese, by creating models, acoustic and language, geared to this language since there are few studies related to speech recognition with the Portuguese. Voice recognition is being increasingly used in medicine, therefore, the inclusion of this technology in the process of creating reports is a promising alternative, which proposes an optimized process of generating reports, with more agility and higher level of confidence, since the methods currently used, require more time and personnel for completion of the procedure. Thus, this paper presents the creation of an ontology and the creation of acoustic and language models, which require the completion of a training of language by creating audio recordings, referring to computed tomography reports. With models created qualitative tests were performed in order to verify and test the quality of the models in order to obtain the best possible models with the database used. Keywords: Report; Radiology; Ontology; Technology. LISTA DE FIGURAS Figura 1 - Arquitetura Sphinx-4....................................................................................... Figura 2 - Processo de reconhecimento de fala............................................................... Figura 3 - Etapas do treinamento...................................................................................... Figura 4 - Processo de criação da ontologia..................................................................... Figura 5 - Resultados obtidos com o Poronto................................................................... Figura 6 - Exemplificação das classes da ontologia......................................................... Figura 7 - Ontologia exportada para o Protégé................................................................. Figura 8 - Demonstração gráfica da ontologia no Protégé............................................... Figura 9 - Exemplificação do Janelamento..................................................................... Figura 10 - Cálculo dos MFCC (1) .................................................................................. Figura 11 - Cálculo dos MFCC (2) .................................................................................. 11 18 19 21 23 24 25 25 27 28 29 LISTA DE TABELAS Tabela 1 - Resultados extraídos com o Poronto............................................................... Tabela 2 - Valores padrão do Sphinx para os parâmetros testados.................................. Tabela 3 - Resultados obtidos com os valores padrão do Sphinx..................................... Tabela 4 - Resultado dos testes com variação dos estados compartilhados.................... Tabela 5 - Resultado dos testes com variação do número de gaussianas por estado........ Tabela 6 - Resultado dos teses com o número de coeficientes MFFCC.......................... Tabela 7 - Resultado dos testes com languagewheit........................................................ 23 34 35 35 37 38 39 Tabela 8 - Resultados obtidos com os valores adequados de configuração para o Sphinx............................................................................................................................... 40 LISTA DE GRÁFICOS Gráfico 1 – Resultado dos testes com variação dos estados compartilhados..................... Gráfico 2 – Resultado dos testes com variação do número de gaussianas por estado........ Gráfico 3 – Resultado dos teses com o número de coeficientes MFFCC........................... Gráfico 4 – Resultado dos testes com languagewheit......................................................... 36 37 38 39 LISTA DE ABREVIATURAS E SIGLAS ACC - Acurácia BIREME- Biblioteca Regional de Medicina BVS - Biblioteca Virtual em Saúde CMU - Carnegie Mellon University DCT - Discrete Cosine Transform DeCS - Descritores em ciência da saúde FFT - Fast Fourier Transform GNU - Gnu is Not Unix GPL - General Public License HMM - Hidden Markov Models HTK - Hidden Markov Model Toolkit IBM - nternational Business Machines Corporation MFCC - Mel-Frequency Cepstral Coefficients OWL - Web Ontology Language PDF Portable Document Format PT-BR - Português Brasileiro RDF - Resource Description Framework Real Time Factor - RTF XLS Formato utilizado pelo Microsoft Excel XML -Extensible Markup Language WER - Word Error Rate LISTA DE APÊNDICES Apêndice A - Arquivo de transcrições .................................................................................................. 46 Apêndice B - Arquivo de dicionário...................................................................................................... 63 Apêndice C - Arquivo de configuração do Sphinx ........................................................... 72 SUMÁRIO 1 INTRODUÇÃO ........................................................................................................ 1 1.1 Justificativa ....................................................................................................................................... 3 1.2Objetivos ............................................................................................................................................ 4 1.3 Estrutura do trabalho ......................................................................................................................... 4 2 REVISÃO DA LITERATURA ............................................................................... 5 2.1 Ontologias ......................................................................................................................................... 6 2.2 Reconhecimento de voz .................................................................................................................... 6 2.2.1 Reconhecimento de voz para o PT-BR.............................................................................. 8 3 FERRAMENTAS UTILIZADAS ........................................................................... 8 3.1 Poronto .............................................................................................................................................. 9 3.2 Protégé............................................................................................................................................... 9 3.3 Audacity .......................................................................................................................................... 10 3.4 CMU Sphinx Toolkit....................................................................................................................... 10 3.4.1 Estrutura Sphinx-4 ........................................................................................................... 11 3.5 Sarvox ............................................................................................................................................. 12 4 FUNDAMENTOS................................................................................................... 13 4.1 Base de dados .................................................................................................................................. 13 4.1.1 Gravações ........................................................................................................................ 13 4.1.2 Transcrições ..................................................................................................................... 14 4.1.3 Dicionário ........................................................................................................................ 14 4.1.4 Fonemas ........................................................................................................................... 16 4.1.5 Filler ................................................................................................................................ 17 4.1.6 Arquivo de frases ............................................................................................................. 17 4.1.7 Arquivo de nomeação dos áudios .................................................................................... 18 4.1.8 Arquivo batch .................................................................................................................. 18 4.2 Processo de reconhecimento de voz ................................................................................................ 19 5 DESENVOLVIMENTO ........................................................................................ 21 5.1 Criação da Ontologia....................................................................................................................... 21 5.1.1 Estruturação da ontologia ................................................................................................ 23 5.2 Treinamento .................................................................................................................................... 28 5.2.1 Extração de características............................................................................................... 28 5.2.2 Treinamento do modelo acústico ..................................................................................... 32 5.2.2.1 Etapa 1: Treinamento dos modelos independentes de contexto....................................................................................33 5.2.2.2 Etapa 2: Treinamento dos modelos dependentes de contexto ........................................................................................34 5.2.2.3 Etapa 3: Geração da árvore de decisão e agrupamento de estados compartilhados .......................................................34 5.2.2.4 Etapa 4: Poda nas árvores..............................................................................................................................................34 5.2.2.5 Etapa 5: Retreinamento dos estados ..............................................................................................................................35 5.2.3 Empacotamento do modelo acústico ................................................................................................................................35 5.2.4 Treinamento do modelo de linguagem ............................................................................ 35 5.3 Decodificação .................................................................................................................................. 36 5.4 Testes de performance e resultados ................................................................................................. 37 6 CONSIDERAÇÕES FINAIS ................................................................................ 44 REFERENCIAS BIBLIOGRÁFICAS .................................................................... 46 Apêndice A – Arquivo de transcrições .................................................................... 49 Apêndice B – Arquivo de dicionário ....................................................................... 66 Apêndice C – Arquivo de configuração do Sphinx ................................................ 75 1 CAPÍTULO 1 Neste capítulo será dado início à apresentação da pesquisa efetuada, identificando-a através da sua introdução, justificativa, objetivos e a estrutura do trabalho em si. 1 INTRODUÇÃO O constante avanço tecnológico tem possibilitado a inserção da tecnologia em diversas áreas, proporcionando em conjunto, a incorporação de conhecimentos científicos nesses domínios. No âmbito clínico, diariamente são geradas inúmeras informações referentes a laudos médicos, essas informações devem ser fidedignas e necessitam ser armazenadas de forma a manter a segurança necessária, exigida pelo setor médico, por tratar-se de dados relacionados a pacientes. Geralmente as informações, referentes aos laudos radiológicos, são armazenadas em forma de texto, juntamente com imagens e os dados pessoais dos pacientes. Este conjunto de informações permitirá que o médico realize o diagnóstico do paciente através de um laudo radiológico que, quando finalizado, será constituído de muitas informações, o que dificulta a existência de um padrão para sua estruturação. Cabe ressaltar que os laudos médicos têm suma importância no auxílio ao tratamento de inúmeras patologias, pois, a partir deles, é possível obter um diagnóstico em relação à saúde de um paciente. Em relação aos laudos radiológicos Zerbinatti 2010, descreve: O diagnóstico por imagens é uma área que tem evoluído incessantemente. Esta área apoia os profissionais da área da saúde em enxergar, através de imagens que caracterizam a anatomia ou a funcionalidade de um determinado órgão ou, ainda, alguma área do corpo humano (ZERBINATTI, 2010, p.30). Para Fenelon (2003), um laudo radiológico é um documento impresso, no qual constam informações sobre as técnicas utilizadas e as possíveis intercorrências ocorridas durante um procedimento médico, além de descrição sucinta e completa, apresentando diagnóstico seguro. 2 Quanto ao processo de criação dos laudos, ocorre da seguinte forma: o médico, ao visualizar a radiografia, com o auxílio de um gravador, captura sua fala que, posteriormente, é ouvida por outra pessoa, que digita as informações contidas no áudio. Como não é exigido que a pessoa responsável pela transcrição do áudio possua conhecimento sobre seu conteúdo, esse método poderá apresentar falhas, produzindo laudos imprecisos ou, até mesmo, errôneos. Além disso, deve-se considerar que, esse procedimento, ao ser realizado por uma segunda pessoa, exigirá maior quantidade de tempo até que seja finalizado. O processo de transcrição, quando realizado desta forma, apresenta grande morosidade, fazendo com que o tempo de espera seja bem maior do que o esperado pelos médicos ou pelos pacientes. O autor lembra que quando os laudos são realizados desta forma podem ocorrer erros quanto aos meios e condutas adotados, como erro de percepção, falta de conhecimento, julgamento equivocado ou técnica e posicionamento inadequados. Assim, percebe-se a complexidade e a importância dos procedimentos relativos à geração de laudos radiológicos, desde a análise das imagens, feita pelo médico laudador. Martins (2011) ressalta que esse problema poderá agravar-se consideravelmente quando o laudo pertencer a um paciente que necessite de um diagnóstico imediato. O autor menciona algumas dificuldades que podem surgir durante o processo, como a falta de conhecimento do digitador, que ocorre quando quem realiza a passagem do áudio digital para texto não possui o conhecimento necessário ou não tem entendimento sobre alguns termos da área; a demora na conclusão dos laudos que pode ocorrer em virtude desses entraves; as trocas recorrentes entre os laudos dos pacientes, dependendo da forma de identificação utilizada, como fitas adesivas; a danificação do áudio quando o processo de transporte das gravações pode prejudicar o dispositivo que contém a referida gravação; o sobrecarregamento do responsável pela transcrição do áudio pode ocorrer quando a função desta pessoa, dentro da instituição, é na verdade, outra. Nesse contexto, considerando o grande volume de dados gerados e o valor que possuem no tratamento dos pacientes, surge a necessidade de tratar o armazenamento das informações geradas de forma mais rápida, fidedigna, segura e fácil de recuperar. Este trabalho propõe, através da introdução de sistemas tecnológicos, suprir esta limitação. Este trabalho objetivou além da criação de uma ontologia para a estruturação padrão de informações, o desenvolvimento dos modelos acústico e de linguagem direcionados ao português brasileiro para proporcionar o desenvolvimento de um sistema que faça a transcrição direta dessas informações a laudos digitais, que serão gerados a partir do envolvimento somente do médico laudador. 3 1.1 Justificativa O laudo radiológico, conforme Netto et al (2011), é um documento composto por imagens, dados pessoais dos pacientes e informações textuais que o médico laudador desejar. A quantidade de informações contidas no documento, e os diferentes métodos realizados pelos médicos, em cada instituição, ocasiona uma falta de padronização na geração destes laudos. Uma ontologia, para Annibal et al (2011), é um meio utilizado para demonstrar, estruturalmente, termos que pertencem a um domínio em comum, como também seus relacionamentos, com a finalidade de permitir que seja elaborado e compartilhado um vocabulário em comum entre seus usuários. Quanto ao que vem sendo estudado na área, Farinazzo (2011), destaca: Muito pouco tem sido explorado em questão da avaliação destes sistemas de voz para uso em domínio restrito na área da Saúde. Não há trabalhos suficientes na literatura que estabeleçam os requisitos específicos da área que devem ser atendidos de forma a tornar o uso de reconhecimento de voz efetivo e eficaz (FARINAZZO, 2011, p. 22). Conforme Jasinski (2006), a inserção do uso de reconhecimento de voz para a realização de diagnóstico de pacientes vem sendo utilizada por várias empresas no campo da saúde, como Phillips e Nuance Dictaphone Healthcare Solutions. O autor observa que vários produtos que realizam reconhecimento de voz estão no mercado para uso em radiologia e patologia. Durlin e Lumsden (2008) destacam que a criação de relatórios utilizando o reconhecimento de voz é proposta para reduzir, significativamente, o tempo de resposta em serviços de diagnóstico, e que muitos autores convergem ao afirmar que o foco principal das pesquisas relacionadas ao reconhecimento de fala em aplicações de saúde tem sido, até então, a facilitação da geração da documentação médica. Diante do exposto, esta pesquisa justifica-se pela importância e relevância deste estudo, sobre o tema aqui tratado, para a medicina. O processo de gravação em fitas para posterior transcrição, realizada por uma segunda pessoa, tarda a conclusão do laudo. Martins (2011) afirma que os sistemas de transcrição automática de laudos têm sido cogitados como 4 solução para diminuir esse tempo e também como redutor dos custos globais dos departamentos de radiologia. Dessa forma, a criação de meios que permitam o desenvolvimento um sistema de reconhecimento de voz, utilizando uma ontologia específica da área como base, para a geração de laudos radiológicos, pode contribuir significativamente com a comunidade científica e médica, uma vez que o sistema agilizará o processo, realizando-o em menor espaço de tempo e garantindo a confiabilidade que é exigida nos processos médicos. 1.2Objetivos Este estudo objetivou além da elaboração de uma ontologia específica para laudos radiológicos através da criação de um padrão para geração destes laudos, a criação dos modelos acústico e de linguagem que permitissem o reconhecimento de voz voltado ao Português Brasileiro (PT-BR), o que torna necessário a realização de um treinamento desses modelos, para possibilitar a realização do processo de reconhecimento de voz no idioma especificado e que este reconhecimento seja o mais preciso possível. O objetivo principal envolveu uma análise dos métodos e ferramentas para o desenvolvimento de ontologias, limitando o estudo apenas a ferramentas Open Source; a estruturação do conhecimento em forma de uma ontologia que possibilite a padronização das informações para a geração de laudos radiológicos; a análise de ferramentas e o estado da arte do reconhecimento de voz para o PT-BR; a realização de gravações em forma de áudio dos dados obtidos na pesquisa, para se obter um banco de dados de voz e o teste da ferramenta escolhida verificando a qualidade da transcrição. 1.3 Estrutura do trabalho Este trabalho encontra-se dividido em seis capítulos, denominados: Introdução, Revisão da literatura, Ferramentas Considerações Finais, respectivamente. utilizadas, Fundamentos, Desenvolvimento e 5 No capítulo 1 são apresentadas as considerações iniciais do trabalho como, a introdução, a justificativa e os objetivos do estudo. No capítulo 2 é apresentada a revisão da literatura, que inclui uma revisão sobre ontologias e o reconhecimento de voz, assim como o reconhecimento voltado ao PT-BR, que é o foco deste trabalho. No capítulo 3 são apresentadas as ferramentas utilizadas para o desenvolvimento do trabalho. No capítulo 4 são apresentados alguns fundamentos, como a base de dados que foi utilizada e o processo de reconhecimento de voz. O capitulo 5 apresenta o processo de desenvolvimento, que inclui a criação da ontologia, a edição da ontologia, o treinamento dos modelos assim como a decodificação e testes com os modelos criados. O capítulo 6 apresenta as considerações finais do trabalho. CAPÍTULO 2 Neste capítulo será apresentada a revisão da literatura realizada, sendo esta dividida em ontologias e reconhecimento de voz. 2 REVISÃO DA LITERATURA Nesta seção são apresentadas as principais referências que embasaram o estudo. Os principais assuntos tratados serão: ontologias, reconhecimento de voz, assim como sua utilização para o português brasileiro. Ressalta-se que, para realização da pesquisa bibliográfica, foram utilizadas, através da ferramenta de pesquisa Google, as seguintes palavras de busca ou a junção das mesmas: (1) Reconhecimento de Voz; (2) Laudo(s) Radiológico(s); (3) Speech Recognizer; (4) Radiology; (4) Ontologia(s); (5) Ferramenta(s). Do material obtido, foi feita revisão e identificação do que tinha relação com o assunto tratado neste trabalho, mais especificamente, sobre o estado da arte de reconhecimento de voz, direcionando para a área da saúde em radiologia e sobre ferramentas Open Source para criação de ontologias e reconhecimento de voz, assim como, sobre o funcionamento e 6 utilização das mesmas. A seguir será apresentada a revisão da literatura obtida na pesquisa, estruturada em tópicos, separados por assuntos específicos. 2.1 Ontologias A área da informação em saúde corresponde a uma das esferas interdisciplinares da ciência que apresentam um crescimento significativo (MACDOUGALL et al apud BIOLCHINI, 2001). Biolchini, 2001 ressalta ainda: Uma vez que se destinam a auxiliar os processos de raciocínio e de tomada de decisão dos profissionais, os sistemas de informação devem ser desenvolvidos visando ampliar as potencialidades, não somente de busca e recuperação de unidades informacionais, como também de organização e apresentação de unidades semanticamente relacionadas, ampliando a recuperação e evocação de unidades de sentido e de conjuntos informacionais relevantes e significativos ( BIOLCHINI, 2001, p. 11). O conhecimento possui natureza progressiva, e o processo de obtenção do conhecimento se dá através da criação de padrões cognitivos, que permitem uma redução nas diferenças de comunicação entre os usuários. Com isso, é identificada uma necessidade de recorrer à construção de ontologias voltadas ao domínio médico (BIOLCHINI, 2001). Uma ontologia pode ser vista como forma de obtenção de conhecimento a partir de textos. Podem ser utilizadas para representar um domínio, pois permitem representar através de uma estruturação simples, vocabulários formais que descrevem as premissas básicas de uma determinada área (FREITAS e SCHULZ, 2009). Portanto, em um domínio como o médico, onde estão envolvidas várias pessoas e a área de conhecimento é muito extensa, verifica-se a necessidade de criar uma ontologia, visando a estruturação deste conhecimento e a facilitação da comunicação entre a comunidade envolvida. 2.2 Reconhecimento de voz 7 De acordo com Farinazzo (2011), o reconhecimento de voz é o processo pelo qual o computador pode converter um sinal acústico em um texto. Conforme Johnson et al (2014), os estudos pioneiros utilizando a relação de tecnologias e o processamento da linguagem natural foram publicados em 1970 e 1980. As inserções das tecnologias computacionais no ramo da saúde têm ocorrido com um crescimento substancial nos últimos 40 anos. Sua utilização em radiologia tem sido efetuada com os autores observando uma redução no tempo de resposta de relatórios de 15,7 horas para 4,7 horas. De acordo com Durling e Lumsden (2008), quando foi iniciada a inserção do reconhecimento de voz na área da saúde os usuários precisavam aprender a falar devagar, inserindo pausas entre palavras, a fim de serem entendidos. Contudo os sistemas atuais são, no entanto, contínuos, permitindo que os usuários falem mais naturalmente. Estes sistemas podem ser dependentes de quem está falando ou, independentes. Os autores alegam que sistemas dependentes de locutor exigem que os usuários realizem um treinamento para que o sistema conheça a voz do usuário quando está realizando a transcrição. Sistemas independentes de locutor estão configurados para conhecer qualquer indivíduo que passe a usar o sistema (DURLING e LUMSDEN, 2008). Nesse sentido, os sistemas dependentes de locutor se enquadram na proposta deste trabalho, já que será realizado um treinamento da linguagem, através de gravações com a voz da autora.. Segundo White (2005), o reconhecimento de fala contínua é uma tecnologia emergente que permite a transcrição digital direta de relatórios de radiologia em forma de ditado. Destaca ainda, que esta tecnologia está sendo amplamente implantada na comunidade de radiologia: Reconhecimento de fala contínua estão aos poucos substituindo os serviços de transcrição convencionais em departamentos de radiologia em toda a Europa e América do Norte. Esta revolução na forma como os relatórios de radiologia são gerados tem sido impulsionada por dois fatores principais: (1) um interesse em diminuir os custos operacionais departamentais e (2) o desejo de diminuir os prazos de entrega de relatórios de radiologia. Implantação de Sistemas de Comunicação e Arquivamento de Imagens (PACS) foi um preâmbulo para este crescimento (WHITE, 2005, p. 01). Durling e Lumsden (2008) veem o reconhecimento de voz como uma tecnologia auspiciosa que favorece ao aumento da usabilidade desta técnica em sistemas da área da saúde. 8 2.2.1 Reconhecimento de voz para o PT-BR Diante do, já exposto, é possível afirmar que o reconhecimento de voz vem sendo cada vez mais utilizado na área da saúde. Nesse sentido, observa-se que, quando se trata de sistemas que utilizam a língua inglesa, vários são encontrados no mercado, porém, a situação se difere quando se trata sistemas que utilizem o português brasileiro - PT-BR. Poucos sistemas foram desenvolvidos com suporte ao PT-BR, e estes foram descontinuados, entre eles, o ViaVoice da IBM e o FreeSpeech 2000 da Nuance, porém, quando se fala em sistemas de reconhecimento de voz para a língua inglesa, existem ótimos reconhecedores, como o Dragon Naturally Speaking e o Windows Speech Recognition (BATISTA, 2013). Diante deste contexto, surge a ideia deste trabalho, que tem como finalidade desenvolver meios que permitam a criação de um sistema reconhecedor de voz, voltado ao PT-BR, utilizando ferramentas Open Source. CAPÍTULO 3 Neste capítulo são apresentadas as ferramentas utilizadas para o desenvolvimento deste trabalho. 3 FERRAMENTAS UTILIZADAS Nesta seção são exibidas as ferramentas utilizadas, explicando a utilidade de cada uma delas. Vale salientar que todas as ferramentas utilizadas são ferramentas de código aberto, ou seja, sem custo nenhum para utilizá-las. Entre as ferramentas usadas estão o Poronto, o Protégé, Audacity, CMU Sphinx Toolkit, e o Sarvox, descritas com mais detalhes nas seções seguintes. 9 3.1 Poronto Foi realizada uma busca via web à procura de uma ferramenta que permitisse a construção de ontologias a partir de textos, sendo que os documentos disponíveis para a realização deste trabalho foram laudos, dispostos em forma textual. O meio escolhido para a criação da ontologia foi a ferramenta Poronto, uma ferramenta Web para construção semiautomática de ontologias em português, associado à área da saúde. Utiliza como medida para refinar a extração dos termos os Descritores em Ciência da Saúde1 (DeCS) visando facilitar a seleção dos termos pelo usuário (ZAHRA,2009). A escolha da ferramenta para o desenvolvimento deste trabalho deu-se pelo fato de ser uma ferramenta Open Source, ou seja, desenvolvida com tecnologias de código aberto. 3.2 Protégé Para dar suporte à construção semiautomática de ontologias a partir de textos, várias ferramentas foram desenvolvidas, cada uma, com técnicas e métodos diferentes (ZAHRA, 2014). A escolhida para o desenvolvimento deste trabalho foi o Protégé. Segundo Oliveira (2011), o Protégé foi desenvolvido pelo departamento de informática médica da Universidade de Stanford, sendo que o projeto original propunha uma ferramenta de aquisição de conhecimento limitada a um sistema especialista para oncologia, assim, evoluiu até tornar-se uma ferramenta de aquisição de conhecimento. Esta ferramenta dá suporte ao desenvolvimento, visualização e manipulação de ontologias em diferentes formatos como, Web Ontology Language (OWL), Extensible Markup Language (XML) e o Resource Description Framework (RDF) (OLIVEIRA, 2011). 1 Criado pela BIREME, o DeCS é um vocabulário estruturado trilíngue utilizado para servir como uma linguagem única na indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos, e outros tipos de materiais, assim como para ser usado na pesquisa e recuperação de assuntos da literatura científica nas fontes de informação disponíveis na Biblioteca Virtual em Saúde (BVS) (DeCS, 2015). 10 É uma plataforma livre, de código aberto, que contém um conjunto de ferramentas que permitem a construção de modelos de domínio e aplicações baseadas no conhecimento com ontologias (PROTÉGÉ WIKI). A escolha desta ferramenta para o desenvolvimento do trabalho deu-se pelo fato de ser uma ferramenta Open Source, com interface amigável, com tutoriais disponíveis e de fácil entendimento. 3.3 Audacity Audacity é um software livre e multiplataforma para gravação e edição de áudios, foi desenvolvido por um grupo de voluntários e distribuído sob a GNU General Public License GPL (AUDACITY,2015). Este software foi escolhido para o desenvolvimento deste trabalho, pois apresenta uma interface amigável e fácil de ser utilizada, disponibilizando todas as ferramentas que foram necessárias, como a gravação no formato WAVEform audio format (WAV). A versão 2.1.0 do Audacity foi a utilizada para a construção do banco de dados de voz necessário para a realização do treinamento dos modelos acústico e de linguagem. 3.4 CMU Sphinx Toolkit Desenvolvido na Universidade de Carnegie Mellon, o CMU Sphinx Toolkit, é um kit de ferramentas que oferece diversos componentes para implementar as etapas de um sistema de reconhecimento de fala, provendo flexibilidade na alteração de vários parâmetros (OLIVEIRA, 2010). O CMU Sphinx é um conjunto de ferramentas de reconhecimento de voz, tais ferramentas conduzem os usuários à construção de aplicações que utilizam o reconhecimento de voz. Possui uma série de pacotes para diferentes tarefas e aplicações, que são: PocketSphinx, uma biblioteca de reconhecedor de voz; Sphinxbase uma biblioteca de suporte exigida pelo PocketSphinx; Sphinx-4 é reconhecedor ajustável e modificável; CMUclmtk é uma ferramenta para a construção de modelos de linguagem; SphinxTrain é uma ferramenta para a criação do modelo acústico (ARAUJO, 2014). 11 O Sphinx é considerado o estado da arte na área de reconhecimento de voz (MARTINS, 2013; OLIVEIRA, 2010), proporcionando facilidades ao desenvolvimento de sistemas específicos em reconhecimento de fala. A escolha desta ferramenta para o desenvolvimento deste trabalho deu-se, a princípio, por ser uma ferramenta de código aberto, por possuir uma boa documentação disponível na Web e por possibilitar sua utilização em qualquer idioma, porém, necessitando que seja realizado um treinamento da linguagem antes da criação dos modelos acústico e de linguagem. Possuindo estas características, esta ferramenta se enquadra ao escopo deste trabalho. 3.4.1 Estrutura Sphinx-4 No Sphinx-4 ocorrem os principais procedimentos para o reconhecimento de fala, é um decodificador disponibilizado pelo framework Sphinx, e está dividido em três módulos principais, interface, decodificador e linguística, conforme pode ser visto na figura 1. Figura 1 - Arquitetura Sphinx-4 Fonte: Adaptado de Sartori, H.; Harti, M.; Chenfour, N., 2007 12 Na interface acontece a discretização do sinal de voz. Os arquivos em formato de áudio devem ser inseridos na aplicação e como saída, serão disponibilizados os parâmetros do sinal, os quais serão utilizados pela aplicação para a criação dos modelos acústico e de linguagem. No módulo linguistíca, são criados os dados utilizados pelo decodificador, sendo estes dados: o modelo acústico, que contém a verossimilhança entre as palavras, o dicionário correspondente ao banco de dados utilizado e o modelo de linguagem que contém a probabilidade da ocorrência de uma palavra. O gráfico de busca carrega os modelos acústico, de linguagem e o dicionário. O decodificador lê os dados gerados na interface, acessa os modelos e o dicionário carregados no módulo linguística, constrói o gerenciador de pesquisa que irá construir a lista ativa, que representa a lista de nós ativos durante a busca, o marcador, pontua cada nó e o removedor poda a lista ativa. 3.5 Sarvox É um sistema Web de análise de reconhecimento de voz baseado em CMU Sphinx que foi desenvolvido durante um projeto de mestrado da Universidade Federal do Rio de Janeiro. (MARTINS, 2013). Este sistema permite a inserção dos arquivos necessários para o treinamento (Seção 4.1), e através de linhas de código codifica o Sphinx para que o treinamento seja realizado contemplando todas as suas etapas (Seção 5.2), por fim, apresenta dados estatísticos sobre os resultados obtidos com a decodificação dos modelos. Este sistemas foi utilizado inicialmente como teste da ferramenta, neste teste foram utilizadas 63 sentenças para o treinamento, o que se mostrou um banco de dados pequeno para a criação de modelos válidos. CAPÍTULO 4 Neste capítulo serão apresentados todos os elementos necessários para a realização da pesquisa. 13 4 FUNDAMENTOS Este capítulo apresenta os fundamentos desta pesquisa, ou seja, a base de dados que é necessária para o treinamento dos modelos acústico e de linguagem, e o funcionamento do processo de reconhecimento de voz em si. 4.1 Base de dados Nesta seção serão apresentados todos os dados e arquivos utilizados no treinamento. A base de dados foi composta pelas gravações, as transcrições dos áudios, o arquivo de dicionário, o arquivo de fonemas, o arquivo filler, o arquivo de frases, o arquivo de nomeação dos áudios e o Arquivo batch. Todos serão apresentados em detalhes nas seções seguintes. 4.1.1 Gravações Os primeiros dados que se fizeram necessários foram as gravações dos modelos de laudos em formato de áudio. Estas gravações foram realizadas em formato .WAV, com taxa de amostragem específica de 16 kHz, 16 bit, mono, estas configurações foram realizadas no Audacity e de acordo com as especificações do Sphinx. Outro fator relevante é que o silêncio do início e do fim das frases não pode ultrapassar 0,2 s. Inicialmente foram realizados testes no Framework Sphinx, onde foram gravadas sessenta e três sentenças para teste. Posteriormente foram realizadas gravações de todo o grupo de sentenças disponíveis no banco de dados totalizando trezentos e noventa e uma sentenças, incluindo as 63 que já tinham sido gravadas no grupo de gravações. Logo após, estas gravações foram utilizadas para o treinamento dos modelos acústico e de linguagem. 14 4.1.2 Transcrições Um dos arquivos necessários para o treinamento do modelo acústico é o arquivo de transcrições dos áudios, onde deve conter a transcrição de cada áudio por linha, entre as tags <s> </s> seguidamente o nome do áudio entre parêntesis. Assim como segue: <s> tomografia computadorizada </s> (fala1) <s> abdome superior </s> (fala2) <s> com contraste venoso </s> (fala3) <s> fígado de volume SIL contornos e densidade normais SIL sem evidências de lesões focais </s> (fala4) <s> veias porta e supra hepáticas e de calibre preservado </s> (fala5) <s> não se observa dilatação das vias biliares intra ou extra hepáticas </s> (fala6) <s> vesícula biliar sem sinais de alterações ao método </s> (fala7) <s> baço de volume usual SIL impregnando se homogeneamente pelo meio de contraste </s> (fala8) <s> pâncreas de morfologia e volume normais SIL com impregnação habitual pelo meio de contraste SIL sem sinais de dilatação ductal ou calcificações parenquimatosas </s> (fala9) <s> supra renais com densidade SIL morfologia e volume preservados </s> (fala10) ... O arquivo de transcrições utilizado pode ser visto no apêndice A. 4.1.3 Dicionário Para o treinamento do modelo acústico e de linguagem é necessário o arquivo de dicionário, onde se encontram todas as palavras que contêm os modelos de laudos e suas seguintes transcrições fonéticas. O mesmo arquivo deve ser usado para o treinamento dos dois modelos. O arquivo de dicionário contém 847 palavras e foi criado seguindo o padrão utilizado pelo 15 Laboratório de Processamento de Sinais na criação de modelos de linguagem Assim como segue: aa áa àa abaulamentos a b a w l a m ee t u s abdome a b d oo m i abdominais a b d o m ii n a j s abdominal a b d o m ii n a w aberta a b e xm t a acima a s ii m a acordo a k o rm d u adequada a d e k w a adequadamente a d e k w a d a m ee ts i adequado a d e k w a d u adjacentes a dz zm a s ee ts i s administração a dz m ii n i s t r a s aa ww aeração a j r a s aa ww aérea a em r e a aéreas a em r e a s aéreo a em r e u alinhamento a l ii jm a m ee t u alterações a w t e r a s oo jj s altura a w t u r a ampla aa p l a amplitude aa p l i t u dz i amplitudes aa p l i t u dz i s amputação aa p u t a s aa ww analisar a n a l i z a xm anatômica a n a t oo m i k a anatômicas a n a t oo m i k a s anatômico a n a t oo m i k u ... 16 O dicionário utilizado pode ser visto no apêndice B. 4.1.4 Fonemas O arquivo de fonemas deve conter todos os fonemas das palavras que contém no dicionário, sem repetição e incluindo o fonema de silêncio, e pode ser criado a partir do dicionário. Assim como segue: SIL a aa b d dz e ee em f g i ii j jj k l lm m n ... 17 4.1.5 Filler Este arquivo representa os momentos de silêncio entre as falas como as vírgulas. O arquivo deve ser estruturado da seguinte maneira: <s> SIL <sil> SIL </s> SIL 4.1.6 Arquivo de frases Para o treinamento do modelo de linguagem é necessário o arquivo de frases, que é semelhante ao arquivo de transcrições, porém não aparece o nomeação do arquivo de áudio entre parêntesis, as frases aparecem somente entre as tags <s> </s>. Assim como segue: <s> tomografia computadorizada </s> <s> abdome superior </s> <s> com contraste venoso </s> <s> fígado de volume contornos e densidade normais sem evidências de lesões focais </s> <s> veias porta e supra hepáticas e de calibre preservado </s> <s> não se observa dilatação das vias biliares intra ou extra hepáticas </s> <s> vesícula biliar sem sinais de alterações ao método </s> <s> baço de volume usual impregnando se homogeneamente pelo meio de contraste </s> <s> pâncreas de morfologia e volume normais com impregnação habitual pelo meio de contraste sem sinais de dilatação ductal ou calcificações parenquimatosas </s> <s> supra renais com densidade morfologia e volume preservados </s> ... 18 4.1.7 Arquivo de nomeação dos áudios Para o treinamento do modelo acústico ainda é necessário um arquivo que contenha todos os nomes dos arquivos de áudio, disponibilizados um em cada linha. Assim como segue: fala1 fala2 fala3 fala4 fala5 ... 4.1.8 Arquivo batch O arquivo batch é um arquivo necessário à realização dos testes com os modelos criados. Deve conter a nomeação do arquivo de áudio com a extensão e sua transcrição correspondente. Assim como segue: fala1.wav tomografia computadorizada fala2.wav abdome superior fala3.wav com contraste venoso fala4.wav fígado de volume contornos e densidade normais sem evidências de lesões focais fala5.wav veias porta e supra hepáticas e de calibre preservado fala6.wav não se observa dilatação das vias biliares intra ou extra hepáticas fala7.wav vesícula biliar sem sinais de alterações ao método fala8.wav baço de volume usual impregnando se homogeneamente pelo meio de contraste fala9.wav pâncreas de morfologia e volume normais com impregnação habitual pelo meio de contraste sem sinais de dilatação ductal ou calcificações parenquimatosas fala10.wav supra renais com densidade morfologia e volume preservados... 19 4.2 Processo de reconhecimento de voz O processo de reconhecimento de voz consiste em transformar a voz em texto, ou seja, do sinal acústico, passa-se a ter um texto referente àquele áudio, na figura 2 é apresentado de forma simplificada esse processo. Figura 2 - Processo de reconhecimento de fala Fonte: Adaptado MARTINS, 2013 Considerando a obtenção de um sistema de reconhecimento de voz para o PT-BR, é necessária a realização do treinamento de linguagem, para a obtenção dos modelos necessários para o reconhecimento. Este treinamento é dividido em duas etapas: treinamento e execução (testes), conforme apresentado na figura 3. 20 Figura 3 - Etapas do treinamento Fonte: Adaptado OLIVEIRA, 2010 A etapa de treinamento compreende o treinamento do modelo acústico e do modelo de linguagem. A partir do banco de dados de áudio são extraídas características do sinal, que serão utilizadas para o treinamento do modelo acústico. Este processo ocorre através dos coeficientes mel-cepstrais (MFCC), coeficientes utilizados para a representar a fala baseada na percepção auditiva humana. São considerados o estado da arte para representação dos sinais da fala humana, o que estará apresentado em detalhes na seção 5.2.1. Através das transcrições dos áudios, documentos descritos na seção 4.1, e com a extração de características realizada, é obtido o modelo acústico, onde é calculada a verossimilhança entre as palavras contidas no banco de dados. A partir do arquivo de textos, também descritos na seção 4.1, é obtido o modelo de linguagem, onde é mapeado o relacionamento entre as palavras, obtendo uma probabilidade da ocorrência de uma sentença relacionada a sentença anterior. Terminando a etapa de treinamento, ocorre a etapa de execução ou testes onde os modelos criados são utilizados para realizar a decodificação a partir do áudios contidos no banco de dados, a partir desta etapa pode ser realizado uma análise qualitativa nos resultados e avaliar os modelos criados. 21 CAPÍTULO 5 Neste capítulo são apresentados todos os procedimentos realizados para a obtenção dos resultados deste trabalho. 5 DESENVOLVIMENTO Esta seção apresenta como foi realizada a criação da ontologia e o treinamento da linguagem para a criação dos modelos acústico e de linguagem. 5.1 Criação da Ontologia O processo de criação da ontologia com o Poronto está apresentado na figura 4, o qual é dividido em duas etapas: a criação do corpus e a criação da ontologia. Para a criação do corpus, foi necessário enviar os documentos onde estavam as informações necessárias para a geração da ontologia, em formato .pdf ou .txt. Os documentos foram transformados em texto limpo e foi realizado um pré-processamento nos textos dividindo o texto com espaços em branco para posteriormente ser feito o processamento de anotação linguística, as stopwords são removidas, e os textos são processados com a ferramenta TreeTagger2(ZAHRA,2009). A próxima etapa é a criação da ontologia, na qual o usuário precisa preencher os filtros apresentados na ferramenta, escolhendo a quantidade mínima de vezes que os termos simples ou compostos irão aparecer no corpus, se deseja ou não a inclusão dos termos compostos no resultado ou se apenas substantivos irão aparecer, e se apenas os termos marcados pelo TreeTagger irão aparecer como substantivo ou todos os termos. Na figura 4 é apresentado o processo completo de criação de uma ontologia, após a extração dos termos é criada a estrutura do texto final, podendo ser exportada em dois formatos, que são: OWL e .xlsx. 2 Desenvolvida por Helmut Schmid (1994) no Institute for Computational Linguistics of the University of Stuttgart. É uma ferramenta de anotação linguística, onde cada palavra é anotada com a sua classe gramatical, suportando doze idiomas distintos, dentre eles, o português (ZAHRA,2009). 22 Figura 4 – Processo de criação da ontologia Fonte: Adaptado (ZAHRA,2013). Para a criação do corpus utilizado neste trabalho foram utilizados 32 modelos de laudos distintos de tomografia computadorizada adaptados de acordo com a literatura (WERLANG, 2009). Estes documentos foram disponibilizados pelos integrantes da área da saúde do grupo de pesquisa, no qual o desenvolvimento deste trabalho está inserido. Os laudos utilizados são referentes a abdome superior (com contraste venoso), abdome superior (sem contraste venoso), abdome total (abdome superior e pelve com contraste venoso), abdome total (abdome superior e pelve sem contraste venoso), angiotomografia computadoriazada da aorta, angiotomografia computadorizada das artérias carótidas e vertebrais, angiotomografia computadorizada dos membros inferiores (avaliação arterial), angiotomografia computadorizada dos vasos encefálicos, angiotomografia computadorizada dos vasos hepáticos (transplante hepático- doador), angiotomografia computadorizada dos vasos pulmonares dos (protocolo de TEP), angiotomografia computadorizada vasos renais (transplante renal - doador), articulações (ombro, cotovelo, punho, quadril, joelho, tornozelo cavidades e sacroilíacas), articulações temporomandibulares (atm), paranasais, colonoscopia virtual, coluna cervical, coluna dorsal, coluna lombar, crânio (pré e pós contraste), crânio (sem contraste), órbitas, ossos temporais (ouvidos e mastóides), pelve (com contraste venoso), pelve (sem contraste venoso), pescoço, rins e vias urinárias (sem contraste venoso), rins e vias urinárias (com contraste venoso), laringe, segmentos apendiculares (mão, antebraço, braço, coxa, perna e pé), joelhos e estudo rotacional dos membros inferiores (medidas baseadas no protocolo de Lyon modificado), sela 23 túrcica, tórax (protocolo de Swensen) e tórax (WERLANG; BERGOLI; MADALOSSO, 2009). O preenchimento dos filtros para a geração da ontologia foi realizado da seguinte forma: o mínimo que é a quantidade mínima de vezes em que um termo simples aparece no corpus e a quantidade mínima de termos compostos, não foram levados em consideração, não sendo atribuído nenhum valor para estes tipos de filtro. Os termos compostos, filtro que inclui os termos compostos no resultado, foi assinalado. Apenas substantivos, filtro que inclui apenas os termos selecionados pelo TreeTagger como substantivos no resultado, não foi assinalado, esta estratégia foi utilizada devido ao desejo de obter o maior número de termos possíveis na ontologia. Tfidf: medida que mede a frequência de um termo no documento, foi selecionada para seleção dos termos. Quanto mais alta a frequência maior é a relevância do termo para o domínio. Entropy: medida que utiliza a entropia para a seleção dos termos, foi selecionada, medindo o grau de desorganização do conjunto de termos (TILLEY, 1990). 5.1.1 Estruturação da ontologia O processamento da ferramenta sobre os textos resultou na obtenção de 3695 palavras repetidas, 1064 palavras únicas e 1064 palavras selecionadas, o que pode ser observado na tabela 1. Tabela 1 – Resultados extraídos com o Poronto Total de Palavras (Repetidas) 3695 Total de Palavras (Únicas) 1064 Total de Palavras (Selecionadas) 738(100.0%) Considerando a quantidade de palavras repedidas, o que é comum na área médica quando trata-se de laudos, percebe-se a importância de ter os dados estruturados, pois a estruturação da informação facilita o seu entendimento, o que favorece um auxílio para o trabalho do médico. O resultado da seleção dos termos pode ser visto na figura 5, onde é apresentada a 24 descrição de cada termo, a quantidade de vezes que cada termo aparece no corpus, as medidas de frequência tfidf e entropy para cada termo, e se o termo aparece ou não no DeCS. Figura 5 - Resultados obtidos com o Poronto O Poronto criou 162 classes distintas e relacionadas entre si, sendo cada uma delas representante de um dos principais termos que compõem os laudos de tomografia computadorizada. Algumas delas estão apresentadas na figura 6. 25 Figura 6 - Exemplificação das classes da ontologia A seguir são descritos alguns exemplos de classes que foram criadas formando a ontologia. Classe dimensões - engloba os distintos tipos de variação entre as dimensões, sendo elas: dimensões anatômicas, dimensões normais, dimensões preservadas e dimensões usuais. Classe contraste - varia entre contraste em medida, contraste em medida da densidade, contraste simétrica e contraste venoso. Classe corpos - dividida em corpos livres e corpos vertebrais. Classe densidade - divida em densidade de partes, densidade na fase, densidade normais, densidade usuais, densidade óssea. Classe dilatações - varia entre dilatações aneurismáticas e dilatações vasculares. Classe emergência - composta por: emergência da artéria, emergência das artérias e emergência do tronco. Classe espaços - formada por espaços articulares e espaços sublingual. Classe estruturas – onde aparecem os termos compostos, estruturas da linha, estruturas vasculares e estruturas ósseas; a classe evidências, formada por evidências de calcificações, evidências de derrame, evidências de dilatações, evidências de estenoses, evidências de lesão, evidências de lesões, evidências de subluxações. Classe lesões - dividida em lesões destrutivas, lesões expansivas, lesões focais, lesões osteoblásticas e lesões osteolíticas. Estas são alguns exemplos de classes que foram criadas na criação da ontologia. 26 Após sua criação, a ontologia foi exportada para a ferramenta protégé (PROTÉGÉ Wiki, 2014), uma ferramenta Open Source para criação e edição de ontologias, na figura 7 pode ser vista a ontologia exportada para o protégé e na figura 8, uma das formas de representação possibilitada pelo protégé. Sendo os retângulos maiores representantes das maiores classes. Figura 7 - Ontologia exportada para o Protégé 27 Figura 8 - Demonstração gráfica da ontologia no Protégé 28 Esta umas das possíveis formas de apresentação da ontologia, pois o protégé permite várias formas de exibição, possibilitando que o profissional use a que desejar para melhor representar o conteúdo trabalhado. Os dados obtidos com a criação da ontologia proporcionam à comunidade médica a utilização da extensa quantidade de informações contida no âmbito clinico de forma estruturada, permitindo manter um padrão para tais informações, o que facilita a troca dos dados entre os envolvidos. A próxima seção deste trabalho consiste em apresentar os passos realizados para efetuar o treinamento de linguagem da ontologia criada, para que seja possível a utilização dos modelos criados na construção de um sistema de reconhecimento de fala voltado ao PTBR. 5.2 Treinamento Nesta seção serão apresentadas as etapas realizadas para a obtenção dos modelos acústico e de linguagem. 5.2.1 Extração de características Extrair as características ou parâmetros do sinal de voz corresponde ao primeiro passo para a criação do modelo acústico. Muitos dados são gerados quando a fala humana é gravada. Ao realizar a extração de características do sinal é possível reduzir a quantidade de dados a processar, além de ser possível obter os vetores de características, nos quais encontram-se elementos importantes de classificação, os quais contribuirão para o reconhecimento das palavras, diferenciando uma das outras. (GORDILLO, 2013). Este processo é realizado através da ferramenta chamada Sphinx_fe que está contida no Sphinx, cuja ferramenta não apenas possibilita a extração dos parâmetros do sinal, como também o ajuste de algumas variáveis de acordo com o banco de dados que está sendo utilizado. O processo de extração de características do sinal de fala abrange três etapas, amostragem do sinal, janelamento e extração de parâmetros. Na extração de parâmetros ocorre a divisão do 29 sinal em blocos, e esses blocos são chamados de janelas, esta parte do procedimento também sobrepõe blocos para que seja possível capturar a informação que pertence aos limites das gravações (OLIVEIRA, 2010). A taxa de amostragem é um parâmetro utilizado para transformar o sinal sonoro em um sinal digitalizado. O janelamento é a divisão do sinal de voz em blocos. Frame rate é a variável que determina o tamanho da sobreposição entre as janelas adjacentes, na figura 9 é apresentada a figuração do janelamento simplificado. Figura 9 - Exemplificação do Janelamento Fonte: Adaptado de YOUNG, S., EVERMANN, G., GALES, M., et al., 2009 Fast Fourier Transform (FFT) é a técnica que é aplicada a cada janela para realizar a extração dos coeficientes MFCC através de um banco de filtros (MARTINS, 2013). Discrete Cosine Transform (DCT) é a que é utilizada para reduzir o número de coeficientes gerados, concentrando os valores mais significativos nos primeiros espaços do vetor, procedimento que melhora a eficiência computacional (GORDILLO, MARTINS 2013). O número de coeficientes é onde é definido o número de coeficientes por janela. Coeficiente de Liftragem Cepstral, necessário para a realização da liftragem cepstral, consiste em reescalonar os 30 coeficientes que tenham magnitudes similares de forma a se obter uma melhor representação das partes de um segmento de voz (MARTINS, 2013). Os sinais da fala são representados através dos MFCC. O cálculo destes coeficientes são realizados através de banco de filtros, para isto, o sinal de voz é passado através do filtro de pre-ênfase, essa etapa é realizada para diminuir as altas frequências causadas pela ferramenta utilizada para a produção de voz. Após a filtragem do sinal, é aplicada a janela de Hamming, que geralmente é utilizada para sistemas de reconhecimento de fala (PICONE, 1993), para melhorar a qualidade do sinal no início e no fim de cada segmento diminuindo a transição entre frames adjacentes, as janelas são de 25 ms de comprimento, com deslocamento de 10 ms entre janelas, o que permite obter vetores MFCC a cada 10 ms. Após o janelamento, a FFT é aplicada para obter o espectro de sinal que resulta na obtenção da potência espectral. O banco de filtros está formado por filtros triangulares, espaçados de acordo com a escala mel3, cada filtro calcula a média do espectro em relação a frequência central. A próxima etapa é obter a log-energia da saída resultante de cada um dos filtros mel. Por fim, os coeficientes MFCC são obtidos aplicando a DCT ao logaritmo dos coeficientes de energia obtidos, processo apresentado na figura 10 (GORDILLO,2013). 3 "A escala mel está baseada no sistema auditivo humano, cuja sensibilidade aos sinais de voz se processa em uma escala não linear de freqüências" (PARANAGUÁ, 1997) . Não corresponde linearmente à freqüência física, mas sim à frequência percebida (PETRY.; ZANUZ; BARONE, 1999) 31 Figura 10 - Cálculo dos MFCC (1) Fonte: Adaptado GORDILLO, 2013 Todo este processo compreende primeiramente o cálculo cepstral do sinal, logo após a liftragem cepstral, que compreende a organização dos coeficientes similares, para assim se obter uma melhor representação dos construtores do bloco de voz, o que está representado na figura 11 (MARTINS, 2013). 32 Figura 11 - Cálculo dos MFCC (2) Fonte: Adaptado MARTINS, 2013 A ideia principal da extração de atributos é captar as mudanças temporais bruscas presentes no espectro (GORDILLO,2013). 5.2.2 Treinamento do modelo acústico O treinamento do modelo acústico compreende a próxima etapa após a extração de características. É realizado através da ferramenta SphinxTrain, que está composta no Sphinx. SphinxTrain é composta por outras ferramentas menores que são necessárias para a realização das cinco etapas do treinamento acústico, o qual é realizado em duas fases, o treinamento do modelo em si, que compreende cinco diferentes etapas e o empacotamento deste modelo. 33 Para realizar o treinamento do modelo acústico são necessárias as gravações em formato de áudio, o arquivo das transcrições, o dicionário e o arquivo de fonemas. A modelagem acústica é realizada com o objetivo de calcular a verossimilhança entre as palavras. Os Modelos Ocultos de Markov ou Hidden Markov Models (HMMs) são considerados o estado da arte para modelagem acústica (OLIVEIRA, 2010). O treinamento do modelo acústico é realizado através do algoritmo de reestimação de parâmetros Baum-Welch, ou Forward-Backward algorithm. Para a execução deste algoritmo é necessária que seja feita uma definição algumas variáveis, como os números máximo e mínimo de iterações do algoritmo e a taxa de convergência. Os HMMs podem ser vistos como máquinas de estado finitas, onde a cada unidade de tempo ocorre uma transição entre estados e cada estado emite um vetor acústico com uma função densidade de probabilidade associada (OLIVEIRA,2010). Para melhorar o modelo acústico é realizado o compartilhamento de estados, visando diminuir o número de parâmetros a serem computados, técnica chamada states-tying, que significa basicamente na agrupação de estados com questões fonéticas semelhantes, ou seja, fonemas que estão em contextos diferentes e não produzem uma variabilidade acústica suficientemente para serem modelados por diferentes HMM’s. O agrupamento dos estados é realizado através de algoritmos de árvores de decisão, onde são agrupados em um mesmo estado os fonemas que se encontram no mesmo nó da árvore. É necessário definir o número máximo e mínimo de estados a serem compartilhados. Para cada fonema é construída uma árvore de decisão, sendo os nós pai todos os estados com os diferentes contextos em que um mesmo fonema pode ser inserido. (MARTINS, 2013; OLIVEIRA, 2010). As cinco etapas da primeira fase do treinamento acústico serão apresentadas nas subseções a seguir. 5.2.2.1 Etapa 1: Treinamento dos modelos independentes de contexto Esta etapa abrange a inicialização dos parâmetros dos modelos através de estimação a partir dos vetores de coeficientes obtidos na extração de características. Posteriormente, são realizadas uma série de iterações do algoritmo Baum-Welch até atingir uma determinada taxa de convergência, procedimento chamado flat initialization que é realizado utilizando as 34 ferramentas mk_flat e ini_gau do SphinxTrain. Os scripts 20.ci_hmm compostos no SphinxTrain realizam esta parcela do treinamento. 5.2.2.2 Etapa 2: Treinamento dos modelos dependentes de contexto Nesta etapa ocorre o treinamento dos tri fones, ou seja, fonemas que tenham um contexto à esquerda e outro à direita, e ainda não existem estados compartilhados. Os parâmetros utilizados são os mesmo da etapa anterior, logo após são realizadas novas iterações para a reestimação de novos parâmetros. Os scripts 30.cd_hmm_untied compostos no SphinxTrain realizam esta parcela do treinamento. 5.2.2.3 Etapa 3: Geração da árvore de decisão e agrupamento de estados compartilhados Esta etapa do treinamento corresponde à criação de árvores de decisão através da ferramenta bldtree, com as questões fonéticas já avaliadas, para que seja realizado o agrupamento de estados. Os scripts 40.buildtrees são responsáveis por esta etapa do treinamento. A execução destes scripts unem em um mesmo modelo os trifones com propriedades acústicas similares. 5.2.2.4 Etapa 4: Poda nas árvores Para esta etapa são utilizados os scripts 45.prunetree, através da ferramenta prunetree, que realizam uma poda nas árvores visando a eliminação de nós para que seja atingido o número máximo de estados compartilhados definidos pelo desenvolvedor e agrupar estes estados. A poda é realizada eliminando os nós que tem verossimilhança pequena e substitui estes nós pelos nós pais correspondentes. 35 5.2.2.5 Etapa 5: Retreinamento dos estados Nesta etapa é realizado o retreinamento de todos os estados, este procedimento é realizado pelos scripts 50.cd_hmm_tied. São distribuídos nós, retreinando recursivamente os modelos. 5.2.3 Empacotamento do modelo acústico O empacotamento do modelo acústico é relativo à união de todos os modelos treinados e os parâmetros extraídos em um arquivo compactado com extensão .jar. Um arquivo XML de configuração do empacotamento deve ser criado referenciando o arquivo de dicionário e o modelo de linguagem. Este arquivo deve ter o mesmo nome do arquivo com extensão .jar. Com o empacotamento do modelo acústico o treinamento acústico está concluído. 5.2.4 Treinamento do modelo de linguagem Para o treinamento do modelo de linguagem é utilizada a ferramenta cmuclmtk disponibilizada pelo Sphinx. O treinamento do modelo de linguagem é basicamente o cálculo da probabilidade da ocorrência de uma palavra em relação à palavra anterior ou um conjunto de palavras anteriores, técnica que é chamada de n-gramas, correspondendo aos bigramas, trigramas, etc. Sendo utilizado neste trabalho uma análise com base nos trigramas. Para realizar o treinamento do modelo de linguagem são necessários o arquivo de frases e o dicionário. A forma para verificar o desempenho do modelo de linguagem é a taxa de erros de reconhecimento de palavras, o Word Error Rate (WER), que é calculado através da equação 1, sendo sub o número de palavras substituídas erroneamente, ins o número de inserções incorretas, del a quantidade de palavras que deveriam existir e foram excluídas e #palavras a quantidade total de palavras da sentença correta (MARTINS, 2013). 36 Equação 1 O objetivo do treinamento do modelo de linguagem é diminuir a entropia do conteúdo das sentenças e, com isso, facilitar o reconhecimento (OLIVEIRA, 2010). 5.3 Decodificação A etapa de decodificação representa testes que o decodificador Sphinx4 realiza com os modelos criados, com objetivo de verificar a qualidade destes. Para realizar esta etapa são necessários os arquivos de áudio e o arquivo de transcrições específico para testes, e é executada através do decodificador Sphinx-4. Esta etapa se baseia em uma busca pela sequência de palavras que melhor se adapta aos vetores acústicos que foram criados nas etapas anteriores, é feita uma busca pela sequência de estados que maximiza a probabilidade a posteriori. O teorema de Bayes é aplicado através do algoritmo Viterbi, um algoritmo de busca síncrona que busca o estado mais provável a cada unidade de tempo. As variáveis avaliadas para medir o desempenho do decodificador utilizando os modelos criados foram, a taxa de erro de palavras (WER), que verifica a porcentagem de palavras que foram reconhecidas de forma incorreta, o fator de tempo real, que mede o tempo médio do processamento de uma palavra, ou Real Time Factor (RTF), e a acurácia (ACC). A taxa de erro analisa os possíveis erros de inserção, que acontecem quando uma palavra é inserida no texto de forma errada e não está presente nas transcrições, os erros de substituição também são analisados pela WER que ocorrem quando uma palavra é substituída por outra no texto que está sendo reconhecido, e por fim os erros de deleção, que ocorrem quando uma palavra que está contida nas transcrições é excluída do texto que está sendo reconhecido. As equações que calculam a acurácia e o fator de tempo real podem ser vistas nas equações 2 e 3 respectivamente. A equação que calcula WER foi apresentada na equação 1. (2) 37 ( 3) O Sphinx-4 permite que o usuário tenha o controle sob a memória e velocidade do decodificador. Este controle pode ser feito através do tamanho da Active List. Para se ter o controle desta lista é necessária a atribuição de valores para dois atributos, o absoluteBeamWidth, um número que define o tamanho máximo da Active List, e o relativeBeamWidth, um valor que deve ser atingido por um nó, para que ele permaneça na Active List. Existe outro parâmetro que também é importantes na etapa de decodificação, o languageWeight que influência na decisão da importância relativa dada às probabilidades acústicas das palavras na hipótese. Este parâmetro foi utilizado para testar sua influência na decodificação. O desempenho do descodificador foi testado utilizando os modelos acústico e de linguagem treinados. Os parâmetros do decodificador foram recebendo valores diferentes, e os valores resultantes de WER, RTF e ACC foram analisados. (OLIVEIRA,2010). O tamanho da base de dados utilizada é considerado pequeno e por isso o valor de RTF permaneceu sempre o mesmo. RFT é um tempo entre o tempo de e o tempo de decodificação, os dois medidos em segundos, por isso, RFT é adimensional. A decodificação foi rápida, com RTF de 0,02, que permaneceu constante durante todos os testes. 5.4 Testes de performance e resultados Para verificar a qualidade dos modelos criados foram realizados diversos testes variando o valor das principais variáveis que influenciam na criação dos modelos e na qualidade do decodificador. Inicialmente foi realizado um treinamento com os valores padrão dos parâmetros que o Sphinx possui. Os parâmetros utilizados para teste e seus respectivos valores são apresentados na tabela 2. Logo após foram feitas variações nestes valores para uma posterior comparação entre os modelos. 38 Tabela 2 - Valores padrão do Sphinx para os parâmetros testados PARÂMETROS VALOR PADRÃO Estados Compartilhados 200 Gaussianas 64 Número de coeficientes 13 LanguageWeight 10 A cada parâmetro que ia sendo variado o seu valor, os outros eram mantidos constantes. O resultado para treinamento de decodificação com os valores padrão do Sphinx é apresentado na tabela 3. Tabela 3 – Resultados obtidos com os valores padrão do Sphinx SENTENCE ERROR (391) 162 41,40% WER (4057) 441 10,90% ACC RTF 89,11% 0,02 Inicialmente foram atribuídos diferentes valores para o número de estados compartilhados. Os diferentes valores atribuídos a este parâmetro foram, 100, 200, que é o valor padrão do Sphinx, 300, 400 e 500. Estes valores foram testados considerando o tamanho da base de dados que era pequena, foi levado em consideração também que um número muito pequeno de estados compartilhados poderia não agrupar estados similares e levar a uma redução de desempenho. E que um número muito grande não era desejável, devido ao tamanho da base de dados, pois, com a utilização de muitos estados compartilhados não era possível realizar o treinamento, já que o sistema a presentava erro pedindo para que o número de estados fosse menor. Na tabela 4 e no gráfico 1 podem ser vistos os resultados obtidos com a variação dos valores para os estados compartilhados. 39 Tabela 4 – Resultado dos testes com variação dos estados compartilhados ESTADOS COMPARTILHADOS SENTENCE ERROR (391) WER (4057) ACC 100 168 469 88,42% 200* 300 400 500 162 163 161 161 441 430 410 430 89,11% 89,38% 89,87% 89,40% RTF 0,02 0,02 0,02 0,02 0,02 *Valor padrão Gráfico 1 – Resultado dos testes com variação dos estados compartilhados Como o valor padrão de configuração do Sphinx para este parâmetro é 200, este valor foi variado até que parasse de apresentar melhora no desempenho. Ao diminuir o valor do parâmetro para 100 foi possível notar uma piora no desempenho, sendo que a quantidade de 40 erros no reconhecimento das sentenças foi de 41,40% para 43%, a taxa de erros por palavras foi de 10,90% para 11,60% e a acurácia de 89,11% para 88,42%, sendo que quanto mais alto o valor da acurácia melhor é o reconhecimento do sistema. Quando valor foi aumentado para 300 foi possível observar que os erros por sentenças foram de 41,40% para 41.70%, a taxa de erros por palavra foi de 10,90% para 10,60% e a acurácia de 89,11% para 89,38%. Quando o valor foi aumentado para 400, foi obtido o melhor desempenho possível, diminuindo a sentença de erros para 41,20%, a taxa de erros por palavra para 10,10%, e um amento na acurácia para 89,87%. Ao aumentar o valor para 500 o desempenho voltou a reduzir, com uma taxa de erros por sentença de 41,20% uma taxa de erro por palavra de 10,60% e uma acurácia de 89,40%. O segundo parâmetro a ser testado foi o número de gaussianas por estado, que foi variado entre os seguintes valores: 16, 32, 48, 64 e 80, sendo 64 o valor padrão de configuração. Os melhores valores para a quantidade de erros por sentença, a taxa de erros por palavra e acurácia se apresentaram com 16, 32 e 48 e 80 gaussianas por estados. Para os quatro valores foram observados os mesmo valores de sentença de erros que foi 41,20%, taxa de erros por palavra de 10,60% e acurácia de 89,40%. O valor padrão não apresentou os melhores resultados, porém a diferença entre os resultados não foi significativa. Os valores deste teste são apresentados na tabela 5 e gráfico 2. Tabela 5 – Resultado dos testes com variação do número de gaussianas por estado GAUSSIANAS 16 32 48 64 80 *Valor padrão SENTENCE ERROR (391) WER (4057) 161 430 161 430 161 430 441 162 161 430 ACC 89,40% 89,40% 89.40% 89,11% 89,40% RTF 0,02 0,02 0,02 0,02 0,02 41 Gráfico 2 - Resultado dos testes com variação do número de gaussianas por estado A melhor configuração para o número de coeficientes MFCC apresentou-se com o valor 8 para este parâmetro, com erro por sentença de 90,81, taxa de erro por palavra de 9,20% e acurácia de 90%,81. Os valores 10 e 13 apresentaram resultados indesejáveis para configuração. Taxa de erro por sentença de 90,78% e 89,11%, taxa de erro por palavra de 9,20% e 10,90% e acurácia de 90,78% e 89,11 respectivamente. A partir do valor padrão, 13, o sistema começou a apresentar erro devido ao tamanho do banco de dados utilizado para o treinamento. Na tabela 6 e gráfico 3 são apresentados os resultados dos testes com este parâmetro. Tabela 6 – Resultado dos teses com o número de coeficientes MFFCC NÚMERO DE COEFICIENTES SENTENCE ERROR (391) WER (4057) 168 372 8 10 162 374 441 162 13* *Valor padrão ACC 90,81% 90,78% 89,11% RTF 0,02 0,02 0,02 42 Gráfico 3 - Resultado dos teses com o número de coeficientes MFFCC O ultimo parâmetro urilizado para testes foi o languagewheit, parâmetro que é utilizado na decisão de importância relativa dada às probabilidades acústicas das palavras na hipótese do reconhecimento. O valor 16 foi o mais adequado para este parâmetro, pois apresentou valores adequados para as variáveis analisadas. Apresentou erros por sentença de 40,70, taxa de erro por palavra de 9,00% e acurácia de 90,12%. Os outros valores testados para este parâmetro foram 6, 8, 10, 12, 14 e 18. Conforme foi aumento o valor de LanguageWeight os resultados foram melhorando até o valor 16, depois deste valor a eficiência voltou a diminuir, estes resultados estão apresentados na tabela 7 e gráfico 4. Tabela 7 – Resultado dos testes com languagewheit LANGUAGEWEIGHT SENTENCE ERROR (391) WER (4057) 6 172 469 8 168 449 441 162 10* 12 161 428 14 160 419 16 159 400 18 162 428 *Valor padrão ACC 88,42% 88,91% 89,11% 89,43% 89,67% 90,12% 89,45% RTF 0,02 0,02 0,02 0,02 0,02 0,02 0,02 43 Gráfico 4 – Resultado dos testes com languagewheit Após estes testes foi realizado um treinamento com os valores que se apresentaram de forma mais adequada para os parâmetros testados. Para estados compartilhados foi utilizado o valor 400, para o número de gaussianas por estado foi utilizado 48, para o languagewheit foi utilizado 16. Porém para o número de coeficientes o valor 8 que apresentou os melhores valores para as variáveis quando foi feito o teste com o restante dos parâmtros mantidos com os valores padrão não pôde ser utilizado, devido ao fato de que utilizando o valor 8 com a configuração não padrão do Sphinx o sistema começou apresentar erros durante ao treinamento, o que ocorreu devido ao número de estados compartilhados que deveria ser mais baixo que 400. O resultado para o treinamento com a configuração adequada é apresentado na tabela 8. 44 Tabela 8 - Resultados obtidos com os valores adequados de configuração para o Sphinx SENTENCE ERROR (391) WER (4057) ACC RTF 158 40.4% 404 10.0% 90,04% 0,02 Ao comparar com resultados obtidos com a configuração padrão e a configuração modificada e considerada adequada para criação e decodificação dos modelos, é possível perceber uma melhora no desempenho do decodificador e com isso a obtenção dos melhores modelos para a base de dados treinada. Levando em consideração o propósito da utilização dos modelos e a área em que serão utilizados, os modelos devem ser treinados da melhor forma para que o decodificador encontre as menores taxas de erro possíveis. Para assim atingir o objetivo desta pesquisa que é desenvolver os modelos acústico e de linguagem para a criação de um sistema reconhecedor de voz para o âmbito médico. CAPÍTULO 6 Neste capítulo serão apresentados os resultados obtidos com a pesquisa. 6 CONSIDERAÇÕES FINAIS Este trabalho apresentou a criação de uma ontologia para facilitar e padronizar a troca de informações na área médica, e a criação de modelos acústico e de linguagem para serem utilizados em um sistema de reconhecimento de voz. Foi apresentada toda a base teórica do processo de criação de uma ontologia utilizando informações de laudos médicos de tomografia computadorizada, o funcionamento do processo de reconhecimento de voz, as ferramentas utilizadas, a base de dados utilizada nesta 45 pesquisa, o treinamento de linguagem para o português brasileiro, incluindo a criação de modelos acústico e de linguagem e os testes realizados com estes modelos buscando a obtenção de modelos que proporcionassem uma melhor decodificação. A contribuição deste trabalho está na facilitação e simplificação dos procedimentos dentro das instituições médicas. O sistema utilizado para criação e avaliação dos modelos mostrou-se adequado, já que permite adequar parâmetros para a obtenção de melhores modelos acústico e de linguagem, vale ressaltar que a melhor configuração varia de acordo com a base de dados utilizada. Em relação aos estados compartilhados é observado que parâmetro influencia muito se a base de dados é pequena. Para uma base de dados menor que a utilizada é necessário utilizar um número de estados compartilhados menor que 200, para uma base de dados maior que a utilizada o número de estado compartilhados pode ser até maior que 500, aumentando o número de estados compartilhados até 400 com a base de dados aqui testada os modelos se mostravam de maior qualidade. Gaussianas por estado foi o parâmetro que apresentou menos influência nos resultados dos testes, a variação entre os valores desta variável não mudaram significativamente. O número de coeficientes é muito influenciado pelo tamanho da base de dados e consequentemente pelo número de estados compartilhados, para os dados utilizados os melhores resultados apareceram conforme diminuía o número de coeficientes e para um número de coeficientes maior do que 13 não só pioraram os resultados, como o treinamento dos modelos começou a apresentar erros. Os resultados melhoram conforme aumenta o valor de languagewheit. Aumentando o valor até 16, o reconhecimento do decodificador foi melhorando apresentando resultados superiores. Com uma base de dados maior é recomendável utilizar valores maiores que 16 para este parâmetro. Para trabalhos futuros é sugerido que as gravações sejam realizadas de forma independente de locutor, já que a base de dados utilizada neste trabalho restringe muito o sistema por ser dependente de locutor e que sejam criados novos modelos testando a eficiência do decodificador. Também é sugerido que seja utilizada uma base de dados maior para treinamento e o desenvolvimento de uma interface para ser realizada a decodificação. 46 REFERENCIAS BIBLIOGRÁFICAS ANNIBAL, L. P.; et al. Uma Ontologia para Estruturação da Informação contida em Laudos Radiológicos CBIS11. 2011. Disponível em: <http://www.sbis.org.br/cbis11/arquivos/717.pdf>. Acesso em: 23 nov. 2014. ARAUJO, Gabriel. Sphinx-Voxforge Pt-Br. 2014. Disponível em: < http://pt.slideshare.net/gabrielaraujof/treinamento-Sphinxtrain>. Acesso em: 23 nov. 2014. AUDACITY Disponível em: http://audacityteam.org/, Acesso em: 08/12/2014. BATISTA, P. dos S. Avanços em Reconhecimento de Fala para Português Brasileiro e Aplicações: Ditado no LibreOffice e Unidade de Resposta Audível com Asterisk, Belem. 2013. Dissertação (Mestrado em Engenharia Elétrica) – Universidade Federal do Para, 2013. BIOLCHINI, J. C. de A. Semântica e Cognição em Bases de Conhecimento: do vocabulário controlado à ontologia DataGramaZero - Revista de Ciência da Informação - v.2 n.5 out/2001 DeCS. DeCS - Descritores em Ciências da Saúde. Disponível <http://decs.bvs.br/P/DeCS2008_Alfab_por.htm>. Acesso em: 10 jul. 2015. em: em DURLING, S.; LUMSDEN, J. Speech recognition use in healthcare applications. In: Proceedings of the 6th international conference on advances in mobile computing and multimedia. ACM, p. 473-478, 2008. FALABRASIL Acesso em: 20/12/2015, Disponível em: http://www.laps.ufpa.br/falabrasil/ FARINAZZO V. Avaliação De Usabilidade Para Sistemas Automática De Laudos Em Radiologia. Tese (Doutorado Universidade de São Paulo, São Paulo, 2011. De Transcrição em Engenharia) 47 FENELON, Sandro. Aspectos ético-legais em Imaginologia. Radiol Bras [online], vol.36, n.1, pp. 03-06, 2003. FREITAS, F; SCHULZ, S. Ontologies, semantic Web and health. RECIIS, R. Eletr. de Com. Inf. Inov. Saúde. Rio de Janeiro, v. 3, n. 1, p. 4-7, mar. 2009. GORDILLO, C. D. A. Reconhecimento de Voz Contínua Combinando os Atributos MFCC e PNCC com Métodos de Robustez SS, WD, MAP e FRN, Dissertação (Mestrado em engenharia elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2013. JASINSKI, M. G. Comparação entre metodologias de análise de sinal aplicadas ao reconhecimento de voz utilizando um vocabulário restrito, Florianópolis, 2006. JOHNSON, M. et al. A systematic review of speech recognition technology in health care. BMC medical informatics and decision making, v. 14, n. 1, p. 94, 2014. MARTINS, F. C. V. Implementacão de interface para realização de experimentos com sistemas de reconhecimento da fala, Rio de Janeiro, 2013. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2013. MARTINS, V. F., Avaliação De Usabilidade Para Sistemas De Transcrição Automática De Laudos Em Radiologia, Tese (Doutorado em Engenharia) – Escola Politécnica da Universidade de São Paulo, São Paulo, 2011. NETTO, O. P. et al Uma Metodologia para Estruturação de Laudos Médicos usando Ontologias, Anais do XXXI Congresso da Sociedade Brasileira de Computação, XI Workshop de Informática Médica, Natal, RN, 2011. OLIVEIRA, A. OntoNegli: uma ontologia no domínio das doenças negligenciadas. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual de Maringá, 2011. OLIVEIRA, V. de F. Reconhecimento de fala contínua para o português brasileiro baseado em HTK e SPHINX, Rio de Janeiro, 2010. PARANAGUÁ, E. D. S. Reconhecimento de locutores utilizando modelos de Markov escondidos contínuos, 1997, Tese (Mestrado em ciências em engenharia elétrica) - Instituto militar de engenharia, Rio de Janeiro, 1997. PETRY, A.; ZANUZ, A.; BARONE, D. A. C. Utilização de Técnicas de Processamento Digital de Sinais para a Identificação Automática de Pessoas pela Voz. In: SSI'99 Simpósio de Segurança em Informática, 1999, São José do Rio Preto. SSI'99 - Simpósio de Segurança em Informática, 1999. 48 PICONE, J. “Signal Modeling Techiques in Speech Recognition”, Proceedings of the IEEE, v. 81, n. 9, pp. 1215–1246, set. 1993. PROTÉGÉ Wiki Acesso em: http://protegewiki.stanford.edu/wiki/Main_Page 08/12/2014, Disponível em: SARTORI, H.; HARTI, M.; CHENFOUR, N. Introduction to Arabic Speech Recognition Using CMUSphinx System. UFR Informatique et Nouvelles Technologies d'Information et de Communication. França, 2007. TILLEY, C.B. Medical Databases and Health Information Systems. ASIS/Elsevier Science Publishers: Annual Review of Information Science and Technology (ARIST), v.25, p.313-356, 1990 ZAHRA, F. M. Poronto - ferramenta para construção semiautomática de ontologias em português, Curitiba, 2009. ZAHRA, F. M.; CARVALHO, D. R.; MALUCELLI, A. Poronto: ferramenta para construção semi automática de ontologias em português. Journal of Health Informatics, v. 5, n. 2, 2013. Zahra F. M. Ferramentas para aprendizagem de ontologias a partir de textos, Perspectivas em Ciência da Informação v.19, n.1, p.3-21, jan./mar. 2014 Zahra, F. M.; Carvalho, D. R.; Malucelli, A. Poronto: ferramenta para construção semiautomática de ontologias em português. J. Health Inform. 2013 Abril-Junho; 5(2): 52-9 Zerbinatti, L. Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural Tese (Doutorado em Engenharia) - Escola Politécnica da Universidade de São Paulo, São Paulo, 2010. Werlang, H. Z.; Bergoli, P. M.; Madalosso, B. H. Manual do residente de radiologia -2.ed. Rio de Janeiro: Guanabara Koogan, 2009 WHITE, Keith S. Speech recognition implementation in radiology. Pediatric radiology, v. 35, n. 9, p. 841-846, 2005. YOUNG, S., EVERMANN, G., GALES, M., et al. The HTK Book (for HTK Version 3.4). http://htk.eng.cam.ac.uk/docs/docs.shtml, 2009. 49 Apêndice A – Arquivo de transcrições <s> tomografia computadorizada </s> (fala1) <s> abdome superior </s> (fala2) <s> com contraste venoso </s> (fala3) <s> fígado de volume SIL contornos e densidade normais SIL sem evidências de lesões focais </s> (fala4) <s> veias porta e supra hepáticas e de calibre preservado </s> (fala5) <s> não se observa dilatação das vias biliares intra ou extra hepáticas </s> (fala6) <s> vesícula biliar sem sinais de alterações ao método </s> (fala7) <s> baço de volume usual SIL impregnando se homogeneamente pelo meio de contraste </s> (fala8) <s> pâncreas de morfologia e volume normais SIL com impregnação habitual pelo meio de contraste SIL sem sinais de dilatação ductal ou calcificações parenquimatosas </s> (fala9) <s> supra renais com densidade SIL morfologia e volume preservados </s> (fala10) <s> rins em topografia anatômica SIL de volume SIL densidade e contornos normais SIL com espessura parenquimatosa preservada SIL concentrando e excretando o meio de contraste simétrica e satisfatoriamente </s> (fala11) <s> não se observam sinais de litíase ou lesões focais parenquimatosas renais </s> (fala12) <s> cavidades pielocalicinais e segmentos uretrais visibilizados sem alterações </s> (fala13) <s> porções visibilizadas da orta abdominal e da veia cava inferior com aspecto anatômico </s> (fala14) <s> segmentos intestinais avaliados sem sinais de alterações relevantes detectáveis ao método </s> (fala15) 50 <s> não se observam linfonodomegalias ou líquido livre na cavidade abdominal superior </s> (fala16) <s> abdome superior </s> (fala17) <s> sem contraste venoso </s> (fala18) <s> fígado de volume SIL contornos e densidade normais </s> (fala19) <s> vias biliares sem sinais evidentes de dilatação </s> (fala20) <s> vesícula biliar sem sinais de alterações ao método </s> (fala21) <s> baço de volume e densidade usuais </s> (fala22) <s> pâncreas de morfologia e volume normais SIL sem sinais de calcificações parenquimatosas </s> (fala23) <s> supra renais com densidade SIL morfologia e volume preservados </s> (fala24) <s> rins em topografia usual SIL de volume SIL densidade e contornos normais </s> (fala25) <s> ausência de litíase renal ou sinais de hidronefrose </s> (fala26) <s> porções visibilizadas da aorta abdominal e da veia cava inferior de calibre anatômico </s> (fala27) <s> segmentos intestinais avaliados sem sinais de alterações relevantes detectáveis ao método </s> (fala28) <s> não se observam linfonodomegalias ou líquido livre na cavidade abdominal superior </s> (fala29) <s> abdome total </s> (fala30) <s> abdome superior e pelve com contraste venoso </s> (fala31) <s> fígado de volume SIL contornos e densidade normais SIL sem evidências de lesões focais </s> (fala32) <s> veias porta e supra hepáticas pérvias e de calibre preservado </s> (fala33) <s> não se observa dilatação das vias biliares intra ou extra hepáticas </s> (fala34) <s> vesícula biliar sem sinais de alterações ao método </s> (fala35) <s> baço de volume usual SIL impregnandose homogeneamente pelo meio de contraste </s> (fala36) <s> pâncreas de morfologia e volume normais SIL com impregnação habitual pelo meio de contraste SIL sem sinais de dilatação </s> (fala37) <s> supra renais com densidade SIL morfologia e volume preservados </s> (fala38) <s> rins em topografia anatômica SIL de volume SIL densidade e contornos normais SIL com espessura parenquimatosa preservada SIL concentrando e excretando o meio de contraste simétrica e satisfatoriamente </s> (fala39) 51 <s> não se observam sinais de litíase ou lesões focais parenquimatosas renais </s> (fala40) <s> cavidades pielocalicinais e ureteres sem alterações </s> (fala41) <s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem falhas de repleção ou zonas de compressão extrínseca anormal </s> (fala42) <s> próstata de morfologia SIL volume e densidade usuais SIL somente em homens </s> (fala43) <s> útero de volume SIL morfologia e densidade normais SIL com impregnação habitual pelo meio de contraste SIL somente em mulheres </s> (fala44) <s> aorta abdominal e da veia cava inferior com aspecto anatômico </s> (fala45) <s> segmentos intestinais avaliados sem sinais de alterações relevantes detectáveis ao método </s> (fala46) <s> não se observam linfonodomegalias ou líquido livre na cavidade abdominal </s> (fala47) <s> abdome total </s> (fala48) <s> abdome superior e pelve sem contraste venoso </s> (fala49) <s> fígado de volume SIL contornos e densidade normais </s> (fala50) <s> vias biliares sem sinais evidentes de dilatação </s> (fala51) <s> vesícula biliar sem sinais de alterações ao método </s> (fala52) <s> baço de volume e densidade usuais </s> (fala53) <s> pâncreas de morfologia e volume normais SIL sem sinais de calcificações parenquimatosas </s> (fala54) <s> supra renais com densidade SIL morfologia e volume preservados </s> (fala55) <s> rins em topografia usual SIL de volume SIL densidade e contornos normais </s> (fala56) <s> ausência de sinais de urolitíase ou hidronefrose </s> (fala57) <s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem sinais de cálculos radiopacos em seu interior ou espessamentos parietais detectáveis ao método </s> (fala58) <s> próstata de volume e densidade usuais SIL somente em homens </s> (fala59) <s> útero de volume e densidade habituais SIL somente em mulheres </s> (fala60) <s> aorta abdominal e veia cava inferior de calibre anatômico </s> (fala61) <s> segmentos intestinais avaliados sem sinais de alterações relevantes detectáveis ao método </s> (fala62) <s> não se observam linfonodomegalias ou líquido na cavidade abdominal </s> (fala63) <s> angiotomografia computadorizada da aorta </s> (fala64) <s> aspectos gerais </s> (fala65) 52 <s> os diversos segmentos da aorta têm trajeto anatômico SIL atenuação para fluxo preservada SIL sem evidências de calcificações ateromatosas ou espessamentos parietais SIL dissecção SIL estreitamentos ou dilatações aneurismáticas </s> (fala66) <s> medidas </s> (fala67) <s> segmento torácico ascendente SIL na altura do plano valvar aórtico raiz da aorta </s> (fala68) <s> segmento torácico ascendente SIL centímetros antes do tronco braquiocefálico centímetros </s> (fala69) <s> segmento torácico descendente proximal imediatamente após a topografia do ligamento arterioso centímetros </s> (fala70) <s> terço médio do segmento torácico descendente centímetros </s> (fala71) <s> segmento torácico descendente SIL imediatamente acima do diafragma hiato centímetros </s> (fala72) <s> na altura da emergência do tronco celíaco centímetros </s> (fala73) <s> na altura da emergência das artérias renais centímetros </s> (fala74) <s> segmento intermediário entre a emergência das artérias renais e a origem bifurcação das ilíacas centímetros </s> (fala75) <s> imediatamente acima da origem bifurcação das artérias ilíacas centímetros </s> (fala76) <s> angiotomografia computadorizada das artérias carótidas e vertebrais </s> (fala77) <s> segmentos identificados do arco aórtico com aspecto angiotomográfico normal </s> (fala78) <s> a origem dos ramos supra aórticos se faz da maneira anatômica habitual SIL sem sinais de estenoses </s> (fala79) <s> as carótidas comuns apresentam trajeto e calibre usuais SIL sem placas ateromatosas ou espessamentos parietais </s> (fala80) <s> os bulbos carotídeos encontram se pérvios SIL com configuração anatômica e sem placas ateromatosas ou espessamentos parietais </s> (fala81) <s> os segmentos identificados das carótidas internas apresentam trajeto normal e preenchimento adequado pelo meio de contraste SIL sem sinais de dilatações ou áreas de estenoses </s> (fala82) <s> as artérias vertebrais apresentam origem habitual nas artérias subclávias e trajeto anatômico através dos forames transversos SIL não se identificando estenoses ou assimetria de calibre </s> (fala83) <s> angiotomografia computadorizada dos membros inferiores </s> (fala84) 53 <s> avaliação arterial </s> (fala85) <s> membro inferior direito </s> (fala86) <s> artérias femoral e profunda pérvias da coxa SIL de calibre e trajeto habituais SIL sem evidências de estenoses </s> (fala87) <s> segmentos visibilizados das artérias circunflexas sem sinais de alterações </s> (fala88) <s> artéria poplítea pérvia SIL sem evidências de dilatações ou estenoses significativas </s> (fala89) <s> o tronco tibiofibular e seus principais ramos artérias fibular SIL tibial anterior e tibial posterior estão pérvios e não apresentam alterações parietais significantes </s> (fala90) <s> segmentos identificados das artérias dorsal do pé e plantares SIL bem como seus principais ramos SIL sem sinais de alterações </s> (fala91) <s> membro inferior esquerdo </s> (fala92) <s> artérias femoral e profunda pérvias da coxa SIL de calibre e trajeto habituais SIL sem evidências de estenoses </s> (fala93) <s> segmentos visibilizados das artérias circunflexas sem sinais de alterações </s> (fala94) <s> artéria poplítea pérvia SIL sem evidências de dilatações ou estenoses significativas </s> (fala95) <s> o tronco tibiofibular e seus principais ramos artérias fibular SIL tibial anterior e tibial posterior estão pérvios e não apresentam alterações parietais significativas </s> (fala96) <s> segmentos identificados das artérias dorsal do pé e plantares SIL bem como seus principais ramos SIL sem sinais de alterações </s> (fala97) <s> angiotomografia computadorizada dos vasos encefálicos </s> (fala98) <s> segmentos identificados das artérias carótidas internas com trajeto e calibre preservados SIL sem sinais de calcificações ateromatosas ou espessamentos parietais </s> (fala99) <s> porções visibilizadas das artérias carótidas externas apresentando aspecto angiotomográfico usual </s> (fala100) <s> os segmentos identificados das artérias vertebrais e a artéria basilar apresentam se pérvios SIL com trajeto e calibre normais </s> (fala101) <s> segmentos vasculares identificados do círculo arterial do cérebro polígono de willis encontram se pérvios SIL apresentando trajeto e calibre anatômicos </s> (fala102) <s> não se identificam dilatações aneurismáticas ou malformações arteriovenosas </s> (fala103) <s> angiotomografia computadorizada dos vasos hepáticos </s> (fala104) <s> transplante hepático doador </s> (fala105) 54 <s> aspectos gerais </s> (fala106) <s> o fígado apresenta morfologia e dimensões normais SIL observando se impregnação adequada pelo meio de contaste SIL sem sinais de lesões focais </s> (fala107) <s> não há sinais de dilatação das vias biliares intra ou extra hepáticas </s> (fala108) <s> vesícula biliar sem sinais de alterações ao método </s> (fala109) <s> observação analisar criteriosamente todos os demais órgãos e estruturas abdominais incluídos no campo de visão SIL colocando como observação apenas as alterações identificadas </s> (fala110) <s> aspectos vasculares </s> (fala111) <s> tronco celíaco em topografia anatômica SIL com calibre de centímetros SIL dando origem às artérias gástrica esquerda SIL esplênica e hepática comum SIL as quais se apresentam com calibre usual e preenchimento homogêneo pelo meio de contraste </s> (fala112) <s> a artéria hepática comum dá origem às artérias gastroduodenal e gástrica direita SIL originando SIL após esse último ramo SIL a artéria hepática própria </s> (fala113) <s> a artéria hepática própria apresenta calibre de aproximadamente centímetros na sua origem imediatamente após a emergência da artéria gástrica direita e comprimento de cerca de centímetros até sua bifurcação em artérias hepáticas direita e esquerda </s> (fala114) <s> a artéria hepática direita apresenta um preenchimento adequado pelo meio de contraste SIL possuindo um calibre de aproximadamente centímetros próximo à sua origem e uma extensão extra hepática de centímetros </s> (fala115) <s> a artéria hepática esquerda apresenta preenchimento homogêneo pelo meio de contraste SIL possuindo um calibre de aproximadamente centímetros próximo à sua origem e uma extensão extra hepática de centímetros </s> (fala116) <s> não se identificam sinais de suprimento vascular arterial hepático supranumerário ou anômalo caso haja variação vascular SIL utilizar a classificação de michel </s> (fala117) <s> a veia porta encontra se pérvia SIL medindo cerca de centímetros junto à sua origem SIL e estende se por aproximadamente centímetros até sua bifurcação em ramos direito e esquerdo SIL o que ocorre no hilo hepático </s> (fala118) <s> o ramo portal direito irriga os segmentos hepáticos quinto SIL sexto SIL sétimo e oitavo e o ramo esquerdo SIL os segmentos segundo SIL terceiro SIL quarto o segmento primeiro é irrigado parte por ramo portal esquerdo e parte por ramo portal direito SIL e o suprimento arterial se faz de forma semelhante </s> (fala119) 55 <s> presença de três veias supra hepáticas eu desembocam separadamente na veia cava inferior e apresentam calibre anatômico e preenchimento adequado pelo meio de contraste </s> (fala120) <s> a veia hepática direita drena os segmentos sexto e sétimo SIL a veia hepática média SIL os segmentos quarto SIL quinto e oitavo SIL e a veia hepática esquerda SIL o segmentos segundo e terceiro </s> (fala121) <s> a veia cava inferior encontra se prévia e com dimensões preservadas </s> (fala122) <s> angiotomografia computadorizada dos vasos pulmonares </s> (fala123) <s> protocolo de tep </s> (fala124) <s> aspectos vasculares </s> (fala125) <s> tronco da artéria pulmonar e artérias pulmonares principais direita e esquerda apresentando topografia normal e atenuação homogênea pelo meio de contraste </s> (fala126) <s> os ramos segmentares e subsegmentares das artérias pulmonares têm morfologia SIL calibre e atenuações para fluxo preservados </s> (fala127) <s> não se observam estenoses ou dilatações vasculares detectáveis ao método </s> (fala128) <s> o tronco da artéria pulmonar mede cerca de centímetros e a artéria interlobar direita SIL cerca de centímetros </s> (fala129) <s> não há sinais de falhas de enchimento SIL amputação de trajetos vasculares ou de outras características que possam sugerir tromboembolismo pulmonar </s> (fala130) <s> câmaras cardíacas apresentando dimensões preservadas SIL com septo interventricular em posição habitual SIL não se observando imagens que possam sugerir trombo intracardíaco </s> (fala131) <s> aspectos gerais </s> (fala132) <s> os rins apresentam topografia e morfologia anatômicas SIL concentrando e excretando o meio de contraste simétrica e satisfatoriamente </s> (fala133) <s> o rim direito mede cerca de centímetros SIL com volume aproximado de centímetros </s> (fala134) <s> o rim esquerdo mede cerca de centímetros SIL com volume aproximado de centímetros </s> (fala135) <s> sistemas pielocalicinais com morfologia preservada SIL não se observando sinais de hidronefrose ou falhas de repleção na fase excretora </s> (fala136) <s> ureteres únicos bilateralmente SIL sem sinais de dilatação </s> (fala137) <s> bexiga adequadamente distendida SIL sem falhas de repleção </s> (fala138) <s> não há sinais de urolitíase </s> (fala139) 56 <s> glândulas supra renais com dimensões SIL morfologia e topografia habituais </s> (fala140) <s> observação </s> (fala141) <s> caso sejam identificados custos renais SIL descrever sua localização e colocar suas medidas SIL sempre que possível SIL pois eles podem aumentar significativamente de tamanho após o transplante SIL e esse dado será de extrema valia </s> (fala142) <s> analisar criteriosamente todos os demais órgãos e estruturas abdominais e pélvicas incluídos no campo de visão fov SIL colocando como observação apenas as alterações identificadas </s> (fala143) <s> aspectos vasculares </s> (fala144) <s> artérias renais únicas SIL originando se nas regiões laterais da aorta </s> (fala145) <s> a artéria renal direita apresenta um calibre de aproximadamente centímetros na sua origem e de centímetros imediatamente antes de sua ramificação SIL o que ocorre a cerca de centímetros da aorta e centímetros do hilo renal correspondente </s> (fala146) <s> a artéria renal esquerda apresenta um calibre de aproximadamente centímetros na sua origem e de centímetros imediatamente antes de sua ramificação SIL o que ocorre a cerca de centímetros da aorta e centímetros do hilo renal correspondente </s> (fala147) <s> artérias para os segmentos proximais dos ureteres identificadas SIL originando se do segmento polar inferior </s> (fala148) <s> as artérias supra renais inferiores originam se nas faces superiores das artérias renais SIL à direita distando cerca de centímetros da aorta e à esquerda SIL cerca de centímetros </s> (fala149) <s> presença de veias renais únicas SIL desembocando nas faces laterais da veia cava inferior SIL a direita apresentando um comprimento de aproximadamente centímetros desde a confluência de seus ramos até a veia cava inferior e a esquerda SIL cerca de centímetros </s> (fala150) <s> a veia supra renal direita desemboca diretamente na veia cava inferior e a esquerda SIL na face superior da veia renal correspondente </s> (fala151) <s> as veias gonadal e lombar ascendente esquerdas desembocam na face inferior da veia renal ipsilateral SIL apresentando calibre preservado </s> (fala152) <s> articulações </s> (fala153) <s> ombro SIL cotovelo SIL punho SIL quadril SIL joelho SIL tornozelo e sacroilíacas </s> (fala154) <s> cortical e medular óssea de morfologia e densidade normais </s> (fala155) 57 <s> superfícies e espaços articulares íntegros SIL com relações articulares mantidas </s> (fala156) <s> não se observam sinais de derrame articular ou corpos livres intra articulares </s> (fala157) <s> planos musculogordurosos íntegros </s> (fala158) <s> não há sinais de fraturas ou de lesões osteolíticas ou osteoblásticas </s> (fala159) <s> não se observam massas ou coleções nas partes moles avaliadas </s> (fala160) <s> articulações temporomandibulares atm </s> (fala161) <s> côndilos mandibulares SIL eminências temporais e cavidades articulares de morfologia habitual </s> (fala162) <s> cortical e medular ósseas com densidade preservada </s> (fala163) <s> espaços articulares temporomandibulares simétricos e de amplitude conservada ao estudo com boca fechada </s> (fala164) <s> o estudo com a boca aberta demonstra excursão ampla e simétrica dos côndilos mandibulares SIL sem evidências de subluxações </s> (fala165) <s> não há sinais de fraturas ou de lesões osteolíticas ou osteoblásticas </s> (fala166) <s> planos musculogordurosos íntegros </s> (fala167) <s> não se observam massas ou coleções nas partes moles avaliadas </s> (fala168) <s> cavidades paranasais </s> (fala169) <s> cavidade frontal e esfenoidal com pneumatização normal e recessos fronto e esfenoetmoidais livres </s> (fala170) <s> células etmoidais com aeração preservada e septos ósseos intercelulares íntegros </s> (fala171) <s> cavidades maxilares simétricas e com pneumatização adequada SIL sem sinais de sinusopatia associada </s> (fala172) <s> complexos ostiomeatais de aspecto anatômico </s> (fala173) <s> cornetos nasais de morfologia e dimensões normais </s> (fala174) <s> septo nasal íntegro e sem desvio significativo </s> (fala175) <s> fóveas etmoidais simétricas e de boa profundidade </s> (fala176) <s> fossas pterigoplatinais sem alterações </s> (fala177) <s> coluna aérea da rinofaringe de calibre normal </s> (fala178) <s> elementos ósseos avaliados sem alterações relevantes </s> (fala179) <s> colonoscopia virtual </s> (fala180) 58 <s> a progressão retrógrada do meio de contraste ar se processou livremente SIL ocorrendo distensão adequada de todos os segmentos cólicos </s> (fala181) <s> os diversos segmentos cólicos encontram se em topografia habitual SIL com o ceco localizado do flanco fossa ilíaca direitos </s> (fala182) <s> junção ileocólica com topografia e aspecto tomográfico habituais </s> (fala183) <s> apêndice cecal adequadamente visibilizado SIL sem sinais de alterações </s> (fala184) <s> não se observam sinais de espessamentos ou ulcerações parietais SIL lesões estenosantes SIL vegetantes SIL polipóides ou diverticulares nos segmentos cólicos avaliados </s> (fala185) <s> coluna cervical </s> (fala186) <s> densidade óssea preservada </s> (fala187) <s> corpos vertebrais com altura preservada e alinhamento posterior mantido </s> (fala188) <s> discos intervertebrais com morfologia conservada SIL sem sinais de abaulamentos ou hérnias discais </s> (fala189) <s> elementos dos arcos posteriores íntegros </s> (fala190) <s> articulações interapofisárias e uncovertebrais sem alterações </s> (fala191) <s> forames neurais livres </s> (fala192) <s> canal raquidiano de boa amplitude em toda a região estudada </s> (fala193) <s> valores de atenuação do saco tecal de aspecto normal </s> (fala194) <s> não se observam fraturas ou sinais de lesões osteoblásticas ou osteolíticas </s> (fala195) <s> planos musculogordurosos paravertebrais íntegros </s> (fala196) <s> coluna dorsal </s> (fala197) <s> densidade óssea preservada </s> (fala198) <s> corpos vertebrais de altura preservada e alinhamento posterior mantido </s> (fala199) <s> discos intervertebrais com morfologia conservada SIL sem sinais de abaulamentos ou hérnias discais </s> (fala200) <s> elementos dos arcos posteriores íntegros </s> (fala201) <s> interapofisárias sem alterações </s> (fala202) <s> forames neurais livres </s> (fala203) <s> canal raquidiano com boa amplitude em toda a região estudada </s> (fala204) <s> valores de atenuação do saco tecal de aspecto normal </s> (fala205) <s> não se observam fraturas ou sinais de lesões osteoblásticas ou osteolíticas </s> (fala206) <s> planos musculogordurosos paravertebrais íntegros </s> (fala207) <s> coluna lombar </s> (fala208) 59 <s> densidade óssea preservada </s> (fala209) <s> corpos vertebrais de altura preservada e alinhamento posterior mantido </s> (fala210) <s> discos intervertebrais com morfologia conservada SIL sem sinais de abaulamentos ou hérnias discais </s> (fala211) <s> elementos dos arcos posteriores íntegros </s> (fala212) <s> articulações interapofisárias sem alterações </s> (fala213) <s> forames neurais livres </s> (fala214) <s> canal raquidiano com boa amplitude em toda a região estudada </s> (fala215) <s> valores de atenuação do saco tecal de aspecto normal </s> (fala216) <s> não se observam fraturas ou sinais de lesões osteoblásticas ou osteolíticas </s> (fala217) <s> planos musculogordurosos paravertebrais íntegros </s> (fala218) <s> crânio </s> (fala219) <s> pré e pós contraste </s> (fala220) <s> supratentorial </s> (fala221) <s> parênquima cerebral com coeficientes de atenuação preservados </s> (fala222) <s> núcleos da base e regiões capsulares de aspecto anatômico </s> (fala223) <s> ventrículos laterais e terceiro ventrículo de morfologia e calibre normais </s> (fala224) <s> cisternas SIL sulcos e fissuras sem alterações </s> (fala225) <s> não há sinais de desvio das estruturas da linha média </s> (fala226) <s> infratentorial </s> (fala227) <s> parênquima cerebelar e tronco cerebral com morfologia e densidade preservadas </s> (fala228) <s> o quarto ventrículo tem topografia mediana e calibre normal </s> (fala229) <s> cisternas basais sem alterações </s> (fala230) <s> após a administração intravenosa do meio de contraste não houve impregnação anormal (fala231) <s> crânio </s> (fala232) <s> sem contraste </s> (fala233) <s> supratentorial </s> (fala234) <s> parênquima cerebral com coeficientes de atenuação preservados </s> (fala235) <s> núcleos da base e regiões capsulares de aspecto anatômico </s> (fala236) <s> ventrículos laterais e terceiro ventrículo de morfologia e calibre normais </s> (fala237) <s> não há sinais de desvio das estruturas da linha média </s> (fala238) <s> infratentorial </s> (fala239) 60 <s> parênquima cerebelar e tronco com morfologia e densidade preservadas </s> (fala240) <s> o quarto ventrículo tem topografia mediana e calibre normal </s> (fala241) <s> cisternas basais sem alterações </s> (fala242) <s> órbitas </s> (fala243) <s> cavidades orbitárias com dimensões preservadas e paredes ósseas íntegras </s> (fala244) <s> globos oculares de morfologia SIL dimensões e densidade normais </s> (fala245) <s> musculatura retro orbitária e planos gordurosos intra e extraconais sem alterações </s> (fala246) <s> fissuras orbitárias e canais ópticos com amplitudes preservadas </s> (fala247) <s> nervos ópticos sem tajeto SIL densidade e espessura normais </s> (fala248) <s> glândulas lacrimais de topografia SIL dimensões e densidade usuais </s> (fala249) <s> estruturas vasculares regionais de aspecto normal </s> (fala250) <s> não se observam impregnações anômalas pelo meio de contraste somente quando for utilizado contraste quarto </s> (fala251) <s> ossos temporais </s> (fala252) <s> ouvidos e mastóides </s> (fala253) <s> condutos auditivos externos de dimensões e morfologia normais </s> (fala254) <s> membranas timpânicas íntegras e de espessura normal </s> (fala255) <s> cavidades timpânicas e recessos epitimpânicos normoaerados </s> (fala256) <s> paredes laterais dos áticos íntegras </s> (fala257) <s> ossículos auditivos com morfologia SIL densidade e relações articulares preservadas </s> (fala258) <s> janelas ovais e redondas com amplitudes anatômicas </s> (fala259) <s> sáculos SIL utrículos e canais semicirculares com aspecto usual </s> (fala260) <s> cócleas com morfologia anatômica </s> (fala261) <s> aquedutos vestibulares sem alterações ao método </s> (fala262) <s> porções petrosas dos ossos temporais com mineralização habitual para a faixa etária </s> (fala263) <s> condutos auditivos internos simétricos SIL com dimensões normais e cristas falciformes íntegras </s> (fala264) <s> porções visibilizadas dos nervos faciais e vestibulococleares com calibre e trajeto normais </s> (fala265) <s> células e antros das mastóides com aeração normal </s> (fala266) <s> canais carotídeos e bulbos jugulares sem alterações </s> (fala267) 61 <s> não há evidências de lesão expansiva nos ângulos pontocerebelares </s> (fala268) <s> não se observam lesões osteolíticas ou fraturas nos elementos ósseos avaliados </s> (fala269) <s> pelve </s> (fala270) <s> com contaste venoso </s> (fala271) <s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem falhas de repleção ou zonas de compressão extrínseca anormal </s> (fala272) <s> próstata de morfologia SIL volume SIL e densidade usuais somente em homens </s> (fala273) <s> útero de volume SIL morfologia e densidade normais SIL com impregnação habitual pelo meio de contraste somente em mulheres </s> (fala274) <s> ovários apresentando topografia e dimensões preservadas SIL sem sinais de calcificações ou de lesões expansivas sólidas ou císticas associadas somente em mulheres </s> (fala275) <s> segmentos intestinais identificados sem sinais de alterações relevantes detectáveis ao método </s> (fala276) <s> não se observam linfonodomegalias ou líquido livre na escavação pélvica </s> (fala277) <s> estruturas vasculares avaliadas sem alterações </s> (fala278) <s> planos musculogordurosos preservados </s> (fala279) <s> estruturas ósseas regionais íntegras </s> (fala280) <s> pelve </s> (fala281) <s> sem contraste venoso </s> (fala282) <s> bexiga com boa repleção SIL de morfologia e volume normais SIL sem sinais de cálculos radiopacos em seu interior ou espessamentos parietais detectáveis ao método </s> (fala283) <s> próstata de volume e densidade usuais somente em homens </s> (fala284) <s> útero de volume e densidade usuais somente em mulheres </s> (fala285) <s> ovários apresentando topografia e dimensões preservadas SIL sem sinais de calcificações ou de lesões expansivas sólidas ou císticas passíveis de identificação ao método somente em mulheres </s> (fala286) <s> segmentos intestinais avaliados sem sinais de alterações relevantes </s> (fala287) <s> não se observam linfonodomegalias ou líquido livre na escavação pélvica </s> (fala288) <s> planos musculogordurosos preservados </s> (fala289) <s> estruturas ósseas regionais íntegras </s> (fala290) <s> pescoço </s> (fala291) 62 <s> colunas aéreas da nasofaringe SIL orofaringe e laringofaringe hipofaringe com morfologia e calibre normais </s> (fala292) <s> espaços parotídeos SIL mastigadores e carotídeos sem alterações </s> (fala293) <s> cavidade oral SIL base da língua SIL espaços sublingual e submandibular de aspecto normal </s> (fala294) <s> glândulas parótidas SIL submandibulares e tireóide apresentando volume SIL morfologia e densidade usuais </s> (fala295) <s> vasos cervicais de calibre preservado e preenchimento homogêneo pelo meio de contraste somente em exame com contraste quarto </s> (fala296) <s> vasos cervicais de calibre preservado utilizar esta frase em exame sem contraste quarto </s> (fala297) <s> não se observam linfonodomegalias </s> (fala298) <s> espaços paravertebrais cervicais e planos musculogordurosos adjacentes íntegros </s> (fala299) <s> estruturas ósseas de aspecto normal </s> (fala300) <s> rins e vias urinárias </s> (fala301) <s> sem contraste venoso </s> (fala302) <s> rins em topografia anatômica SIL com morfologia e contornos preservados </s> (fala303) <s> o rim direito mede cerca de centímetro com volume aproximado de centímetro cúbico </s> (fala304) <s> o rim esquerdo mede cerca de centímetro SIL com volume aproximado de centímetro cúbico </s> (fala305) <s> cavidades pielocalicinais sem alterações ao método </s> (fala306) <s> ureteres com trajeto e dimensões preservados </s> (fala307) <s> não se observam sinais de urolitíase ou hidronefrose </s> (fala308) <s> bexiga com boa repleção SIL de morfologia normal SIL sem sinais de compressão extrínseca anormal </s> (fala309) <s> rins e vias urinárias </s> (fala310) <s> com contraste venoso </s> (fala311) <s> os rins apresentam topografia e morfologia anatômicas SIL concentrando e excretando o meio de contraste simétrica e satisfatoriamente </s> (fala312) <s> o rim direito mede cerca de centímetro SIL com volume aproximado de centímetro cúbico </s> (fala313) 63 <s> o rim esquerdo mede cerca de centímetro SIL com volume aproximado de centímetro cúbico </s> (fala314) <s> sistemas pielocalicinais com morfologia preservada SIL não se observando sinais de hidronefrose ou falhas de repleção na fase excretora </s> (fala315) <s> ureteres únicos bilateralmente SIL sem sinais de dilatação </s> (fala316) <s> bexiga adequadamente distendida SIL sem falhas de repleção </s> (fala317) <s> não há sinais de urolitíase </s> (fala318) <s> laringe </s> (fala319) <s> coluna aérea da naso e da orofaringe de aspecto usual </s> (fala320) <s> valéculas SIL seios periformes e epiglote sem alterações </s> (fala321) <s> espaços pré epiglótico SIL pré vertebral e regiões paralaringeas de aspecto anatômico </s> (fala322) <s> osso hióde SIL cartilagens tireóide SIL aritenóides e cricóide íntegras </s> (fala323) <s> cordas vocais de espessura e densidade normais SIL apresentando boa mobilidade no estudo dinâmico em fonação </s> (fala324) <s> espaço mucosofaríngeo de espessura e densidade normais SIL com comissura anterior e vestíbulo preservados </s> (fala325) <s> pregas glossoepiglóticas SIL aritenoepiglóticas e faringoepiglóticas simétricas e de espessura normal </s> (fala326) <s> elementos musculares de densidade e espessura normais </s> (fala327) <s> segmentos apendiculares </s> (fala328) <s> mão SIL antebraço SIL braço SIL coxa SIL perna e pé </s> (fala329) <s> cortical e medular óssea íntegras SIL de morfologia e densidade normais </s> (fala330) <s> espaços e relações articulares mantidos </s> (fala331) <s> planos musculogordurosos íntegros </s> (fala332) <s> não há evidência de massas ou coleções em partes moles adjacentes </s> (fala333) <s> não se observam fraturas ou lesões destrutivas ósseas </s> (fala334) <s> joelhos e estudo rotacional dos membros inferiores </s> (fala335) <s> medidas baseadas no protocolo de lyon modoficado </s> (fala336) <s> aspectos gerais </s> (fala337) <s> patelas com densidade e contornos preservados SIL normoposicionada no sulco da tróclea femoral SIL apresentando morfologia do tipo de wiberg </s> (fala338) 64 <s> segmentos ósseos visibilizados do fêmur e da tíbia apresentando cortical e medular ósseas íntegras SIL com morfologia preservada SIL sem sinais de fraturas ou lesões osteoblásticas ou osteolíticas </s> (fala339) <s> espaços articulares femorotibiais e femoropatelares com amplitudes anatômicas </s> (fala340) <s> não há evidências de derrame articular SIL calcificações periarticulares ou corpos livres intra articulares </s> (fala341) <s> planos musculogordurosos íntegros </s> (fala342) <s> ângulos e medidas </s> (fala343) <s> ângulo troclear direito esquerdo </s> (fala344) <s> ângulo de inclinação da vertente externa troclear direito esquerdo </s> (fala345) <s> inclinação troclear direito esquerdo </s> (fala346) <s> ângulo patelofemoral lateral direito esquerdo </s> (fala347) <s> luxação patelar direito esquerdo </s> (fala348) <s> índice patelofemoral direito esquerdo </s> (fala349) <s> razão morfológica da patela direito esquerdo </s> (fala350) <s> altura da patela direito esquerdo </s> (fala351) <s> tuberosidade anterior da tíbia garganta da tróclea direito esquerdo </s> (fala352) <s> ângulo de anteversão femoral direito esquerdo </s> (fala353) <s> ângulo de rotação tibial externa direito esquerdo </s> (fala354) <s> ângulo condilomaleolar direito esquerdo </s> (fala355) <s> ângulo direito esquerdo </s> (fala356) <s> razão troclear lateral medial direito esquerdo </s> (fala357) <s> inclinação patelar </s> (fala358) <s> extensão em repouso direita esquerda </s> (fala359) <s> extensão com contração muscular direita esquerda </s> (fala360) <s> semiflexão quinze graus direita esquerda </s> (fala361) <s> observação positivo lateral e negativo medial </s> (fala362) <s> sela túrcica </s> (fala363) <s> hipófise </s> (fala364) <s> sela túrcica de dimensões anatômicas e paredes ósseas íntegras </s> (fala365) <s> infundíbulo hipofisário e haste hipofisária centrados e de dimensões usuais </s> (fala366) <s> hipófise de volume e densidade normais SIL com impregnação habitual após a administração do meio de contraste </s> (fala367) 65 <s> região hipotalâmica e do quiasma óptico sem alterações </s> (fala368) <s> cisterna supra selar e porções ventriculares individualizadas e de aspecto normal </s> (fala369) <s> seios cavernosos sem alterações </s> (fala370) <s> cavidade esfenoidal normoaerada </s> (fala371) <s> tórax </s> (fala372) <s> protocolo de swensen </s> (fala373) <s> comentários </s> (fala374) <s> nódulo com densidade de partes moles SIL medindo cerca de centímetros SIL com contorno regular SIL lobulado SIL espiculado SIL etcetera SIL localizado no segmento do lobo do pulmão direito SIL esquerdo </s> (fala375) <s> a medida da densidade na fase pré contraste foi de unidade de densidade tomográfica </s> (fala376) <s> foi realizado estudo dinâmico do nódulo após a infusão intravenosa do meio de contraste SIL em que a medida da maior densidade unidade de densidade tomográfica foi obtida aos segundos </s> (fala377) <s> impressão </s> (fala378) <s> caso tenha ocorrido realce significativo </s> (fala379) <s> o nódulo pulmonar avaliado pelo protocolo de swensen possui aspecto incaracterístico SIL levando se em consideração apenas o estudo dinâmico e seu comportamento em relação à impregnação pelo meio de contraste </s> (fala380) <s> caso não tenha ocorrido realce significativo </s> (fala381) <s> de acordo com a avaliação pelo protocolo de swensen SIL a ausência de aumento significativo da densidade após a infusão intravenosa do meio de contraste tem valor preditivo de noventa por cento para benignidade </s> (fala382) <s> tórax </s> (fala383) <s> parênquima pulmonar com volume e coeficientes de atenuação preservados </s> (fala384) <s> o estudo em apnéia expiratória não demonstrou áreas significativas de apriosionamento aéreo somente quando tiver estudo em expiração </s> (fala385) <s> traquéia e brônquios fontes pérvios e de calibre conservado </s> (fala386) <s> hilos de aspecto normal </s> (fala387) <s> estruturas vasculares do mediastino de calibre preservado </s> (fala388) <s> não se observam linfonodomegalias mediastinais ou axilares </s> (fala389) 66 <s> não há evidências de derrame pleural e ou pericárdio </s> (fala390) <s> estruturas ósseas avaliadas de aspecto anatômico </s> (fala391) Apêndice B – Arquivo de dicionário aa áa àa abaulamentos a b a w l a m ee t u s abdome a b d oo m i abdominais a b d o m ii n a j s abdominal a b d o m ii n a w aberta a b e xm t a acima a s ii m a acordo a k o rm d u adequada a d e k w a adequadamente a d e k w a d a m ee ts i adequado a d e k w a d u adjacentes a dz zm a s ee ts i s administração a dz m ii n i s t r a s aa ww aeração a j r a s aa ww aérea a em r e a aéreas a em r e a s aéreo a em r e u alinhamento a l ii jm a m ee t u alterações a w t e r a s oo jj s altura a w t u r a ampla aa p l a amplitude aa p l i t u dz i amplitudes aa p l i t u dz i s amputação aa p u t a s aa ww analisar a n a l i z a xm anatômica a n a t oo m i k a anatômicas a n a t oo m i k a s anatômico a n a t oo m i k u anatômicos a n a t oo m i k u s aneurismáticas a n e w r i z m a ts i k a s angiotomografia aa zm i o t o m o g r a f i a angiotomográfico aa zm i o t o m o g r a f i ko ângulo aa g u l u ângulos aa g u l u s anômalas a n o m a l a s anômalo a n o m a l o anormal a n o rm m a w antebraço aa t e b r a s u anterior aa t e r i o xm antes aa ts i s anteversão aa t e v e xm s aa ww antros aa t r u s ao a w aorta a o xm t a aórtico a o xm ts i k u aórticos a o xm ts i k u s aos a w s apenas a p ee n a s apêndice a p ee dz i s i apendiculares a p ee dz i k u l a r i s apnéia a p n em j a após a p om j s apresenta a p r e z ee t a apresentam a p r e z ee t aa ww apresentando a p r e z ee t aa d u apriosionamento a p r i z i o n a m ee t u aproximadamente a p r o sm ii m a d a m ee ts i aproximado a p r o sm ii m a d u aquedutos a k e d u t u s ar a xm arco a xm k u arcos a xm k u s áreas a r e a s aritenoepiglóticas a r i t ee n u g l om ts i k as aritenóides a r i t ee n om j dz i s 67 artéria a xm t em r i a arterial a xm t e r i a w artérias a xm t em r i a s arterioso a xm t e r i o z u arteriovenosas a xm t e r i o v e n om z a s articulações a xm ts i k u l a s oo jj s articular a xm ts i k u l a xm articulares a xm ts i k u l a r i s às a j s as a j s ascendente a s ee d ee ts i aspecto a s p e k t u aspectos a s p e k t u s assimetria a s ii m e t r i a associada a s o s i a d a associadas a s o s i a d a s até a t em atenuação a t e n u a s aa ww atenuações a t e n u a s oo jj s ateromatosas a t e r o m a t om z a áticos a ts i k u s atm a t m através a t r a v em j s auditivos a w dz i ts i v u s aumentar a uu m ee t a xm aumento a uu m ee t u ausência a w z ee s i a avaliação a v a l i a s aa ww avaliadas a v a l i a d a s avaliado a v a l i a d u avaliados a v a l i a d u s axilares a sm i l a r i s bb baço b a s u basais b a z a j s base b a z i baseadas b a z e a d a s basilar b a z i l a r bem b ee jj benignidade b e n i g n i d a dz i bexiga b e sm i g a bifurcação b i f u xm k a s aa ww bilateralmente b i l a t e r a w m ee ts i biliar b i l i a r biliares b i l i a r i s boa b o a boca b o k a braço b r a s u braquiocefálico b r a k j o s e f a l i k u brônquios b r oo n k j o s bulbos b u w b u s ck calcificações k a w s ii f i k a s oo jj s cálculos k a w k u l u s calibre k a l i b r i câmaras k aa m a r a s campo k aa p u canais k a n a j s canal k a n a w capsulares k a p s u l a r i s características k a r a k t e r i s ts i k a s cardíacas k a rm d i a k a s carótidas k a r om ts i d a s carotídeos k a r om ts i d e u s cartilagens k a xm ts i l a zm ee s caso k a z u cava k a v a cavernosos k a v e rm n o z u s cavidade k a v i d a dz i cavidades k a v i d a dz i s cecal s e k a w ceco s e k o celíaco s e i a k u células s em l u l a s centímetro s ee ts i m e t r u centímetros s ee ts i m e t r u s cento s ee t u centrados s ee t r a d u s cerca s e xm k a cerebelar s e r e b e l a xm cerebral s e r e b r a w cérebro s em r e b r u cervicais s e rm v i k a j s cervical s e rm v i k a w círculo s i xm k u l u circunflexas s i xm k uu f l e k s a s cisterna s i s t e rm n a cisternas s i s t e rm n a s císticas s i z ts i k a s classificação k l a s i f i k a s aa ww cócleas k om k l e a s coeficientes k o e f i s i ee ts i s coleções k o l e s oo jj s cólicos k om l i k u s colocando k o l o k aa d u colocar k o l o k a xm colonoscopia k o l oo n u s k o p i a coluna k o l uu n a colunas k o l uu n a s com k oo 68 comentários k o m ee t a r i u s comissura k o m i s u r a como k oo m u complexos k oo p l e k s u s comportamento k oo p o xm t a m ee t u compressão k oo p r e s aa ww comprimento k oo p r ii m ee t u computadorizada k oo p u t a d o r i z a d a comum k o m uu comuns k o m uu s concentrando k oo s ee t r aa d u condilomaleolar k oo dz i l o m a l e o l a xm côndilos k oo dz i l u s condutos k oo d u t u s configuração k oo f i g u r a s aa ww confluência k oo f l u ee s i a conservada k oo s e rm v a d a conservado k oo s e rm v a d u consideração k oo s i d e r a s aa ww contaste k oo t r a s ts i contorno k oo t o rm n u contornos k oo t o rm n u s contração k oo t r a s aa ww contraste k oo t r a s ts i cordas k o rm d a s cornetos k o rm n e t u s corpos k o xm p u s correspondente k o rm e s p oo d ee ts i cortical k o xm ts i k a w cotovelo k o t o v em l u coxa k o sm a crânio k r aa n i u cricóide k r i k om j dz i cristas k r i s t a s criteriosamente k r i t e r i om z a m ee ts i cúbico k u b i k u custos k u s t u s dd dá d a da d a dado d a d u dando d aa d u das d a j s de dz i demais d e m a j s demonstra d e m oo s t r a demonstrou d e m oo s t r o w densidade d ee s i d a dz i derrame d e rm aa m i descendente d e s ee d ee ts i descrever d e s k r e v e xm desde d e z dz i desemboca d e z ee b o k a desembocam d e z ee b o k aa ww desembocando d e z ee b o k aa d u destrutivas d e s t r u ts i v a s desvio d e z v i u detectáveis d e t e k t a v e j s diafragma dz i a f r a g m a dilatação dz i l a t a s aa ww dilatações dz i l a t a s oo jj s dimensões dz ii m ee s oo jj s dinâmico dz ii n aa m i k u direita dz i r e j t a direito dz i r e j t u direitos dz i r e j t u s diretamente dz i r e t a m ee ts i discais dz i s k a j s discos dz i s k u s dissecção dz i s e k s aa ww distando dz i s t aa d u distendida dz i s t ee dz i d a distensão dz i s t ee s aa ww diversos dz i v e xm s u s diverticulares dz i v e xm ts i k u l a r i s do d u doador d o a d o xm dorsal d o xm s a w dos d u j s drena d r e n a ductal d u k t a w é em ee è em elementos e l e m ee t u s eles e l i s em e m emergência e m e rm g ee s i a eminências e m ii n ee s i a s encefálicos ee s e f a l i k u s enchimento ee sm ii m ee t u encontra ee k oo t r a encontram ee k oo t r aa ww entre ee t r i epiglote e p i g l o ts i epiglótico e p i g l om ts i k u epitimpânicos e p i ts ii p aa n i k u s escavação e s k a v a s aa ww esfenoetmoidais e s f e n o e ts m u j d a j s 69 esfenoidal e s f e n o i d a w espaço e s p a s u espaços e s p a s u s espessamentos e s p e s a m ee t u s espessura e s p e s u r a espiculado e s p i k u l a d u esplênica e s p l ee n i k a esquerda e s k e rm d a esquerdas e s k e rm d a s esquerdo e s k e rm d u esse e s i esta em s t a estão e s t aa ww estende e s t ee dz i estenosantes e s ts e n om z aa t e z i estenoses e s ts e n o z i s estreitamentos e s t r e j t a m ee t u s estruturas e s t r u t u r a s estudada e s t u d a d a estudo e s t u d u etária e t a r i a etcetera e ts s e t e r a etmoidais e ts m o j d a j s eu e w evidência e v i d ee s i a evidências e v i d ee s i a s evidentes e v i d ee ts i s exame e z aa m i excretando e s k r e t aa d u excretora e s k r e t o r a excursão e s k u xm s aa ww expansiva e s p aa s i v a expansivas e s p aa s i v a s expiração e s p i r a s aa ww expiratória e s p i r a t om r i a extensão e s t ee s aa ww externa e s t e rm n a externas e s t e rm n a s externos e s t e rm n u s extra e s t r a extraconais e s t r a k o n a j s extrema e s t r ee m a extrínseca e s t r ii s e k a ff face f a s i faces f a s i s faciais f a s i a j s faixa f a j sm a falciformes f a w c i f o rm m i s falhas f a lm a s faringoepiglóticas f a r ii zm o e p i g l om ts i k a s fase f a z i faz f a j s fechada f e sm a d a femoral f ee m o r a w femoropatelares f ee m o r o p a t ee l a r i s femorotibiais f ee m o r o ts i b i a j s fêmur f ee m u xm fibular f i b u l a xm fígado f i g a d u fissuras f i s u r a s flanco f l aa k u fluxo f l u sm u focais f o k a j s foi f o j fonação f oo n a s aa ww fontes f oo ts i s for f o xm forames f o r a r aa m i s forma f o rm m a fossa f o s a fossas f o s a s fov f o v fóveas f om v e a s frase f r a z i fraturas f r a t u r a s frontal f r oo t a w fronto f r oo t u gg garganta g a rm g aa t a gástrica g a j s t r i k a gastroduodenal g a s t r o d u o d e n a w gerais zm e r a j s glândulas g l aa d u l a s globos g l o b u s glossoepiglóticas g l o s o e p i g l om ts i k as gonadal g o n a d a w gordurosos g o rm d u r o z u s graus g r a w s há a habituais a b i t u a j s habitual a b i t u a w haja a zm a haste a s ts i hepática e p a ts i k a hepáticas e p a ts i k a s hepático e p a ts i k u hepáticos e p a ts i k u s 70 hérnias em rm n i a s hiato i a t u hidronefrose i d r o n e f r o z i hilo i l u hilos i l u s hióde i om dz i hipofaringe i p o f a r ii zm i hipofisária i p o f i z t a r i a hipofisário i p o f i z t a r i u hipófise i p om f i z i hipotalâmica i p o t aa m i k a homens oo m ee s homogênea o m o g ee n e a homogeneamente o m o g ee n e a m ee ts i homogêneo o m o g ee n e u houve o w v i ii íi identificação i d ee ts i f i k a s aa ww identificadas i d ee ts i f i k a d a s identificados i d ee ts i f i k a d u s identificam i d ee ts i f i k aa ww identificando i d ee ts i f i k aa d u ileocólica i l e o k om l i k a ilíaca i l i a k a ilíacas i l i a k a s imagens ii m a zm ee s imediatamente ii m e dz i a t a m ee ts i impregnação ii p r e g n a s aa ww impregnações ii p r e g n a s oo jj s impregnando ii p r e g n aa d u impregnandose ii p r e g n aa d o s e impressão ii p r e s aa ww incaracterístico ii k a r a k t e r i s ts i k u inclinação ii k l ii n a s aa ww incluídos ii k l u i d u s índice ii dz i s i individualizadas ii dz i v i d u a l i z a d a s inferior ii f e r i o xm inferiores ii f e r i o r i s infratentorial ii f r a t ee t o r i a w infundíbulo ii f uu d i b u l u infusão ii f u z aa ww íntegras ii t e g r a s íntegro ii t e g r u íntegros ii t e g r u s interapofisárias ii t e r a p o f i s a r i a s intercelulares ii t e r s e l u l a r i s interior ii t e r i o xm interlobar ii t e r l o b a xm intermediário ii t e rm m e dz i a r i u internas ii t e rm n a s internos ii t e rm n u s interventricular ii t e r v ee t r i k u l a xm intervertebrais ii t e r v e xm t e b r a j s intestinais ii t e s ts ii n a j s intra ii t r a intracardíaco ii t r a k a rm d i a k u intravenosa ii t r a v e n om z a ipsilateral i p s i l a t e r a w irriga i rm i g a irrigado i rm i g a d u j zm janelas zm a n e l a s joelho zm o e lm u joelhos zm o e lm u s jugulares zm u g u l a r i s junção zm uu s aa ww junto zm uu t u kk ll lacrimais l a k r ii m a j s laringe l a r ii zm i laringofaringe l a r ii g o f a r ii zm i laterais l a t e r a j s lateral l a t e r a w lesão l e z aa ww lesões l e z oo jj s levando l e v aa d u ligamento l i g a m ee t u linfonodomegalias l ii f oo n o d o m e g a l ias língua l ii g w a linha l ii jm a líquido l i k j d u s litíase l i ts i a z i livre l i v r i livremente l i v r e m ee ts i livres l i v r i s lobo l o b u lobulado l o b u l a d u localização l o k a l i z a s aa ww localizado l o k a l i z a d u lombar l oo b a xm luxação l u sm a s aa ww lyon w j oo mm maior m a j om xm malformações m a w f o rm m a s oo jj s mandibulares m aa d i b u l a r i s 71 maneira m a n e j r a mantidas m aa ts i d a s mantido m aa ts i d u mantidos m aa ts i d u s mão m aa ww massas m a s a s mastigadores m a s ts i g a d o r i s mastóides m a s t om j dz i s maxilares m a sm i l a r i s mede m e dz i média m em dz i a medial m em dz i a w mediana m e dz i aa n a mediastinais m e dz i a s ts ii n a j s mediastino m e dz i a s ts ii n u medida m e dz i d a medidas m e dz i d a s medindo m e dz ii d u médio m em dz i u medular m e d u l a xm meio m e j u membranas m ee b r aa n a s membro m ee b r u membros m ee b r u s método m em t o d u michel m i sm em w mineralização m ii n e r a l i z a s aa ww mobilidade m o b i l i d a dz i modoficado m o dz i f i k a d u moles m o l i s morfologia m o xm f o l o zm i a morfológica m o xm f o l om zm i k a mucosofaríngeo m u k o z o f a r ii zm e u mulheres m u lm e r i s muscular m u s k u l a xm musculares m u s k u l a r i s musculatura m u s k u l a t u r a musculogordurosos m u s k u l o g o rm d u rozus nn na n a não n a w nas n a s nasais n a z a j s nasal n a z a w naso n a z o nasofaringe n a z o f a r ii zm i negativo n e g a ts i v oo nervos n e rm v u s neurais n e w r a j s no n u nódulo n om d u l u normais n o rm m a j s normal n o rm m a w normoaerada n o rm m o a j r a d a normoaerados n o rm m o a j r a d u s normoposicionada n o rm m o p o z i s i o nada nos n u j s noventa n o v ee t a núcleos n u k l e u s oo ó om observa o b s e rm v a observação o b s e rm v a s aa ww observam o b s e rm v aa ww observando o b s e rm v aa d u obtida o b ts i d a ocorre o k o rm i ocorrendo o k o rm ee d u ocorrido o k o rm i d u oculares o k u l a r i s oitavo o j t a v u ombro oo b r u óptico om p ts i k u ópticos om p ts i k u s oral o r a w orbitária om rm b i t a r i a orbitárias om rm b i t a r i a s órbitas om rm b i t a s órgãos om rm g aa ww s origem o r i zm ee jj originam o r i zm ii n aa ww originando o r i zm ii n aa d u orofaringe o r o f a r ii zm i orta o xm t a os u j s óssea om s e a ósseas om s e a s ósseos om s e u s ossículos o s i k u l u s osso o s u ossos o s u s osteoblásticas o s t e o b l a s ts i k a s osteolíticas o s t e o l i ts i k a s ostiomeatais o s ts i o m a e t a j s ou o w outras o w t r a s ouvidos o w v i d u s ovais o v a j s 72 ovários o v a r i u s pp pâncreas p aa k r e a s para p a r a paralaringeas p a r a l a r ii zm i a s paranasais p a r a n a z a j s paravertebrais p a r a v e xm t e b r a j s paredes p a r e dz i s parênquima p a r ee k ii m a parenquimatosa p a r ee k ii m a t om z a parenquimatosas p a r ee k ii m a t om z a s parietais p a r i e t a i s parótidas p a r om ts i d a s parotídeos p a r om ts i d e u s parte p a xm ts i partes p a xm ts i s passíveis p a s i v e j s patela p a t ee l a patelar p a t ee l a xm patelas p a t ee l a s patelofemoral p a t ee l o f ee m u r a w pé p em pelo p e l u pelve p e l v e pélvica p em w v i k a pélvicas p em w v i k a s periarticulares p e r i a xm ts i k u l a r e z pericárdio p e r i k a rm dz i u periformes p e r i f o rm m i s perna p e rm n a pérvia p em r v i a pérvias p em r v i a s pérvios p em r v i u s pescoço p e s k o s u petrosas p e t r om z a s pielocalicinais p i e l o k a l i s ii n a j s placas p l a k a s plano p l aa n u planos p l aa n u s plantares p l aa t a r i s pleural p l e w r a w pneumatização p n e uu m a ts i z a s aa ww podem p o d ee jj pois p o j s polar p o l a xm polígono p o l i g o n u polipóides p o l ii p om j dz i s pontocerebelares p oo t u s e r e b e l a r i s poplítea p o p l i ts e a por p o xm porções p o xm s oo jj s porta p o xm t a portal p o xm t a w pós p om j s posição p o z i s aa ww positivo p o z i ts i v u possam p o s aa ww possível p o s i v e w possui p o s u j possuindo p o s u ii d u posterior p o s t e r i o xm posteriores p o s t e r i o r i s pré p r em preditivo p r e dz i ts i v u preenchimento p r e ee sm ii m ee t u pregas p r e g a s presença p r e z ee s a preservada p r e z e rm v a d a preservadas p r e z e rm v a d a s preservado p r e z e rm v a d u preservados p r e z e rm v a d u s prévia p r em v i a primeiro p r ii m e j r u principais p r ii s i p a j s processou p r o s e s o w profunda p r o f uu d a profundidade p r o f uu dz i d a dz i progressão p r o g r e s aa ww própria p r om p r i a próstata p r om s t a t a protocolo p r o t o k o l u proximais p r o sm ii m a j s proximal p r o sm ii m a w próximo p r om sm ii m u pterigoplatinais p t e r i g o p l a ts ii n a j s pulmão p u w m aa ww pulmonar p u w m o n a xm pulmonares p u w m o n a r i s punho p uu jm u qk quadril k w a d r i quais k w a j s quando k w aa d u quarto k w a xm t u que k i quiasma k j a s m a quinto k ii t u quinze k ii z i r rm 73 radiopacos rm a dz i o p a k u s raiz rm a j j s ramificação rm a m i f i k a s aa ww ramo rm aa m u ramos rm aa m u s raquidiano rm a k j dz i aa n u razão rm a z aa ww reais rm e a j s realce rm e a w s i realizado rm e a l i z a d u recessos rm e s e s u redondas rm e d oo d a s região rm e zm i aa ww regiões rm e zm i oo jj s regionais rm e zm i o n a j s regular rm e g u l a xm relação rm e l a s aa ww relações rm e l a s oo jj s relevantes rm e l e v aa ts i s renais rm e n a j s renal rm e n a w repleção rm e p l e s aa ww repouso rm e p o w z u retro rm e t r u retrógrada rm e t r om g r a d a rim rm ii rinofaringe rm ii n o f a r ii zm i rins rm ii s rotação rm o t a s aa ww rotacional rm o t a s i o n a w ss saco s a k u sacroilíacas s a k r o i l i a k a s sáculos s em k u l u s satisfatoriamente s a ts i s f a t o r i a m ee ts i se s e segmentares s e g m ee t a xm i s segmento s e g m ee t u segmentos s e g m ee t u s segundo s e g uu d u segundos s e g uu d u s seios s e j u s sejam s e zm aa ww sela s em l a selar s e l a xm sem s ee jj semelhante s e m e lm aa ts i semicirculares s e m i s i xm k u l a r i s semiflexão s e m i f l e k s aa ww sempre s ee p r i separadamente s e p a r a d a m ee ts i septo s e p t u septos s e p t u s será s e r a sétimo s em ts ii m u seu s e w seus s e w s sexto s e s t u significantes s i g n i f i k aa ts i s significativamente s i g n i f i k a ts i v a m ee ts i significativas s i g n i f i k a ts i v a s significativo s i g n i f i k a ts i v u SIL s ii l simétrica s ii m em t r i k a simétricas s ii m em t r i k a s simétricos s ii m em t r i k u s sinais s ii n a j s sinusopatia s ii n u z o p a ts i a sistemas s i s t ee m a s sólidas s om l i d a s somente s o m ee ts i sua s u a suas s u a s subclávias s u b k l a v e a s sublingual s u b l ii g w a w subluxações s u b l u sm a s oo jj s submandibular s u b m aa d i b u l a xm submandibulares s u b m aa d i b u l a r i s subsegmentares s u b s e g m ee t a r i s sugerir s u zm e r i xm sulco s u w k u sulcos s u w k u s superfícies s u p e xm f i s i i s superior s u p e r i o xm superiores s u p e r i o r i s supra s u p r a supranumerário s u p r a n uu m e r a r i u supratentorial s u p r a t ee t o r i a w suprimento s u p r ii m ee t u swensen s w ee s ee tt tajeto t a zm e t u tamanho t a m aa jm u tecal t e k a w tem t ee jj têm t ee jj temporais t ee p o r a j s 74 temporomandibulares t ee p o r o m aa d i bularis tenha t ee jm a tep t e p terceiro t e xm s e j r u terço t e xm s u tíbia ts i b i a tibial ts i b i a w tibiofibular ts i b i o f i b u l a xm timpânicas ts ii p aa n i k a s tipo ts i p u tireóide ts i r e om j dz i tiver ts i v e xm toda t o d a todos t o d u s tomografia t o m o g r a f i a tomográfica t o m o g r a f i k a tomográfico t o m o g r a f i k o topografia t o p o g r a f i a torácico t o r a s i k u tórax t om r a k s tornozelo t o rm n o z em l u total t o t a w trajeto t r a zm e t u trajetos t r a zm e t u s transplante t r aa s p l aa ts i transversos t r aa z v e xm s u s traquéia t r a k em j a três t r e j s tróclea t r om k l e a troclear t r o k l e a xm trombo t r oo b u tromboembolismo t r oo b o ee b o l i z m u tronco t r oo k u tuberosidade t u b e r r o z i d a dz i túrcica t u rm s i k a uu úu ulcerações u w s e r a s oo jj s último u w ts ii m u um uu uma uu m a uncovertebrais uu k o v e xm t e b r a j s únicas u n i k a s únicos u n i k u s unidade uu n i d a dz i ureteres u r e t e r i s uretrais u r e t r a j s urinárias u r ii n a r i a s urolitíase u r o l i ts i a z e usuais u z u a j s usual u z u a w útero u t e r u utilizado u ts i l i z a d u utilizar u ts i l i z a xm utrículos u t r i k u l u s vv valéculas v a l em k u l a s valia v a l i a valor v a l o xm valores v a l o r i s valvar v a w v a xm variação v a r i a s aa ww vascular v a s k u l a xm vasculares v a s k u l a r i s vasos v a z u s vegetantes v e zm e t aa ts i s veia v e j a veias v e j a s venoso v e n o z u ventriculares v ee t r i k u l a r i s ventrículo v ee t r i k u l u ventrículos v ee t r i k u l u s vertebrais v e xm t e b r a j s vertebral v e xm t e b r a w vertente v e xm t ee ts i vesícula v e z i k u l a vestibulares v e s ts i b u l a r i s vestíbulo v e s ts i b u l u vestibulococleares v e s ts i b u l o k o k l e aris via v i a vias v i a s virtual v i xm t u a w visão v i z aa ww visibilizadas v i z i b i l i z a d a s visibilizado v i z i b i l i z a d u visibilizados v i z i b i l i z a d u s vocais v o k a j s volume v o l uu m i ww wiberg w i b e b e rm g willis w i w l i z x sm zz zonas z oo n a s 75 Apêndice C – Arquivo de configuração do Sphinx # Configuration script for Sphinx trainer $CFG_VERBOSE = 1; -*-mode:Perl-*- # Determines how much goes to the screen. # These are filled in at configuration time $CFG_DB_NAME = "db"; # Experiment name, will be used to name model files and log files $CFG_EXPTNAME = "$CFG_DB_NAME"; # Directory containing SphinxTrain binaries $CFG_BASE_DIR = "/home/lorena/astout"; $CFG_SPHINXTRAIN_DIR = "/usr/local/lib/Sphinxtrain"; $CFG_BIN_DIR = "/usr/local/libexec/Sphinxtrain"; $CFG_SCRIPT_DIR = "/usr/local/lib/Sphinxtrain/scripts"; # Audio waveform and feature file information $CFG_WAVFILES_DIR = "$CFG_BASE_DIR/wav"; $CFG_WAVFILE_EXTENSION = 'wav'; $CFG_WAVFILE_TYPE = 'mswav'; # one of nist, mswav, raw $CFG_FEATFILES_DIR = "$CFG_BASE_DIR/feat"; $CFG_FEATFILE_EXTENSION = 'mfc'; # Feature extraction parameters $CFG_WAVFILE_SRATE = 16000.0; $CFG_NUM_FILT = 25; # For wideband speech it's 25, for telephone 8khz reasonable value is 15 $CFG_LO_FILT = 130; # For telephone 8kHz speech value is 200 $CFG_HI_FILT = 6800; # For telephone 8kHz speech value is 3500 $CFG_TRANSFORM = "dct"; # Previously legacy transform is used, but dct is more accurate $CFG_LIFTER = "22"; # Cepstrum lifter is smoothing to improve recognition $CFG_VECTOR_LENGTH = 13; # 13 is usually enough $CFG_MIN_ITERATIONS = 1; # BW Iterate at least this many times 76 $CFG_MAX_ITERATIONS = 10; # BW Don't iterate more than this, somethings likely wrong. # (none/max) Type of AGC to apply to input files $CFG_AGC = 'none'; # (current/none) Type of cepstral mean subtraction/normalization # to apply to input files $CFG_CMN = 'current'; # (yes/no) Normalize variance of input files to 1.0 $CFG_VARNORM = 'no'; # (yes/no) Train full covariance matrices $CFG_FULLVAR = 'no'; # (yes/no) Use diagonals only of full covariance matrices for # Forward-Backward evaluation (recommended if CFG_FULLVAR is yes) $CFG_DIAGFULL = 'no'; # (yes/no) Perform vocal tract length normalization in training. This # will result in a "normalized" model which requires VTLN to be done # during decoding as well. $CFG_VTLN = 'no'; # Starting warp factor for VTLN $CFG_VTLN_START = 0.80; # Ending warp factor for VTLN $CFG_VTLN_END = 1.40; # Step size of warping factors $CFG_VTLN_STEP = 0.05; # Directory to write queue manager logs to $CFG_QMGR_DIR = "$CFG_BASE_DIR/qmanager"; # Directory to write training logs to $CFG_LOG_DIR = "$CFG_BASE_DIR/logdir"; # Directory for re-estimation counts $CFG_BWACCUM_DIR = "$CFG_BASE_DIR/bwaccumdir"; # Directory to write model parameter files to $CFG_MODEL_DIR = "$CFG_BASE_DIR/model_parameters"; # Directory containing transcripts and control files for # speaker-adaptive training $CFG_LIST_DIR = "$CFG_BASE_DIR/etc"; # Decoding variables for MMIE training $CFG_LANGUAGEWEIGHT = "11.5"; $CFG_BEAMWIDTH = "1e-100"; $CFG_WORDBEAM = "1e-80"; $CFG_LANGUAGEMODEL = "$CFG_LIST_DIR/$CFG_DB_NAME.lm.DMP"; $CFG_WORDPENALTY = "0.2"; # Lattice pruning variables $CFG_ABEAM = "1e-50"; $CFG_NBEAM = "1e-10"; 77 $CFG_PRUNED_DENLAT_DIR = "$CFG_BASE_DIR/pruned_denlat"; # MMIE training related variables $CFG_MMIE = "no"; $CFG_MMIE_MAX_ITERATIONS = 5; $CFG_LATTICE_DIR = "$CFG_BASE_DIR/lattice"; $CFG_MMIE_TYPE = "rand"; # Valid values are "rand", "best" or "ci" $CFG_MMIE_CONSTE = "3.0"; $CFG_NUMLAT_DIR = "$CFG_BASE_DIR/numlat"; $CFG_DENLAT_DIR = "$CFG_BASE_DIR/denlat"; # Variables used in main training of models $CFG_DICTIONARY = "$CFG_LIST_DIR/$CFG_DB_NAME.dic"; $CFG_RAWPHONEFILE = "$CFG_LIST_DIR/$CFG_DB_NAME.phone"; $CFG_FILLERDICT = "$CFG_LIST_DIR/$CFG_DB_NAME.filler"; $CFG_LISTOFFILES = "$CFG_LIST_DIR/${CFG_DB_NAME}_train.fileids"; $CFG_TRANSCRIPTFILE = "$CFG_LIST_DIR/${CFG_DB_NAME}_train.transcription"; $CFG_FEATPARAMS = "$CFG_LIST_DIR/feat.params"; # Variables used in characterizing models $CFG_HMM_TYPE = '.cont.'; # Sphinx 4, PocketSphinx #$CFG_HMM_TYPE = '.semi.'; # PocketSphinx #$CFG_HMM_TYPE = '.ptm.'; # PocketSphinx (larger data sets) if (($CFG_HMM_TYPE ne ".semi.") and ($CFG_HMM_TYPE ne ".ptm.") and ($CFG_HMM_TYPE ne ".cont.")) { die "Please choose one CFG_HMM_TYPE out of '.cont.', '.ptm.', or '.semi.', " . "currently $CFG_HMM_TYPE\n"; } # This configuration is fastest and best for most acoustic models in # PocketSphinx and Sphinx-III. See below for Sphinx-II. $CFG_STATESPERHMM = 3; $CFG_SKIPSTATE = 'no'; if ($CFG_HMM_TYPE eq '.semi.') { $CFG_DIRLABEL = 'semi'; # Four stream features for PocketSphinx $CFG_FEATURE = "s2_4x"; $CFG_NUM_STREAMS = 4; $CFG_INITIAL_NUM_DENSITIES = 256; $CFG_FINAL_NUM_DENSITIES = 256; die "For semi continuous models, the initial and final models have the same density" if ($CFG_INITIAL_NUM_DENSITIES != $CFG_FINAL_NUM_DENSITIES); } elsif ($CFG_HMM_TYPE eq '.ptm.') { $CFG_DIRLABEL = 'ptm'; # Four stream features for PocketSphinx $CFG_FEATURE = "s2_4x"; 78 $CFG_NUM_STREAMS = 4; $CFG_INITIAL_NUM_DENSITIES = 64; $CFG_FINAL_NUM_DENSITIES = 64; die "For phonetically tied models, the initial and final models have the same density" if ($CFG_INITIAL_NUM_DENSITIES != $CFG_FINAL_NUM_DENSITIES); } elsif ($CFG_HMM_TYPE eq '.cont.') { $CFG_DIRLABEL = 'cont'; # Single stream features - Sphinx 3 $CFG_FEATURE = "1s_c_d_dd"; $CFG_NUM_STREAMS = 1; $CFG_INITIAL_NUM_DENSITIES = 1; $CFG_FINAL_NUM_DENSITIES = 8; die "The initial has to be less than the final number of densities" if ($CFG_INITIAL_NUM_DENSITIES > $CFG_FINAL_NUM_DENSITIES); } # Number of top gaussians to score a frame. A little bit less accurate computations # make training significantly faster. Uncomment to apply this during the training # For good accuracy make sure you are using the same setting in decoder # In theory this can be different for various training stages. For example 4 for # CI stage and 16 for CD stage # $CFG_CI_TOPN = 4; # $CFG_CD_TOPN = 16; # (yes/no) Train multiple-gaussian context-independent models (useful # for alignment, use 'no' otherwise) in the models created # specifically for forced alignment $CFG_FALIGN_CI_MGAU = 'no'; # (yes/no) Train multiple-gaussian context-independent models (useful # for alignment, use 'no' otherwise) $CFG_CI_MGAU = 'no'; # (yes/no) Train context-dependent models $CFG_CD_TRAIN = 'yes'; # Number of tied states (senones) to create in decision-tree clustering $CFG_N_TIED_STATES = 400; # How many parts to run Forward-Backward estimatinon in $CFG_NPART = 1; # (yes/no) Train a single decision tree for all phones (actually one # per state) (useful for grapheme-based models, use 'no' otherwise) $CFG_CROSS_PHONE_TREES = 'no'; # Use force-aligned transcripts (if available) as input to training $CFG_FORCEDALIGN = 'no'; # Use a specific set of models for force alignment. If not defined, # context-independent models for the current experiment will be used. $CFG_FORCE_ALIGN_MODELDIR = "$CFG_MODEL_DIR/$CFG_EXPTNAME.falign_ci_$CFG_DIRLABEL"; 79 # Use a specific dictionary and filler dictionary for force alignment. # If these are not defined, a dictionary and filler dictionary will be # created from $CFG_DICTIONARY and $CFG_FILLERDICT, with noise words # removed from the filler dictionary and added to the dictionary (this # is because the force alignment is not very good at inserting them) # $CFG_FORCE_ALIGN_DICTIONARY = "$ST::CFG_BASE_DIR/falignout$ST::CFG_EXPTNAME.falign.dict";; # $CFG_FORCE_ALIGN_FILLERDICT = "$ST::CFG_BASE_DIR/falignout/$ST::CFG_EXPTNAME.falign.fdict";; # Use a particular beam width for force alignment. The wider # (i.e. smaller numerically) the beam, the fewer sentences will be # rejected for bad alignment. $CFG_FORCE_ALIGN_BEAM = 1e-60; # Calculate an LDA/MLLT transform? $CFG_LDA_MLLT = 'no'; # Dimensionality of LDA/MLLT output $CFG_LDA_DIMENSION = 29; # This is actually just a difference in log space (it doesn't make # sense otherwise, because different feature parameters have very # different likelihoods) $CFG_CONVERGENCE_RATIO = 0.1; # Queue::POSIX for multiple CPUs on a local machine # Queue::PBS to use a PBS/TORQUE queue $CFG_QUEUE_TYPE = "Queue"; # Name of queue to use for PBS/TORQUE $CFG_QUEUE_NAME = "workq"; # (yes/no) Build questions for decision tree clustering automatically $CFG_MAKE_QUESTS = "yes"; # If CFG_MAKE_QUESTS is yes, questions are written to this file. # If CFG_MAKE_QUESTS is no, questions are read from this file. $CFG_QUESTION_SET = "${CFG_BASE_DIR}/model_architecture/${CFG_EXPTNAME}.tree_questions"; #$CFG_QUESTION_SET = "${CFG_BASE_DIR}/linguistic_questions"; $CFG_CP_OPERATION = "${CFG_BASE_DIR}/model_architecture/${CFG_EXPTNAME}.cpmeanvar"; # Configuration for grapheme-to-phoneme model $CFG_G2P_MODEL= 'no'; # Configuration script for Sphinx decoder # Variables starting with $DEC_CFG_ refer to decoder specific 80 # arguments, those starting with $CFG_ refer to trainer arguments, # some of them also used by the decoder. $DEC_CFG_VERBOSE = 1; # Determines how much goes to the screen. # These are filled in at configuration time # Name of the decoding script to use (psdecode.pl or s3decode.pl, probably) $DEC_CFG_SCRIPT = 'psdecode.pl'; $DEC_CFG_EXPTNAME = "$CFG_EXPTNAME"; $DEC_CFG_JOBNAME = "$CFG_EXPTNAME"."_job"; # Models to use. $DEC_CFG_MODEL_NAME = "$CFG_EXPTNAME.cd_${CFG_DIRLABEL}_${CFG_N_TIED_STATES}"; $DEC_CFG_FEATFILES_DIR = "$CFG_BASE_DIR/feat"; $DEC_CFG_FEATFILE_EXTENSION = '.mfc'; $DEC_CFG_AGC = $CFG_AGC; $DEC_CFG_CMN = $CFG_CMN; $DEC_CFG_VARNORM = $CFG_VARNORM; $DEC_CFG_QMGR_DIR = "$CFG_BASE_DIR/qmanager"; $DEC_CFG_LOG_DIR = "$CFG_BASE_DIR/logdir"; $DEC_CFG_MODEL_DIR = "$CFG_MODEL_DIR"; $DEC_CFG_DICTIONARY = "$CFG_BASE_DIR/etc/$CFG_DB_NAME.dic"; $DEC_CFG_FILLERDICT = "$CFG_BASE_DIR/etc/$CFG_DB_NAME.filler"; $DEC_CFG_LISTOFFILES = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}_test.fileids"; $DEC_CFG_TRANSCRIPTFILE = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}_test.transcription"; $DEC_CFG_RESULT_DIR = "$CFG_BASE_DIR/result"; $DEC_CFG_PRESULT_DIR = "$CFG_BASE_DIR/presult"; # This variables, used by the decoder, have to be user defined, and # may affect the decoder output $DEC_CFG_LANGUAGEMODEL = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}.lm.DMP"; # Or can be JSGF or FSG too, used if uncommented # $DEC_CFG_GRAMMAR = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}.jsgf"; # $DEC_CFG_FSG = "$CFG_BASE_DIR/etc/${CFG_DB_NAME}.fsg"; $DEC_CFG_LANGUAGEWEIGHT = "10"; $DEC_CFG_BEAMWIDTH = "1e-80"; $DEC_CFG_WORDBEAM = "1e-40"; $DEC_CFG_ALIGN = "builtin"; 81 $DEC_CFG_NPART = 1; # Define how many pieces to split decode in # This variable has to be defined, otherwise utils.pl will not load. $CFG_DONE = 1; return 1;