Textos Balizados

Transcrição

Textos Balizados
 Textos Balizados Textos balizados são textos organizados de forma semelhante e sequencial. Por exemplo: possuindo um conjunto de mensagens eletrônicas gravadas em formato texto, este conjunto é naturalmente organizado por sinais (balizas) que indicam as diferentes partes do texto – o título da mensagem, a data, o corpo da mensagem, o destinatário, etc. Cada uma dessas partes do texto está ligada a uma baliza, a partir da qual o sistema poderá organizar a nova base de dados: ele identificará as balizas no texto e vai apresentá‐las ao usuário para sua validação. Em seguida, o sistema vai criar uma variável por baliza, e percorrerá o texto copiando o conteúdo que segue uma baliza como respostas de sua variável correspondente. Existirão tantas variáveis quantas forem as balizas que tiverem sido definidas, e tantas observações quantas forem as repetições da baliza no texto (linhas). Uma observação é definida como o conjunto das balizas (variáveis). No momento que uma nova baliza for repetida, será criada uma nova observação, ou seja, a repetição de uma baliza marca a passagem à observação seguinte. A cada baliza corresponde uma variável da tabela (coluna). Para as balizas ausentes, a variável recebe a indicação de “não‐resposta” ou retoma o valor precedente, conforme opção definida. Ao final da leitura, o sistema exibirá a lista das variáveis e indicará um tipo de variável por padrão, a qual pode ser modificada pelo usuário, indicando a mais apropriada. No exemplo descrito, o texto está automaticamente organizado, pois as balizas são os campos que se repetem (entrevistado, sexo, idade, etc). Uma baliza é cercada por caracteres que permitem dizer onde a baliza começa, e onde a baliza termina. Tendo selecionado a opção Os textos são balizados, uma tela será apresentada, propondo‐lhe verificar e validar os caracteres que permitirão definir as balizas. Para tal, preencher a casa As balizas começam por, e também a casa As balizas terminam por. As opções apresentadas por padrão são o “^p” que corresponde ao “<enter>” ou ao salto de linha, e os dois pontos (:) para indicar o final da baliza – mas também podem ser utilizadas outras balizas. Os caracteres brancos são ignorados. O sistema explora os dados e define a lista de todo o texto que ele encontrar entre os 2 caracteres delimitadores. Os “:” que podem por acaso ser apresentados no próprio contexto do texto são fontes de erro que deverão ser ignorados. Em seguida, após clicar em OK, uma tela será apresentada exibindo a lista de balizas que foram identificadas. Nesta tela, é possível indicar os elementos que deverão ser considerados como balizas, e também aqueles que devem ser ignorados. Nesta tela acima ilustrada, é possível passar de item a item (linhas apresentadas) definindo se o mesmo será considerado ou não como uma baliza. O x da coluna 1 disposta na frente do item indica se o mesmo será ou não considerado como uma baliza. No exemplo acima, os itens “Entrevistado”, “Sexo”, “Idade”, “Profissão” e “Parte” não serão considerados como uma baliza, ou seja, não serão considerados como uma nova variável (questão). Uma definição inicial é proposta pelo sistema, mas o usário pode (e deve) passar item a item (clicando sobre a linha correspondente), definindo as configurações de cada uma das linhas. As configurações possíveis são: 



Não considerar esta cadeia de caracteres como uma baliza: indicada a partir de um x na “coluna 1” disposta na frente do item, permite definir se a linha será ou não considerada como uma variável (baliza). Se esta baliza estiver ausente, conservar o valor anterior: indicada a partir de um x na “coluna 2” disposta na frente do item, permite tratar casos onde, por exemplo, a variável não se repete para todas as observações. Por exemplo, alguns emails possuem o campo CC, outros não. Pode‐se então escolher se, nos casos onde a variável (baliza) não existir, se o sistema deve considerar o valor anterior da mesma variável. No nosso exemplo, o campo “Date” está assim definido, ou seja, se uma observação não tiver a data definida, o sistema vai considerar a data anterior. Ao passar esta baliza, iniciar sempre uma nova observação: indicada a partir de um x na “coluna 3” disposta na frente do item, permite especificar a “última variável” da lista de variáveis, ou seja, se desejarmos forçar que o questionário termine após tal variável, basta selecionar esta opção para a linha correspondente. Ao passar esta baliza, reinicializar todas as outras: indicada a partir de um x na “coluna 4” disposta na frente do item, permite zerar os valores das variáveis, ou seja, o sistema não vai guardar os valores das variáveis da observação anterior (o que por vezes é útil, como nos casos de desejar marcar a coluna 2, conservando o valor anterior). Pode‐se também, nesta mesma tela, numerar os elementos, criar partes e também forçar ou não que o sistema guarde a ordem das balizas como ordem do questionário. O Sphinx irá propor um conjunto de opções automáticas a partir do texto analisado. As opções serão classificadas como “entrevistas semi‐diretivas”, “extraído de base textual” ou “outro texto”. Estas opções simplesmente apresentam um conjunto de marcações diferentes entre as 4 opções de configurações dos itens acima já apresentados, sem interferir no reconhecimento das balizas. De fato, cabe ao usuário passar de baliza a baliza verificando as configurações e especificando casos especiais. Confirmando a identificação automática das variáveis: uma vez que o sistema tiver reconhecido as balizas a partir das configurações indicadas, ele apresentará uma tela contendo: [1] as questões/variáveis (balizas), as quais foram definidas na tela anterior a partir da não marcação de um x na primeira coluna equivalente ao item. Ou seja, os itens que tiverem sido marcados com um x na primeira coluna, não serão considerados como variáveis; [2] os valores/textos/categorias de cada uma das variáveis identificadas. Clicando sobre cada uma das variáveis, o sistema apresenta os valores reconhecidos. Nos casos de variáveis tipo texto, o sistema não os apresentará aqui nesta tela de verificação em função de que muitas vezes os textos são muito extensos; [3] o tipo da variável, o qual pode ser alterado; [4] o nome dado a variável, o qual pode ser alterado. Verifique cada uma das variáveis, seu conteúdo, tipo e nome, alterando o que for necessário. Em seguida, clique em OK e salve a seu novo diretório Sphinx que será criado com base nas configurações e escolhas especificadas. Estando salvo o seu novo diretório, o Sphinx abrirá o novo arquivo posicionando‐se diretamente no estágio de “Estudo de Textos”. Desejando, acesse os estágios do Questionário, Respostas ou Tratamentos para verificar, respectivamente, a lista de questões, as respostas e as tabulações. 

Documentos relacionados