Lista L2 - pablo faria
Transcrição
Lista L2 - pablo faria
HL377–LinguísticaComputacional–2016/1 Docente:PabloFaria LISTADEEXERCÍCIOSL2 Disponibilizada:23/04/2016 Entrega:até07/05/2016 Os exercícios abaixo envolve especialmente a prática da linguagem Python e da bibliotecaNLTKdentrodointerpretadorPython(oambientequeacessamosquando abrimosoterminalouPromptdeComandoedigitamos“python”).Paratodoseles, vocêteráqueusarointerpretadorparatestarouexecutaroscomandos.Lembre-se deimportarosdadosnecessáriosusandoocomando“fromnltk.bookimport*”logo no início da sua sessão. Este comando também deverá estar no início do arquivo indicadonoitem(2)abaixo.Entregadosexercíciosemarquivos(poremail). 1. Questõesdissertativas,arespondernumarquivoDOCdenome“L2_SEURA.doc”: a. Deacordocom“ElementosdeEstilo”deStrunkeWhite,apalavra “however”,usadanoiníciodeumasentença,significa“dealgum modo”ou“emalgumamedida”,enão“noentanto”.Elesdãoeste exemplodeusocorreto:“Howeveryouadvisehim,hewill probablydoashethinksbest”(“Comoquerquevocêoaconselhe, eleprovavelmentefaráoqueachamelhor”).(ver http://www.bartleby.com/141/strunk3.html)Useaferramentade “concordância”paraestudarousodefatodessapalavranosvários contextosqueviemosconsiderandoaqui.Vejaaindaotexto “Fossilizedprejudicesabout‘however’”doLanguageLogem http://itre.cis.upenn.edu/~myl/languagelog/archives/001913.html. b. Escolhaumpardetextoseestudeasdiferençasentreelesem termosdevocabulário,riquezalexical,gênero,etc.Vocêpoderia encontrarparesdepalavrasquepossuemsignificadosbem distintosnosdoistextos,talcomo“monstrous”emMobyDicke emSenseandSensibility? c. LeiaoartigodoNoticiáriodaBBC:“UK’sVickyPollards‘left behind’”emhttp://www.pablofaria.com.br/?p=457(traduçãolivre). Oartigoofereceaseguinteestatísticasobrealinguagem 1 adolescente:“as20palavrasmaisfrequentes,incluindo‘yeah,no, but’e‘like’,constituememtornodeumterçodetodasas palavras.”Quantostiposdepalavrasconstituemumterçodetodas aspalavras,quandoseconsideramtextosdeoutrasfontes?Oque vocêconcluiapartirdessasestatísticas?Leimaissobreissono LanguageLog,emhttp://itre.cis.upenn.edu/~myl/ languagelog/archives/003993.html. d. Investigueatabeladedistribuiçãodemodaiseprocureporoutros padrões.Tenteexplica-losemtermosdesuaprópriacompreensão impressionísticasobreosdiferentesgêneros.Vocêpodeencontrar outrasclassesfechadasdepalavrasqueexibemdiferenças significativasentrediferentesgêneros?(dica:primeirogerea distribuiçãodefrequênciadovocabulárioparacadagêneroedê umaolhadageralnasfrequênciasembuscadepistas) e. Escrevaumprogramaparagerarumatabeladamedidade diversidadelexical(i.e.,razõestoken/tipo),comovimosnaTabela11(http://www.nltk.org/book/ch01.html).Incluatodooconjuntode gênerosdoCorpusBrown(nltk.corpus.brown.categories()).Qual gêneropossuiadiversidademaisbaixa?Éoquevocêesperaria? f. Escrevaumafunçãoparacriarumatabeladefrequênciasde palavraporgênero,comoaquelaobtidanaSeção2.1paramodais. Escolhasuasprópriaspalavrasetenteencontraraquelascuja presença(ouausência)sejatípicadogênero.Discutaseus achados. g. Useumadasmedidaspredefinidasdesimilaridadeparacalculara similaridadedecadaumdosparesdepalavrasaseguir.Ranqueie osparesporordemdecrescentedesimilaridade.Quãopróximoé seurankingdaordemdadaaqui,estabelecidaexperimentalmente porMiller&Charles(1998):car-automobile,gem-jewel,journeyvoyage,boy-lad,coast-shore,asylum-madhouse,magician-wizard, midday-noon,furnace-stove,food-fruit,bird-cock,bird-crane,toolimplement,brother-monk,lad-brother,crane-implement,journeycar,monk-oracle,cemetery-woodland,food-rooster,coast-hill, forest-graveyard,shore-woodland,monk-slave,coast-forest,ladwizard,chord-smile,glass-magician,rooster-voyage,noon-string? 2. Paraasquestõesabaixo,crieumarquivodenome“L2_SEU-RA.py”eem cadalinhainformeapenasasexpressõesemPythoncorrespondentesa cadaexercício(nãoosresultados),umaporlinha.Adicaé:primeirotestea 2 expressãonointerpretadordoPythonparadepoissalvarelanoseu arquivo.Nocasedeexpressõesqueproduzemresultados(comoasdos exercíciosa,b,etc.),preceda-ascomocomando‘print’. a. DefinaumadistribuiçãodefrequênciacondicionalsobreoCorpus Namesquetepermitaverquaisletrasiniciaissãomaisfrequentes paranomesmasculinosversusfemininos(verFigura4.4em http://www.nltk.org/book/ch02.html). b. ODicionáriodePronúnciaCMUcontémmúltiplaspronúnciaspara certaspalavras.Quantaspalavrasdistintaselecontém?Quala fraçãodepalavrasnestedicionárioquepossuemmaisdeuma pronúnciapossível? c. Qualopercentualdesynsetsdesubstantivosquenãopossuem hipônimos?Vocêpodeobtertodosossynsetsdesubstantivos usandoocomando:wn.all_synsets('n'). d. Definaumafunçãochamada“supergloss(s)”querecebaumsynset comoparâmetroeretorneumastringconsistindodaconcatenação dadefiniçãodesedasdefiniçõesdetodososhiperônimose hipônimosdes. e. Escrevaumprogramaqueencontretodasaspalavrasqueocorrem pelomenostrêsvezesnoCorpusBrown. f. Escrevaumafunçãoqueencontreas50palavrasmaisfrequentes emumtextoquenãosejam“stopwords”(ver http://www.agenciamestre.com/seo/stop-words-como-funcionampalavras-de-parada/). g. Escrevaumafunçãoqueexibaos50bigramas(paresdepalavras adjacentes)maisfrequentesdeumtexto,omitindobigramasque contenham“stopwords”. h. Escrevaumafunçãoword_freq()querecebaumapalavraeonome deumaseçãodoCorpusBrowncomoparâmetros(ouargumentos) ecomputeafrequênciadapalavranarespectivaseçãodocorpus. i. Escrevaumafunçãoquetenteinformaronúmerodesílabas contidasemumtexto,fazendousodoDicionáriodePronúncia CMU.(dica:ignoreaspalavrasdotextonãoexistentesno dicionário) j. Definaumafunçãohedge(text)queprocesseumtextoeproduza umanovaversãodotextocomapalavra‘like’inseridaentrecada trêspalavras. 3 k. Definaumafunçãofind_language()querecebaumastringcomo seuargumentoeretornealistadelínguasquetemessastring comoumapalavradalíngua.Useocorpusudhrelimitesuasbuscas aarquivoscomcodificaçãoLatin-1. l. Qualéofatorderamificaçãoparaahierarquiadehiperônimosde substantivos?Istoé,paracadasynsetdesubstantivoquepossui hipônimos–oudescendentenahierarquiadehiperônimos– quantoselespossuememmédia?Vocêpodeobtertodosos synsetsdesubstantivosusandown.all_synsets('n'). m. Apolissemiadeumapalavraéonúmerodesentidosqueelapossui. UsandoaWordNet,podemosdeterminarqueosubstantivo“dog” possuisetesentidosusandolen(wn.synsets(‘dog’,‘n’)).Computea polissemiamédiadenomes,verbos,adjetivoseadvérbiosde acordocomaWordNet. 4