Lista L2 - pablo faria

Transcrição

Lista L2 - pablo faria
HL377–LinguísticaComputacional–2016/1
Docente:PabloFaria
LISTADEEXERCÍCIOSL2
Disponibilizada:23/04/2016
Entrega:até07/05/2016
Os exercícios abaixo envolve especialmente a prática da linguagem Python e da
bibliotecaNLTKdentrodointerpretadorPython(oambientequeacessamosquando
abrimosoterminalouPromptdeComandoedigitamos“python”).Paratodoseles,
vocêteráqueusarointerpretadorparatestarouexecutaroscomandos.Lembre-se
deimportarosdadosnecessáriosusandoocomando“fromnltk.bookimport*”logo
no início da sua sessão. Este comando também deverá estar no início do arquivo
indicadonoitem(2)abaixo.Entregadosexercíciosemarquivos(poremail).
1. Questõesdissertativas,arespondernumarquivoDOCdenome“L2_SEURA.doc”:
a. Deacordocom“ElementosdeEstilo”deStrunkeWhite,apalavra
“however”,usadanoiníciodeumasentença,significa“dealgum
modo”ou“emalgumamedida”,enão“noentanto”.Elesdãoeste
exemplodeusocorreto:“Howeveryouadvisehim,hewill
probablydoashethinksbest”(“Comoquerquevocêoaconselhe,
eleprovavelmentefaráoqueachamelhor”).(ver
http://www.bartleby.com/141/strunk3.html)Useaferramentade
“concordância”paraestudarousodefatodessapalavranosvários
contextosqueviemosconsiderandoaqui.Vejaaindaotexto
“Fossilizedprejudicesabout‘however’”doLanguageLogem
http://itre.cis.upenn.edu/~myl/languagelog/archives/001913.html.
b. Escolhaumpardetextoseestudeasdiferençasentreelesem
termosdevocabulário,riquezalexical,gênero,etc.Vocêpoderia
encontrarparesdepalavrasquepossuemsignificadosbem
distintosnosdoistextos,talcomo“monstrous”emMobyDicke
emSenseandSensibility?
c. LeiaoartigodoNoticiáriodaBBC:“UK’sVickyPollards‘left
behind’”emhttp://www.pablofaria.com.br/?p=457(traduçãolivre).
Oartigoofereceaseguinteestatísticasobrealinguagem
1
adolescente:“as20palavrasmaisfrequentes,incluindo‘yeah,no,
but’e‘like’,constituememtornodeumterçodetodasas
palavras.”Quantostiposdepalavrasconstituemumterçodetodas
aspalavras,quandoseconsideramtextosdeoutrasfontes?Oque
vocêconcluiapartirdessasestatísticas?Leimaissobreissono
LanguageLog,emhttp://itre.cis.upenn.edu/~myl/
languagelog/archives/003993.html.
d. Investigueatabeladedistribuiçãodemodaiseprocureporoutros
padrões.Tenteexplica-losemtermosdesuaprópriacompreensão
impressionísticasobreosdiferentesgêneros.Vocêpodeencontrar
outrasclassesfechadasdepalavrasqueexibemdiferenças
significativasentrediferentesgêneros?(dica:primeirogerea
distribuiçãodefrequênciadovocabulárioparacadagêneroedê
umaolhadageralnasfrequênciasembuscadepistas)
e. Escrevaumprogramaparagerarumatabeladamedidade
diversidadelexical(i.e.,razõestoken/tipo),comovimosnaTabela11(http://www.nltk.org/book/ch01.html).Incluatodooconjuntode
gênerosdoCorpusBrown(nltk.corpus.brown.categories()).Qual
gêneropossuiadiversidademaisbaixa?Éoquevocêesperaria?
f. Escrevaumafunçãoparacriarumatabeladefrequênciasde
palavraporgênero,comoaquelaobtidanaSeção2.1paramodais.
Escolhasuasprópriaspalavrasetenteencontraraquelascuja
presença(ouausência)sejatípicadogênero.Discutaseus
achados.
g. Useumadasmedidaspredefinidasdesimilaridadeparacalculara
similaridadedecadaumdosparesdepalavrasaseguir.Ranqueie
osparesporordemdecrescentedesimilaridade.Quãopróximoé
seurankingdaordemdadaaqui,estabelecidaexperimentalmente
porMiller&Charles(1998):car-automobile,gem-jewel,journeyvoyage,boy-lad,coast-shore,asylum-madhouse,magician-wizard,
midday-noon,furnace-stove,food-fruit,bird-cock,bird-crane,toolimplement,brother-monk,lad-brother,crane-implement,journeycar,monk-oracle,cemetery-woodland,food-rooster,coast-hill,
forest-graveyard,shore-woodland,monk-slave,coast-forest,ladwizard,chord-smile,glass-magician,rooster-voyage,noon-string?
2. Paraasquestõesabaixo,crieumarquivodenome“L2_SEU-RA.py”eem
cadalinhainformeapenasasexpressõesemPythoncorrespondentesa
cadaexercício(nãoosresultados),umaporlinha.Adicaé:primeirotestea
2
expressãonointerpretadordoPythonparadepoissalvarelanoseu
arquivo.Nocasedeexpressõesqueproduzemresultados(comoasdos
exercíciosa,b,etc.),preceda-ascomocomando‘print’.
a. DefinaumadistribuiçãodefrequênciacondicionalsobreoCorpus
Namesquetepermitaverquaisletrasiniciaissãomaisfrequentes
paranomesmasculinosversusfemininos(verFigura4.4em
http://www.nltk.org/book/ch02.html).
b. ODicionáriodePronúnciaCMUcontémmúltiplaspronúnciaspara
certaspalavras.Quantaspalavrasdistintaselecontém?Quala
fraçãodepalavrasnestedicionárioquepossuemmaisdeuma
pronúnciapossível?
c. Qualopercentualdesynsetsdesubstantivosquenãopossuem
hipônimos?Vocêpodeobtertodosossynsetsdesubstantivos
usandoocomando:wn.all_synsets('n').
d. Definaumafunçãochamada“supergloss(s)”querecebaumsynset
comoparâmetroeretorneumastringconsistindodaconcatenação
dadefiniçãodesedasdefiniçõesdetodososhiperônimose
hipônimosdes.
e. Escrevaumprogramaqueencontretodasaspalavrasqueocorrem
pelomenostrêsvezesnoCorpusBrown.
f. Escrevaumafunçãoqueencontreas50palavrasmaisfrequentes
emumtextoquenãosejam“stopwords”(ver
http://www.agenciamestre.com/seo/stop-words-como-funcionampalavras-de-parada/).
g. Escrevaumafunçãoqueexibaos50bigramas(paresdepalavras
adjacentes)maisfrequentesdeumtexto,omitindobigramasque
contenham“stopwords”.
h. Escrevaumafunçãoword_freq()querecebaumapalavraeonome
deumaseçãodoCorpusBrowncomoparâmetros(ouargumentos)
ecomputeafrequênciadapalavranarespectivaseçãodocorpus.
i. Escrevaumafunçãoquetenteinformaronúmerodesílabas
contidasemumtexto,fazendousodoDicionáriodePronúncia
CMU.(dica:ignoreaspalavrasdotextonãoexistentesno
dicionário)
j. Definaumafunçãohedge(text)queprocesseumtextoeproduza
umanovaversãodotextocomapalavra‘like’inseridaentrecada
trêspalavras.
3
k. Definaumafunçãofind_language()querecebaumastringcomo
seuargumentoeretornealistadelínguasquetemessastring
comoumapalavradalíngua.Useocorpusudhrelimitesuasbuscas
aarquivoscomcodificaçãoLatin-1.
l. Qualéofatorderamificaçãoparaahierarquiadehiperônimosde
substantivos?Istoé,paracadasynsetdesubstantivoquepossui
hipônimos–oudescendentenahierarquiadehiperônimos–
quantoselespossuememmédia?Vocêpodeobtertodosos
synsetsdesubstantivosusandown.all_synsets('n').
m. Apolissemiadeumapalavraéonúmerodesentidosqueelapossui.
UsandoaWordNet,podemosdeterminarqueosubstantivo“dog”
possuisetesentidosusandolen(wn.synsets(‘dog’,‘n’)).Computea
polissemiamédiadenomes,verbos,adjetivoseadvérbiosde
acordocomaWordNet.
4