Slides

Transcrição

Slides
MACHINELEARNING
NOMUNDOREAL
COM
VOWPALWABBIT
VOWPALWABBIT????
Implementaçãoopen-sourcedealgoritmosdeMachineLearning
Rápido(VorpalSword+Rabbit)
Online(out-of-core)=>grandesconjuntosdedados
DesenvolvidaporJohnLangford(YahooResearch,MicrosoftResearch)
OpenSource(BSDLicense)
PROBLEMA1:
REGRESSÃO
DADOUMANÚNCIODEEMPREGO,PREDIZER
OSALÁRIOCORRESPONDENTE
Cliente:agênciadeempregos.
Motivação:
melhoraraexperiênciadousuário
reduzirtempodeprocuraporvaga.
Background:
metadedasvagasanunciadasnãodeclaramosaláriooferecido
dificuldadederealizaçãodepesquisas
SOLUÇÃO:CRIARUMMODELODEREGRESSÃO
MODELOS
MODELOSSÃO
SIMPLIFICAÇÕESDAREALIDADE
DadosBrutos=>Features,Label
F(features)=Label
MODELOS
Exemplo:
"UmaZebraéumanimalquemedeaproximadamente1.5m
Features:
Altura:1.5
Comprimento:2.0
NumeroDePernas:4.0
PossuiListras:1.0
Label:Zebra
APRENDENDOMODELOS
VWaproximaFdeformalinear:
F=c1*feature1+c2*feature2+c3*feature3...
PREDIÇÃODESALÁRIOS
DADOSDISPONÍVEIS:
Título
Descrição
Localizaçao
TipodeContrato(permanente/temporário)
DuraçãodoContrato
Empresa
Categoria
Salário
PREDIÇÃODESALÁRIOS
Modelagem
VWpossuiumformatodeentradabastanteflexível:
[Label][Importance[Tag]]|NamespaceFeatures|NamespaceFeatures...|Namespac
onde
Namespace=String[:Value]
Features=(String[:Value])*
Exemplos:
2.0|PossuiListras=trueNumeroDePernas:4Altura:2.0Comprimento:1.5
3.0|RuntimeMins:165|TitleDjangoFree|DirectorQuentin_Tarantino
PREDIÇÃODESALÁRIOS
DADOSBRUTOS
Id,Title,FullDescription,LocationRaw,LocationNormalized,
ContractType,ContractTime,Company,Category,SalaryRaw,
SalaryNormalized,SourceName
12612628,EngineeringSystemsAnalyst,"EngineeringSystemsAnalystDorkingSurr
PREDIÇÃODESALÁRIOS
MODELAGEM
10.126631103850338|category=engineering_jobs
|Titleengineeringsystemsanalyst|Descriptionengineeringsy
|Locationdorking
|Typepermanent
|Companygregory_martin_international
PREDIÇÃODESALÁRIOS
TREINANDOOMODELO:
VW-DDATA.TRAIN-C-K--PASSES20-FMODEL
[Demo]
PREDIÇÃODESALÁRIOS
FEATUREEXTRACTION
vw-varinfoidentificaasfeaturesmaisrelevantes
Top10positivefeatures:
Type^contract13758903+3.2116100.00%
Type^permanent8492139+3.151098.11%
Type^null15155178+3.139897.76%
^category=it_jobs28169692+1.224138.12%
^category=legal_jobs22520512+1.204937.52%
^category=energy__oil___gas_jobs2936406+1.200937.39%
^category=accounting___finance_jobs5861867+1.179136.71%
^category=engineering_jobs27357109+1.166036.31%
^category=other_general_jobs1355204+1.159036.09%
^category=trade___construction_jobs1018754+1.147435.72%
PREDIÇÃODESALÁRIOS
FEATUREEXTRACTION
vw-varinfoidentificaasfeaturesmaisrelevantes
Top10negativefeatures:
Description^carlyle12976919-0.3576-11.13%
Description^stuttgart26299885-0.3588-11.17%
Description^reablemenet11034468-0.3589-11.17%
Company^qa_apprenticeships24833833-0.3627-11.29%
Company^bt3952904-0.3696-11.51%
Company^remit_group3484950-0.3856-12.01%
Description^koharaeurolondon18160096-0.3951-12.30%
Company^bv_recruitment9125445-0.4158-12.95%
Company^metia15577492-0.4255-13.25%
Company^source_recruitment_services16127781-0.4593-14.30%
Title^apprentice32484796-0.6025-18.76%
PROBLEMA2:
CLASSIFICAÇÃO
SENTIMENTANALYSISDECOMENTÁRIOSEM
REDESSOCIAIS
Cliente:e-commerce.
Motivação:
monitoramentoautomáticodecomentáriosnaWebsobreprodutos
comercializados.
Background:
detectarautomaticamenteclientesinsatisfeitos
e-commercepodeagirparaevitarqueainsatisfaçãosepropague
SOLUÇÃO:CRIARUMMODELODECLASSIFICAÇÃO
CLASSIFICAÇÃONOVW
FacilmenteresolvidosnoVWatravésdeReduções:
problemamaiscomplexo->problemamaissimples
Opções:
ErrorCorrectingTournment(--ect)
OneAgainstAllMulticlass(--oaa)
SENTIMENTANALYSIS
Dadosdeentrada:
34milhõesdereviewsdeprodutosdaAmazon.com
product/productId:B0001Z3TLQ
product/title:BytheSea[VHS]
product/price:unknown
review/userId:A3421LTBSWSPXK
review/profileName:KML
review/helpfulness:5/6
review/score:4.0
review/time:1089417600
review/summary:Aromanticzenbaseballcomedy
review/text:Whenyouhearfolkssaythattheydon'tmake'emlikethatanymore,t
SENTIMENTANALYSIS
Modelagem
Objetivo:criarmodelocapazdedetectarsatisfaçãoapartirdecomentários
Paraestefim,usaremosapenasasfeaturestextuais:títuloetexto
Comolabelusaremosanotadadaaoproduto
4.0|Summaryaromanticzenbaseballcomedy|Textwhenyouhearfolkssaythat
SENTIMENTANALYSIS
[Demo]
PROBLEMA3:FILTRAGEMCOLABORATIVA
PREDIZERANOTADEUMUSUÁRIOPARAUMITEM
Cliente:e-commercedefilmes
Motivação:recomendarparaumusuáriofilmesnãovistosquesejam
interessantesdeformapersonalizada.
Background:ouniversodefilmesexistentesémuitogrande.Umsistemade
recomendaçãopodemelhoraraexperiênciadousuário.
Solução:criarummodelobaseadoemdecomposição
dematrizes
DECOMPOSIÇÃODEMATRIZES
Associaçãousuário-itempodeserrepresentadacomoumamatrizesparsa
DECOMPOSIÇÃODEMATRIZES
Dadoumvolumesuficientededados,algunspadrõespodemcomeçara
surgir
DECOMPOSIÇÃODEMATRIZES
Padrõesdotipo"quemgostadissogostatambémdaquilo"sãochamados
fatoreslatentes.
Decomposiçãodematrizesvisaaproximaramatrizoriginalatravésda
identificaçãodeKfatoreslatentes
DECOMPOSIÇÃODEMATRIZES
Umavezdescobertas,asmatrizesXeYpodemserusadasparaaproximara
notadeitemsnãovistos(i.e.preencherascolunasvaziasdeP)
Problema:dadoP,aprenderXeY
DECOMPOSIÇÃODEMATRIZES
Dadosdeentrada:
5.5milhõesdereviewsdefilmesdaAmazon.com
product/productId:B0001Z3TLQ
product/title:BytheSea[VHS]
product/price:unknown
review/userId:A3421LTBSWSPXK
review/profileName:KML
review/helpfulness:5/6
review/score:4.0
review/time:1089417600
review/summary:Aromanticzenbaseballcomedy
review/text:Whenyouhearfolkssaythattheydon'tmake'emlikethatanymore,
DECOMPOSIÇÃODEMATRIZES
Modelagem
4.0|USERA3421LTBSWSPXK|ITEMB0001Z3TLQ
5.0|USERA1B8X446EXNZBF|ITEMB0001Z3TLQ
5.0|USERA3SVRX0U6ZGAXL|ITEMB0001Z3TLQ
1.0|USERA3MJIXDIQT5S16|ITEMB001GE2CDM
3.0|USERA2FSEZ7KWU3MIY|ITEMB004H9ZQ68
1.0|USERA1QAULZ03WCAEO|ITEMB004H9ZQ68
5.0|USERA11ES13Y64903L|ITEMB000XUOLVQ
4.0|USERAZ9JWGE1UGKZA|ITEMB000XUOLVQ
4.0|USERA2HUDDEJCGH18R|ITEMB000XUOLVQ
5.0|USERAJO845T34ONT0|ITEMB000XUOLVQ
DECOMPOSIÇÃODEMATRIZES
Treinamento
VW-QUI-DMOVIES.TRAIN--RANK10-FMOVIES.VW
[DEMO]
DECOMPOSIÇÃODEMATRIZES