Slides
Transcrição
Slides
MACHINELEARNING NOMUNDOREAL COM VOWPALWABBIT VOWPALWABBIT???? Implementaçãoopen-sourcedealgoritmosdeMachineLearning Rápido(VorpalSword+Rabbit) Online(out-of-core)=>grandesconjuntosdedados DesenvolvidaporJohnLangford(YahooResearch,MicrosoftResearch) OpenSource(BSDLicense) PROBLEMA1: REGRESSÃO DADOUMANÚNCIODEEMPREGO,PREDIZER OSALÁRIOCORRESPONDENTE Cliente:agênciadeempregos. Motivação: melhoraraexperiênciadousuário reduzirtempodeprocuraporvaga. Background: metadedasvagasanunciadasnãodeclaramosaláriooferecido dificuldadederealizaçãodepesquisas SOLUÇÃO:CRIARUMMODELODEREGRESSÃO MODELOS MODELOSSÃO SIMPLIFICAÇÕESDAREALIDADE DadosBrutos=>Features,Label F(features)=Label MODELOS Exemplo: "UmaZebraéumanimalquemedeaproximadamente1.5m Features: Altura:1.5 Comprimento:2.0 NumeroDePernas:4.0 PossuiListras:1.0 Label:Zebra APRENDENDOMODELOS VWaproximaFdeformalinear: F=c1*feature1+c2*feature2+c3*feature3... PREDIÇÃODESALÁRIOS DADOSDISPONÍVEIS: Título Descrição Localizaçao TipodeContrato(permanente/temporário) DuraçãodoContrato Empresa Categoria Salário PREDIÇÃODESALÁRIOS Modelagem VWpossuiumformatodeentradabastanteflexível: [Label][Importance[Tag]]|NamespaceFeatures|NamespaceFeatures...|Namespac onde Namespace=String[:Value] Features=(String[:Value])* Exemplos: 2.0|PossuiListras=trueNumeroDePernas:4Altura:2.0Comprimento:1.5 3.0|RuntimeMins:165|TitleDjangoFree|DirectorQuentin_Tarantino PREDIÇÃODESALÁRIOS DADOSBRUTOS Id,Title,FullDescription,LocationRaw,LocationNormalized, ContractType,ContractTime,Company,Category,SalaryRaw, SalaryNormalized,SourceName 12612628,EngineeringSystemsAnalyst,"EngineeringSystemsAnalystDorkingSurr PREDIÇÃODESALÁRIOS MODELAGEM 10.126631103850338|category=engineering_jobs |Titleengineeringsystemsanalyst|Descriptionengineeringsy |Locationdorking |Typepermanent |Companygregory_martin_international PREDIÇÃODESALÁRIOS TREINANDOOMODELO: VW-DDATA.TRAIN-C-K--PASSES20-FMODEL [Demo] PREDIÇÃODESALÁRIOS FEATUREEXTRACTION vw-varinfoidentificaasfeaturesmaisrelevantes Top10positivefeatures: Type^contract13758903+3.2116100.00% Type^permanent8492139+3.151098.11% Type^null15155178+3.139897.76% ^category=it_jobs28169692+1.224138.12% ^category=legal_jobs22520512+1.204937.52% ^category=energy__oil___gas_jobs2936406+1.200937.39% ^category=accounting___finance_jobs5861867+1.179136.71% ^category=engineering_jobs27357109+1.166036.31% ^category=other_general_jobs1355204+1.159036.09% ^category=trade___construction_jobs1018754+1.147435.72% PREDIÇÃODESALÁRIOS FEATUREEXTRACTION vw-varinfoidentificaasfeaturesmaisrelevantes Top10negativefeatures: Description^carlyle12976919-0.3576-11.13% Description^stuttgart26299885-0.3588-11.17% Description^reablemenet11034468-0.3589-11.17% Company^qa_apprenticeships24833833-0.3627-11.29% Company^bt3952904-0.3696-11.51% Company^remit_group3484950-0.3856-12.01% Description^koharaeurolondon18160096-0.3951-12.30% Company^bv_recruitment9125445-0.4158-12.95% Company^metia15577492-0.4255-13.25% Company^source_recruitment_services16127781-0.4593-14.30% Title^apprentice32484796-0.6025-18.76% PROBLEMA2: CLASSIFICAÇÃO SENTIMENTANALYSISDECOMENTÁRIOSEM REDESSOCIAIS Cliente:e-commerce. Motivação: monitoramentoautomáticodecomentáriosnaWebsobreprodutos comercializados. Background: detectarautomaticamenteclientesinsatisfeitos e-commercepodeagirparaevitarqueainsatisfaçãosepropague SOLUÇÃO:CRIARUMMODELODECLASSIFICAÇÃO CLASSIFICAÇÃONOVW FacilmenteresolvidosnoVWatravésdeReduções: problemamaiscomplexo->problemamaissimples Opções: ErrorCorrectingTournment(--ect) OneAgainstAllMulticlass(--oaa) SENTIMENTANALYSIS Dadosdeentrada: 34milhõesdereviewsdeprodutosdaAmazon.com product/productId:B0001Z3TLQ product/title:BytheSea[VHS] product/price:unknown review/userId:A3421LTBSWSPXK review/profileName:KML review/helpfulness:5/6 review/score:4.0 review/time:1089417600 review/summary:Aromanticzenbaseballcomedy review/text:Whenyouhearfolkssaythattheydon'tmake'emlikethatanymore,t SENTIMENTANALYSIS Modelagem Objetivo:criarmodelocapazdedetectarsatisfaçãoapartirdecomentários Paraestefim,usaremosapenasasfeaturestextuais:títuloetexto Comolabelusaremosanotadadaaoproduto 4.0|Summaryaromanticzenbaseballcomedy|Textwhenyouhearfolkssaythat SENTIMENTANALYSIS [Demo] PROBLEMA3:FILTRAGEMCOLABORATIVA PREDIZERANOTADEUMUSUÁRIOPARAUMITEM Cliente:e-commercedefilmes Motivação:recomendarparaumusuáriofilmesnãovistosquesejam interessantesdeformapersonalizada. Background:ouniversodefilmesexistentesémuitogrande.Umsistemade recomendaçãopodemelhoraraexperiênciadousuário. Solução:criarummodelobaseadoemdecomposição dematrizes DECOMPOSIÇÃODEMATRIZES Associaçãousuário-itempodeserrepresentadacomoumamatrizesparsa DECOMPOSIÇÃODEMATRIZES Dadoumvolumesuficientededados,algunspadrõespodemcomeçara surgir DECOMPOSIÇÃODEMATRIZES Padrõesdotipo"quemgostadissogostatambémdaquilo"sãochamados fatoreslatentes. Decomposiçãodematrizesvisaaproximaramatrizoriginalatravésda identificaçãodeKfatoreslatentes DECOMPOSIÇÃODEMATRIZES Umavezdescobertas,asmatrizesXeYpodemserusadasparaaproximara notadeitemsnãovistos(i.e.preencherascolunasvaziasdeP) Problema:dadoP,aprenderXeY DECOMPOSIÇÃODEMATRIZES Dadosdeentrada: 5.5milhõesdereviewsdefilmesdaAmazon.com product/productId:B0001Z3TLQ product/title:BytheSea[VHS] product/price:unknown review/userId:A3421LTBSWSPXK review/profileName:KML review/helpfulness:5/6 review/score:4.0 review/time:1089417600 review/summary:Aromanticzenbaseballcomedy review/text:Whenyouhearfolkssaythattheydon'tmake'emlikethatanymore, DECOMPOSIÇÃODEMATRIZES Modelagem 4.0|USERA3421LTBSWSPXK|ITEMB0001Z3TLQ 5.0|USERA1B8X446EXNZBF|ITEMB0001Z3TLQ 5.0|USERA3SVRX0U6ZGAXL|ITEMB0001Z3TLQ 1.0|USERA3MJIXDIQT5S16|ITEMB001GE2CDM 3.0|USERA2FSEZ7KWU3MIY|ITEMB004H9ZQ68 1.0|USERA1QAULZ03WCAEO|ITEMB004H9ZQ68 5.0|USERA11ES13Y64903L|ITEMB000XUOLVQ 4.0|USERAZ9JWGE1UGKZA|ITEMB000XUOLVQ 4.0|USERA2HUDDEJCGH18R|ITEMB000XUOLVQ 5.0|USERAJO845T34ONT0|ITEMB000XUOLVQ DECOMPOSIÇÃODEMATRIZES Treinamento VW-QUI-DMOVIES.TRAIN--RANK10-FMOVIES.VW [DEMO] DECOMPOSIÇÃODEMATRIZES