Capítulo 2. E-Mail Marketing

Transcrição

Capítulo 2. E-Mail Marketing
CENTRO UNIVERSITÁRIO UNISEB
TRABALHO DE CONCLUSÃO DE CURSO
BACHARELADO EM CIÊNCIAS DA COMPUTAÇÃO
FERRAMENTA DE E-MAIL MARKETING COM RECOMENDAÇÕES
PERSONALIZADAS
Leonardo Meloni
Washington Jorge de Oliveira
Orientador: Prof. MSc. Reginaldo Aparecido Gotardo
RIBEIRÃO PRETO
2011
LEONARDO MELONI
WASHINGTON JORGE DE OLIVEIRA
FERRAMENTA DE E-MAIL MARKETING COM RECOMENDAÇÕES
PERSONALIZADAS
Trabalho
de
conclusão
de
curso
apresentado ao UniSEB COC de Ribeirão
Preto, como parte dos requisitos para
obtenção do grau de Bacharel em Ciências
da Computação.
Orientador: Prof. MSc. Reginaldo
Aparecido Gotardo
RIBEIRÃO PRETO
2011
Ficha Catalográfica
M517f
Meloni, Leonardo.
Oliveira, Washington Jorge.
Ferramenta de e-mail marketing com recomendações
personalizadas. Leonardo Meloni; Washington Jorge Oliveira. Ribeirão Preto, 2011.
87 f.. il.
Orientador: Prof. Me. Reginaldo Aparecido Gotardo.
Trabalho de conclusão de curso apresentado ao Centro
Universitário UNISEB de Ribeirão Preto, como parte dos
requisitos para obtenção do Grau de Bacharel em Ciências da
Computação sob a orientação do Prof. Me. Reginaldo Aparecido
Gotardo.
1. E-Mail Marketing. 2. Personalização e Recomendação. 3.
Mineração de Dados.
I. Título. II. Gotardo, Reginaldo
Aparecido.
CDD 005.13
TRABALHO DE CONCLUSÃO DE CURSO
Aluno: Leonardo Meloni
Aluno: Washington Jorge de Oliveira
Código: 6186
Código: 5887
Curso: Ciências da Computação
Curso: Ciências da Computação
Semestre/Ano: 8º/2011
Semestre/Ano: 8º/2011
Tema: Ferramenta de E-Mail Marketing com Recomendações Personalizadas.
Objetivos pretendidos: Pesquisa sobre marketing e como utilizá-lo através da facilidade e
abrangência da internet. Desenvolvimento de uma ferramenta que atenda aos requisitos das
normas do E-Mail Marketing. Direcionar os e-mails de acordo com as preferências dos usuários
e estabelecer uma experiência melhor nestas comunicações.
_____/_____/________
____________________________________
Reginaldo Aparecido Gotardo
Professor Orientador
_____/_____/________
____________________________________
Leonardo Meloni
Aluno
_____/_____/________
____________________________________
Washington Jorge de Oliveira
Aluno
_____/_____/________
____________________________________
Paulo Cesar de Carvalho Dias
Coordenador do Curso
_____/_____/________
__________________________________
Reginaldo Arthus
Diretor Geral
Dedicatória
Aos meus pais e meus irmãos, pela fé,
crédito e apoio - Leonardo
Aos meus pais, irmã e namorada, pela
fé, crédito e apoio - Washington
II
Agradecimentos
À Deus por proporcionar-nos a dádiva da vida e permitir a conclusão deste
trabalho de conclusão de curso, nos dando sabedoria, fé e persistência para não desistir
de realizar nossos sonhos.
As nossas famílias e amigos, que acreditaram em nós e nos deram forças para
poder concluir esta jornada, mesmo estando mais distante de todos em virtude desta
etapa acadêmica.
Ao nosso orientador, professor MSc. Reginaldo Aparecido Gotardo, que pode
nos dar um caminho a seguir, sempre nos apoiando com a sua paciência, dedicação e
confiança em nosso trabalho.
III
Epígrafe
Se me acredito capaz de fazer algo, o farei, mesmo que eu não
tenha capacidade de começar...”
Mahatma Ghandi
IV
Resumo
O E-Mail Marketing é uma ferramenta publicitária que surgiu da oportunidade criada
da evolução constante da internet. De acordo com uma pesquisa da ForeSee o maior
número de visitantes à sites de e-commerce foram conquistados pela ferramenta de email marketing. À medida que a internet se popularizou e se tornou mais acessível
surgiu a necessidade das empresas de investir em um novo meio publicitário que
proporcionasse uma forma mais direta e com menor custo, atingindo um maior
número de pessoas e obtendo resultados positivos. A ferramenta trata do envio de emails para pessoas que permitiram o envio e foram cadastradas em um banco de
dados, isto é, a utilização do e-mail como ferramenta de marketing direto. Deve ser
totalmente confiável, pois ela é muitas vezes responsável pelo relacionamento entre o
cliente e a empresa. As técnicas de personalização de conteúdo são aplicadas para
descobrir padrões de interesse dos usuários de um sistema e oferecer opções
adaptáveis a estes. Isto pode tornar uma ferramenta de marketing direto mais eficaz,
pois os usuários terão seus interesses tratados de maneira específica e, assim, haverá
menos chances de que este descarte as mensagens enviadas. A recomendação
personalizada ocorre por meio da mineração de dados, que é uma área de pesquisa
multidisciplinar e tem como objetivo a análise de registros extraídos de um banco de
dados, que contém informações sobre os clientes e seus hábitos. Esse banco de dados
a principio é alimentado com informações básicas dos clientes, por meio dos disparos
de e-mails, os perfis dos clientes vão sendo atualizados na base de dados.
Neste trabalho foi estudado e a implementada uma ferramenta que pode gerenciar e
realizar este marketing direto personalizado, para isso, foram utilizados algoritmos que
implementam as técnicas de associação e recomendação. Com isso, o objetivo final da
ferramenta desenvolvida é atingir o público alvo de maneira eficiente.
Palavras-Chaves: E-Mail Marketing, Personalização e Recomendação, Mineração de
Dados.
V
Abstract
The E-Mail Marketing is an advertising tool that arose from the opportunity created by
the constant internet evolution. As the internet caught on and became more
accessible the necessity from the companies to invest in a different advertising circle
that offers an straight and less cost results just appear, reaching a bigger number of
people and being successful. This tool talks about how to send out email for registered
people in a database that is, using the e-mail as a tool for direct marketing. It has to be
totally trustful, because most of the time it’s responsible for the relationship between
client and company. The customize content techniques are applied to discover interest
patterns from the users of a system and offer them options. This can make a direct
marketing tool more effective, due the users will have their interest sort out in a
specific manner, this way it will have less change them get rid of the messages. The
personalized recommendation occurs through data mining that is a multidisciplinary
research area and has the objective to analyze information taken from a database that
has information about the clients and their habits.
The proposal from this paper is the study and the implementation of a tool that can
manager and do this personalized direct marketing, for this, it will be used algorithm
that implement association and recommendation techniques.
So, the final aim from this paper is to reach the target public in a effective manner.
Key words: E-Mail Marketing, Personalization and recommendation, Data Mining.
VI
SUMÁRIO
1.
2.
INTRODUÇÃO ........................................................................................................................ 1
1.1.
Os benefícios do uso da Internet no marketing direto para uma organização . 1
1.2.
Objetivos ............................................................................................................ 2
1.3.
Motivação .......................................................................................................... 2
1.4.
Organização do Trabalho ................................................................................... 3
E-MAIL MARKETING.............................................................................................................. 4
2.1.
E-Mail Marketing ............................................................................................... 4
2.2.
Órgãos Regulamentadores e o Código de Auto-Regulamentação .................... 5
2.3.
Definição de SPAM............................................................................................. 7
2.4.
Diferenças e vantagens entre E-Mail Marketing e Mala Direta ........................ 9
2.5.
Marketing de telefonia móvel ........................................................................... 9
2.5.1.
Meio de aceitação .................................................................................... 12
2.5.2.
Relevância do conteúdo ........................................................................... 13
2.6.
3.
Considerações .................................................................................................. 13
SISTEMAS DE RECOMENDAÇÃO E MINERAÇÃO DE DADOS .............................................. 15
3.1.
Personalização na Web .................................................................................... 15
3.2.
Sistemas de Recomendação ............................................................................ 18
3.3.
Mineração de Dados ........................................................................................ 23
3.3.1.
Considerações Iniciais............................................................................... 23
3.3.2.
Pré-Processamento de Dados .................................................................. 25
3.3.2.1.
Limpeza dos Dados ............................................................................... 26
3.3.2.2.
Valores Ausentes .................................................................................. 27
3.3.2.3.
Dados Ruidosos ..................................................................................... 27
3.3.3.
Integração dos Dados ............................................................................... 29
3.3.3.1.
Redundância dos Dados ........................................................................ 29
3.3.3.2.
Detecção e resolução de valores conflitantes ...................................... 29
VII
3.3.3.3.
Integração de esquemas internos ........................................................ 30
3.3.3.4.
Transformação de dados ...................................................................... 30
3.3.3.5.
Normalização ........................................................................................ 30
3.3.4.
3.4.
Medidas de Similaridade ................................................................................. 32
3.4.1.
Diferenças entre objetos .............................................................................. 33
3.4.2.
Semelhanças entre objetos .......................................................................... 34
3.4.2.1.
4.
5.
6.
Redução .................................................................................................... 30
Medidas de Semelhança para Dados Binários ......................................... 35
3.5.
Classificação ..................................................................................................... 39
3.6.
O Algoritmo K-Means....................................................................................... 40
3.7.
Análise de Agrupamentos ................................................................................ 42
3.8.
Mineração de Regras de Associação ............................................................... 45
3.8.1.
Técnicas para regra de Associação – Apriori ............................................ 47
3.8.2.
Formalizando o problema ........................................................................ 48
3.8.3.
O algoritmo Apriori ................................................................................... 49
FERRAMENTA DE E-MAIL MARKETING .............................................................................. 53
4.1.
Detalhes Técnicos ............................................................................................ 53
4.2.
Ferramenta de E-mail Marketing ..................................................................... 54
4.3.
Ferramenta Personalizada ............................................................................... 56
AVALIAÇÃO ......................................................................................................................... 58
5.1.
Utilização da Ferramenta para obtenção dos Dados ...................................... 58
5.2.
Estudo de Caso 1 – Aplicação do algoritmo de Apriori. .................................. 59
5.3.
Estudo de Caso 2 – Aplicação do algoritmo de K-means................................. 61
5.4.
Estudo de Caso 3 – Criação e Envio de uma campanha. ................................. 62
CONCLUSÕES....................................................................................................................... 66
6.1.
Discussão sobre os Resultados ........................................................................ 66
6.2.
Trabalhos Futuros ............................................................................................ 67
REFERÊNCIAS BIBLIOGRÁFICAS .................................................................................................. 68
VIII
Lista de Figuras
Figura 3. 1 - - Divisão dos Sistemas computacionais segundo (GOTARDO, 2008) ...................... 18
Figura 3. 2 – Estrutura dos Sistemas de Recomendação – Fonte: BARCELLOS (2007) ............... 20
Figura 3. 3 – Recomendação em Websites de e-commerce: indicação de quem comprou ....... 21
Figura 3. 4 – Recomendação em Websites de e-commerce: possibilidade de avaliar o produto e
deixar uma opinião...................................................................................................................... 22
Figura 3. 5 – Fases do KDD .......................................................................................................... 25
Figura 3. 6 – Fases do Pré-Processamento.................................................................................. 26
Figura 3. 7 – Gráfico que representa uma regressão ................................................................. 28
Figura 3. 8 – Representação de agregação via cubo ................................................................... 31
Figura 3. 9 – Representação da compressão de dados ............................................................... 31
Figura 3. 10 – Quatro pontos bidimensionais ............................................................................. 34
Figura 3. 11– Ilustração Geométrica da medida de cosseno ...................................................... 38
Figura 3. 12 – Matriz de dissimilaridade ..................................................................................... 40
Figura 3. 13 – Funcionamento do algoritmo k-means para k = 3 ............................................... 42
Figura 3. 14 – Ilustração de dados distribuídos em grade .......................................................... 45
Figura 3. 15 – Exemplo de construção de itemsets candidatos de tamanho k a partir de
itemsets frequentes de tamanho k-1 .......................................................................................... 50
Figura 4. 1 – Cadastro de clientes na ferramenta ....................................................................... 54
Figura 4. 2 – Processo de envio de mensagens pelo administrador ........................................... 55
Figura 4. 3– Disponibilidade de cancelamento do recebimento de e-mails ............................... 55
Figura 4. 4 – Processo de criação de modelos off-line ................................................................ 56
Figura 4. 5 – Processo de envio de mensagens pelo administrador com a base atualizada após a
mineração de dados. ................................................................................................................... 57
Figura 5. 1 - Informações obtidas por meio do algoritmo de Apriori ......................................... 60
Figura 5. 2 – Relatório obtido por meio do algoritmo de Apriori ............................................... 60
Figura 5. 3 – Classificação das áreas de interesse similares por meio do Algoritmo de K-means.
..................................................................................................................................................... 62
IX
Figura 5. 4 – Relatório gerado pelo algoritmo de K-means para auxilio na tomada de decisão. 63
Figura 5. 5 – Relatório gerado pelo algoritmo de Apriori para auxilio na tomada de decisão. .. 64
Figura 5. 6 – Seleção das áreas para realização do disparo da campanha. ................................ 65
X
Lista de Tabelas
Tabela 3. 1 – Características Únicas da Web segundo LIU (2007). ............................................. 24
Tabela 3. 2 – Coordenadas X e Y ................................................................................................. 34
Tabela 3.3 – Matriz de distância Euclidiana para Tabela 3.2 ...................................................... 34
Tabela 3.4 – Representação numérica dos produtos do supermercado .................................... 47
Tabela 3.5 – Registros de transações em um banco de dados ................................................... 47
Tabela 3.6 – Suporte de itemsets ................................................................................................ 48
XI
Siglas e Abreviaturas
ABEMD – Associação Brasileira de Marketing Direto
ABRADI – Associação Brasileira das Agências Digitais
ABRANET – Associação Brasileira dos Provedores de Internet
ABRAREC – Associação Brasileira das Relações Empresa Cliente
AGADI – Associação Gaúcha das Agências Digitais
AMA – American Marketing Association
APADI – Associação Paulista das Agências Digitais
ARF – Advertising Research Foundation
CGI.br – Comitê Gestor da Internet no Brasil
Codeigniter – Framework de desenvolvimentos de aplicações PHP
CSS – Cascading Style Sheets
FECOMÉRCIO-RS – Federação do Comércio do Estado do Rio Grande do Sul
FECOMÉRCIO-SP – Federação do Comércio do Estado de São Paulo
FEDERASUL – Federação das Associações Comerciais e de Serviços do Rio Grande do
Sul
IAB – Interactive Advertising Bureau
IHC – Interface Humano-Computador
INTERNETSUL – Associação Rio Grandense dos Provedores de Acesso, Serviços e
Informações da Rede Internet
JQuery – Biblioteca JavaScript para simplificar o desenvolvimento de páginas HTML
KDD - Knowledge Discovery in Databases
MMS – Multimedia Messaging Service
MVC - Model-view-controller
PHP – Hypertext Preprocessor
PRO TESTE – Associação Brasileira de Defesa do Consumidor
SEPRORGS – Sindicato das Empresas de Informática do Rio Grande do Sul
XII
SGBD – Sistema de Gerenciamento de Banco de Dados
SMS – Short Message Service
SMTP – Simple Mail Transfer Protocol
SPIM – Spam via Internet Messenger
SPIT – Spam over Internet Telephony
SQL - Structured Query Language
SR – Sistema de Recomendação
UCE - Unsolicitec Commercial E-Mail
Web – World Wide Web
XHTML – Xtensible Hypertext Markup Language
XIII
Capítulo 1. Introdução
1. Introdução
Atualmente, a internet está cada vez mais presente no dia-a-dia das pessoas. Por
meio dela, é possível interagir tanto com um vizinho quanto ultrapassar fronteiras
e interagir com uma pessoa de outro país ou continente sem ter que sair do
conforto de sua casa. Todas essas facilidades disponíveis ao alcance de um clique
permitem um meio de comunicação que evidencia um novo meio de exploração de
marketing e proporciona um resultado mais efetivo, rápido e de menor custo, isto
é, é possível atingir um maior número de pessoas com a velocidade da internet e
sem os custos de contratação de mídias sociais. Este capítulo apresenta a descrição
do trabalho desenvolvido, abordando na seção 1.1, a importância e relevância da
internet em proporcionar resultados positivos para as empresas que invistam
nesse meio de comunicação; na seção 1.2 são apresentados os objetivos previstos
deste trabalho; na seção 1.3 são citados os fatores que motivam a elaboração e
conclusão deste trabalho e na seção 1.4 é apresentada a organização deste
trabalho.
1.1. Os benefícios do uso da Internet no marketing direto para uma organização
Com a internet é possível atingir um grande número de pessoas de
diferentes localidades, sabendo disso as empresas possuem uma nova maneira
de investir na divulgação de informações e produtos e atingir seu público-alvo.
Além disso, a internet possibilita meios para demonstração de produtos
através de catálogos online que podem ser oferecidos, o que aproxima ainda
mais o cliente da empresa, sendo assim a internet é considerada uma técnica
de atração ao contrário das técnicas tradicionais de marketing que tendem a
empurrar o produto para o cliente.
A internet também melhora os serviços ao cliente, pois permite que eles
naveguem onde e quando quiserem, é também um meio barato, pois
possibilita auto-atendimento, e vendas online descartando os vendedores
físicos. Sendo essa uma das grandes vantagens, o seu baixo custo.
1
Capítulo 1. Introdução
1.2. Objetivos
Neste trabalho de conclusão de curso são apresentadas várias formas de
personalização e recomendação de e-mails de campanhas publicitárias. Estes
conceitos estão relacionados a uma personalização Web que seja capaz de
atender as necessidades e interesses dos usuários de acordo com seu perfil.
O método utilizado para esta recomendação personalizada é a
Mineração de Dados, que neste projeto tem a função de obter padrões por
meio da análise de perfis dos clientes, sugerindo recomendações que atinjam
diretamente o interesse do mesmo.
Este trabalho de conclusão apresenta a elaboração de uma ferramenta
Web que permite disparos de e-mails personalizados, que são enviados para
clientes que possuam um perfil com características que determinam um
interesse relevante ao conteúdo da publicidade, além disso, são obtidas
informações sobre os e-mails enviados, e por meio destas, utilizadas para
atualização de perfil de cada cliente selecionado como destinatário.
1.3. Motivação
As pessoas utilizam a Web como uma fonte rápida de obter informações
e isto se tornou essencial no dia-a-dia de todos, seja para fins profissionais ou
apenas para o lazer. Por isso,as pessoas são alvos de todo tipo de apelo visual
e publicitário, muitas vezes indesejáveis, nas páginas web ou e-mail.
Seguindo essa ideia, a personalização e direcionamento de disparos de
e-mails por meio do perfil de cada usuário mostram uma preocupação direta
com o cliente, pois evita recebimentos indesejáveis de campanhas
publicitárias.
Com o auxílio da mineração de dados para a análise de uma grande base
de dados utilizando técnicas computacionais para extração e obtenção de
padrões desejados, é possível auxiliar na tomada final de decisão.
Dentro desse conceito algumas técnicas de classificação tais como
mineração de regras de associação e análise de agrupamentos, são abordadas
2
Capítulo 1. Introdução
3
para uma melhor extração de padrões, e assim sempre atingir clientes com um
grau de interesse elevado, evitando a insatisfação do mesmo.
1.4. Organização do Trabalho
Este trabalho está organizado em 4 capítulos, descritos da seguinte
forma:

No Capítulo 2, E-Mail Marketing, é apresentado a definição do
tema e os órgãos regulamentadores sobre marketing, além da
definição do que é um SPAM e um possível meio de marketing.

No Capítulo 3, Sistemas de Recomendação e Mineração de Dados,
são descritos conceitos envolvidos na personalização Web que
embasam o foco deste trabalho.

No Capítulo 4, Ferramenta de E-Mail Marketing, é descritas as
tecnologias envolvidas na elaboração da ferramenta desenvolvida,
além da apresentação do seu funcionamento por meio de
diagramas.
Capítulo 2. E-Mail Marketing
4
2. E-Mail Marketing
O E-Mail marketing é uma evolução do meio tradicional utilizado por meio da mala
direta. Com a constante evolução dos meios de comunicações e do seu grande
poder de presença no cotidiano das pessoas, o e-mail marketing se tornou um
candidato natural a assumir esta posição no mercado com maior destaque. Não é
uma solução que acabará a princípio com os meios já existentes, mas à medida
que a conscientização e a preocupação com o meio ambiente aumentam,
evidenciam a busca por novas fontes ecologicamente corretas colocando o e-mail
marketing neste posto.
2.1. E-Mail Marketing
O Marketing tem sua história marcada por três filosofias, de acordo com
os autores LONGENECKER, MOORE e PETTY (1999). A primeira filosofia está
voltada para a produção. A segunda filosofia está voltada para as vendas e a
terceira filosofia está voltada para o consumidor. Apesar das três filosofias
citadas, segundo os autores, o essencial é utilizar-se do marketing pensando
no consumidor, haja vista, que a terceira filosofia irá suprir ao mesmo tempo,
de forma eficiente, tanto as metas de produção como a de vendas.
A palavra Marketing possui várias definições na literatura de acordo
com o entendimento de cada autor. Segundo GRACIOSO (1997), uma definição
mais ampla para o termo Marketing de acordo com a AMA 1 (American
Marketing Association), pode-se afirmar: “é a planificação e execução de um
conjunto de atividades comerciais, tendo como objetivo final a troca de
produtos, ou serviços, entre produtores e consumidores”.
Em KOTLER e
KELLER, (2006), marketing é um processo social por meio dos quais pessoas e
grupos de pessoas obtêm aquilo de que necessitam e o que desejam com
criação, oferta e livre negociação de produtos e serviços de valor com outros.
Outra definição é a entrega de satisfação para o cliente em forma de benefício
1
A American Marketing Association (AMA) é uma associação profissional de indivíduos e organizações que estão
liderando a prática, o ensino e o desenvolvimento do marketing no mundo.
Capítulo 2. E-Mail Marketing
(KOTLER e ARMSTRONG, 1999). Marketing são atividades sistemáticas de uma
organização humana voltada à busca e a realização de trocas para com o seu
meio ambiente, visando benefícios específicos (RICHERS,1986). Portanto,
apesar de várias definições, o marketing sempre está voltado à necessidade de
se comprar produtos ou serviços de interesse do consumidor, aliado aos
resultados esperados pela empresa que realiza a negociação.
Atualmente, com a evolução constante da tecnologia, novos canais ou
mídias de comunicação de marketing são criados, a popularidade da internet
aliado ao seu grande poder, seja de custo, agilidade e penetração na vida
cotidiana, foi capaz de abrir novos horizontes antes não explorados. A forma
de se pensar na prática de marketing foi remodelada, adaptando-se ao novo
meio disponibilizado.
O E-Mail Marketing é uma mensagem de correio eletrônico enviada e
recebida pela internet com a intenção de divulgar ou ofertar produtos e
serviços de determinada empresa, manter o relacionamento com a base
disponível de clientes ou ainda, disponibilizar atendimento ao consumidor.
As características do E-mail Marketing estão fundamentadas no respeito
aos destinatários das ações realizadas pelas empresas, desta forma, o uso
adequado da internet propiciará que os resultados desejados possam ser
alcançados, fortalecendo-se assim a sua marca, sua transparência como
empresa idônea, estreitando o relacionamento com o cliente de forma sólida e
de confiança mútua.
Para realizar o E-mail Marketing existe um Código de AutoRegulamentação2 no portal da ABEMD que determina as regras a serem
seguidas.
2.2. Órgãos Regulamentadores e o Código de Auto-Regulamentação
Com a crescente expansão do número de usuários de internet no Brasil,
o e-mail marketing é uma mídia de destaque e interesse das empresas, cada
2
Guia de boas práticas do portal da ABEMD.“Boas maneiras” nas ações de e-mail marketing. Disponível em:
<http://www.abemd.org.br/AutoRegulamentacao/BoasManeiras.aspx>. Acessado em: 02 fev. 2011.
5
Capítulo 2. E-Mail Marketing
vez mais, estas vêm trabalhando suas campanhas de marketing utilizando este
meio de comunicação, visando os bons resultados inerente a essa prática.
Segundo dados do CGI.br3 (Comitê Gestor de Internet), o Brasil possui
cerca de 54 milhões de usuários com acesso a internet e de acordo com o Ebit4, 20 milhões de pessoas que compraram pela internet ao menos uma vez
durante o primeiro semestre de 2010, com previsão de atingir ao número de
23 milhões até o final do segundo semestre conforme o boletim Webshoppers
(2010), publicado pela e-bit.
Desta forma, com o aumento gradativo a cada ano do número de
internautas e E-consumidores5 em nosso país, assim como o aumento de
computadores nas residências somados ao acesso a internet, foi elaborado o
Código de Auto-Regulamentação para regulamentar as práticas de envio de Email Marketing, tendo em vista a intenção da própria indústria em melhorar o
seu uso. Este código que rege o envio de mensagens eletrônicas de marketing
aos consumidores e foi criado pela ABEMD (Associação Brasileira de Marketing
Direto) em iniciativa conjunta com outras entidades ligadas à prática do
marketing direto: ABRADI (Associação Brasileira das Agências Digitais),
ABRANET (Associação Brasileira dos Provedores de Internet), ABRAREC
(Associação Brasileira das Relações Empresa Cliente), AGADI (Associação
Gaúcha das Agências Digitais), APADI (Associação Paulista das Agências
Digitais), CGI.br (Comitê Gestor da Internet no Brasil), FECOMÉRCIO-RS
(Federação do Comércio do Estado do Rio Grande do Sul), FECOMÉRCIO-SP
(Federação do Comércio do Estado de São Paulo), FEDERASUL (Federação das
Associações Comerciais e de Serviços do Rio Grande do Sul), IAB (Interactive
Advertising Bureau), INTERNETSUL (Associação Rio Grandense dos Provedores
3
CGI.br - O Comitê Gestor da Internet no Brasil (CGI.br) foi criado pela Portaria Interministerial nº 147, de 31 de maio
de 1995 e alterada pelo Decreto Presidencial nº 4.829, de 3 de setembro de 2003, para coordenar e integrar todas as
iniciativas de serviços Internet no país, promovendo a qualidade técnica, a inovação e a disseminação dos serviços
ofertados.
4
E-bit - Presente no mercado brasileiro desde 1999, a e-bit conquistou destaque no desenvolvimento do comércio
eletrônico no país tornando-se referência em informações de e-commerce.
5
E-consumidores são pessoas que usam a web para ir além da compra, não são como os consumidores comuns, que
simplesmente entram na loja A ou B e compram. Esses novos consumidores querem mais do que entrar em uma loja e
comprar, querem se relacionar com a marca e ter a oportunidade de pesquisar, comparar preços, vantagens, serviços.
Não se baseiam apenas no preço, mas também em todo o contexto oferecido pela loja, em suas promessas e,
principalmente, no cumprimento dessas.
6
Capítulo 2. E-Mail Marketing
de Acesso, Serviços e Informações da Rede Internet), PRO TESTE (Associação
Brasileira de Defesa do Consumidor), SEPRORGS (Sindicato das Empresas de
Informática do Rio Grande do Sul).
De acordo com a CGI.br, o Código de auto-regulamentação para prática
de e-mail marketing regulamenta segundo o Artigo 1º : “O presente Código
tem por objeto definir as regras a serem seguidas para a utilização de e-mail
como ferramenta de marketing, de forma ética, pertinente e responsável, sem
prejuízo da concomitante aplicação da legislação vigente aplicável”.
2.3. Definição de SPAM
SPAM é um termo usado para a prática de enviar mensagem de correio
eletrônico a vários destinatários sem o seu consentimento. Estas mensagens
quando são exclusivamente comerciais podem ser classificadas como UCE
(Unsolicitec Commercial E-Mail) – E-Mail comercial não solicitado e, como
apresenta em sua grande maioria um caráter publicitário apelativo, tornam-se
inconvenientes e incômodos para o receptor.
Com o desenvolvimento e a popularização da internet houve um grande
impacto na vida e na maneira das pessoas se comunicarem. A internet tornouse um meio de comunicação muito importante e com sua evolução surgiu uma
maneira de inovar o negócio, tornando mais fácil e ágil a busca por
informações.
Entretanto, com todo esse avanço que ajudou a viabilizar a globalização
de diversas áreas da economia e do conhecimento, surgiram diversas práticas
boas e ruins. Simultaneamente a toda essa revolução na forma como a
internet se tornava importante às vidas das pessoas e empresas, um
fenômeno surgiu se tornando uns dos principais problemas da comunicação, o
envio não solicitado de mensagens em massa. Tal prática ficou conhecida
como spamming, os autores das mensagens como spammers e a mensagem
enviada como spam.
O envio de cartas correntes para obtenção de dinheiro e os panfletos
distribuídos nas ruas, assim como ligações telefônicas para ofertar produtos a
7
Capítulo 2. E-Mail Marketing
possíveis consumidores, são considerados os precursores do spam. Porém,
agir desta forma demanda certo investimento e trabalhar em grande escala
pode inviabilizar sua distribuição.
Com a internet e seu grande avanço em disponibilizar um canal de
acesso rápido e fácil, exigindo um investimento menor e com abrangência
maior em sua distribuição, disseminou-se dessa forma o envio de spam.
De acordo com o site Antispam.br define-se como o “nascimento oficial”
do spam na rede mundial, a data de 05 de março de 1994, quando dois
advogados, Canter e Siegel, enviaram aos usuários de um grupo de discussão
da USENET, uma mensagem sobre a loteria de Green Cards americanos, algo
considerável inconcebível, pois se tratava de um assunto totalmente fora do
foco do assunto em discussão. Posteriormente, na data de 12 de abril de 1994,
por meio do uso de um programa automatizado para envio em massa, a
mesma mensagem foi distribuída para vários grupos de discussões dentro da
USENET, causando dessa forma uma reação negativa e comprometendo o
desempenho da rede devido ao grande volume de mensagens trocadas. Desde
então, esta característica ficou conhecida como um efeito colateral que o
spam pode causar.
A origem do termo spam usado para caracterizar o envio de correio
eletrônico indesejado, surgiu logo após, durante as diversas discussões sobre o
fato ocorrido, fazendo referência a uma cena do programa de TV do grupo
inglês Monty Phyton, onde um grupo de vikings está reunido em uma taverna,
recitando por diversas vezes em um texto chato e repetitivo, a palavra spam,
referindo-se ao um enlatado de presunto condimentado americano fabricado
pela Hormel Foods, o SPAM®. Assim, uma reação de incomodo e perturbação
foi experimentada pelos usuários da USENET ao receberem por diversas vezes
a mesma mensagem.
Vários tipos de spam surgiram após a sua criação, sejam eles apenas
correntes ou publicidades até crimes praticados por meio de e-mails com
códigos maliciosos capazes de lesar o destinatário.
Atualmente, o spam pode ser classificado como correntes, boatos,
lendas urbanas, propagandas, ameaças, pornografia, códigos maliciosos (vírus,
8
Capítulo 2. E-Mail Marketing
worms e trojans), fraudes, estelionato e golpes, SPIM (spam via Internet
Messenger), spam via redes sociais e SPIT (spam over internet telephony).
2.4. Diferenças e vantagens entre E-Mail Marketing e Mala Direta
Mala direta é um sistema para divulgação de produtos, serviços ou
apenas informações, focada em atingir diretamente o consumidor final. Uma
mensagem, comunicado ou alerta que é enviado para um grande número de
pessoas sob um mesmo modelo, é considerado mala direta.
O envio de e-mail marketing em comparação à mala direta é superior,
pois para o envio de uma mala direta seria necessário dias ou até semanas,
devido a impressão do material e a demora dos correios. Já o envio do e-mail
marketing poderia ser feito em apenas um dia.
O baixo custo de uma campanha de e-mail marketing também é um
diferencial e uma vantagem em comparação a campanha impressa, que exige
grande investimento para causar um efeito significativo. Além de receber
relatório com informações das ações dos clientes.
A aceitação dos usuários também é uma diferença para se destacar,
enquanto a mala direta quase nunca possui um retorno positivo, o e-mail
marketing possui um maior número de aceitação e retorno positivo.
2.5. Marketing de telefonia móvel
O marketing de mídias digitais, como a internet e a telefonia móvel,
promove um poderoso meio para se chegar aos consumidores, pois permite
uma interatividade e personalização do conteúdo e contexto da mensagem. A
resposta do consumidor à mensagem recebida está fortemente ligada a sua
relevância e a aceitação de recepção da mensagem. Desta forma, quanto
maior for a personalização da mensagem ao destinatário e que atenda aos
seus interesses, maiores são as chances de se realizar uma transação de
sucesso.
9
Capítulo 2. E-Mail Marketing
Hoje em dia viver em um mundo globalizado cuja evolução tecnológica é
constante, proporciona a todos a facilidade de acesso a novas tecnologias com
mais recursos e vantagens a um preço cada vez menor. Com esta evolução
surgiram novos canais ou mídias de comunicação de marketing, assim como o
e-mail, SMS6 (Serviço de Mensagens Curtas) e MMS7 (Serviço de Mensagens
Multimídias). Estas mídias digitais são consideradas pelo potencial de melhorar
as possibilidades de chegar aos consumidores.
Simultaneamente a esse avanço, existe uma desvantagem potencial ao
uso dos novos meios digitais. O aumento do número de mídias tem levado a
uma dura competição para ganhar a atenção do consumidor. Hoje em dia é
afirmado que os consumidores são independentes, individualistas, envolvidos
e informados, o que torna ainda mais difícil de conduzir uma comunicação
baseada em interrupção. De acordo com um estudo de (FORRESTER, 2001)
companhias usando SMS expressaram medo por invasão da privacidade do
consumidor (80%) e reação negativa dos consumidores (60%) como uma
desvantagem de mídia.
Tradicionalmente, as estratégias de comunicação de marketing têm sido
baseadas na lógica de interrupção, na qual os consumidores são forçados a
prestar atenção. Para resolver isto, tem-se argumentado que os benefícios das
empresas em conseguir a permissão dos consumidores possam ser
concatenados, tornado mais fácil chegar a eles por meio de mensagens
publicitárias. Entretanto, a permissão não é necessariamente uma garantia de
que o consumidor irá prestar atenção. Uma questão crucial é descobrir que
tipos de obstáculos existem para que se possam usar os meios móveis em seu
total potencial. Com o marketing móvel a comunicação de marketing pode ser
alcançada com o consumidor em qualquer lugar e a qualquer hora.
6
SMS – Serviço de Mensagens Curtas (em inglês: Short Message Service, é um serviço disponível em telefones
celulares digitais que permite o envio de mensagens curtas, sendo 255 caracteres em GSM ou 160 caracteres em
CDMA).
7
MMS – Serviço de Mensagens Multimídias (em inglês: Multimedia Messaging Service) é uma tecnologia que permite
aos telefones celulares enviar e receber mensagens multimídias. É uma evolução do SMS, permitindo adicionar recursos
audiovisuais, como imagens, sons e gráficos.
10
Capítulo 2. E-Mail Marketing
Diferentes modelos de eficácia de mídia têm sido usados para mensurar
o sucesso da comunicação de marketing para chegar aos consumidores. O
melhor modelo para comparação da eficiência de campanhas publicitárias é
provavelmente o primeiro modelo publicado pela ARF8.
O modelo original contém seis estágios ou níveis de hierarquia dos
efeitos da publicidade: veículo de distribuição, veículo de exposição, exposição
de publicidade, percepção a publicidade, comunicação da publicidade e
vendas. Um modelo atualizado incluiu as novas mídias digitais e criou oito
níveis de hierarquia de desempenho; distribuição por veículos, exposição de
veículos, exposição de publicidade, publicidade de atenção, publicidade de
comunicação, publicidade de persuasão, publicidade de resposta e reposta de
vendas.
É crucial aos comerciantes conhecer os consumidores que estão abertos
e suscetíveis a comunicação de marketing móvel. Considerando o atual estado
de conhecimento relativo ao meio móvel, existe uma necessidade de explorar
como os consumidores reagem a diferentes mídias.
A resposta dos consumidores é modelada como uma função do
consumidor baseada na relevância do conteúdo da comunicação de marketing
e aceitação/perturbação dos meios de marketing.
Uma mídia é considerada efetiva quando estiver baseada em como os
consumidores respondem a comunicação de marketing. A resposta do
consumidor esta na reflexão do consumidor ao valor percebido na
comunicação. Desta forma a comunicação de marketing deveria ter valor para
o consumidor e seria avaliada de acordo com as necessidades de informação
do consumidor relativos ao contexto e conteúdo.
Construído sobre um serviço de modelos de qualidade, dois valores
criam dimensões: a dimensão técnica e a dimensão funcional, que se referem
ao resultado (o quê) e ao processo (como) respectivamente. Segundo
8
ARF – Advertising Research Foundation é uma organização sem fins lucrativos para associação de membros
corporativos, com sede em Nova York, e fundada em 1936 pela Associação Nacional dos Anunciantes e Associação
Americana de Agências de Publicidade, que supervisiona a pesquisa de mídia e trabalha no sentido de "marketing mais
rentáveis por meio de uma investigação mais eficaz” e lançou o seu primeiro modelo em 1961.
11
Capítulo 2. E-Mail Marketing
DUCOFFE, ([1995,1996]) que conceitualizou valor da publicidade baseado no
conteúdo(o quê) e na forma (como). Ele definiu o valor da publicidade como
“uma representação global do valor da publicidade para os consumidores.”
(HARVEY, 1997 - p.22).
2.5.1. Meio de aceitação
Os efeitos da mídia e das mensagens de publicidade são de interesse,
pois uma nova mídia interativa permite mais contato direto com o
consumidor. A resposta e atenção do consumidor a publicidade é influenciada
pelas situações (onde e quando), na qual o consumidor recebe a mensagem.
Por causa da interatividade e da natureza pessoal de cada indivíduo, o
consumidor pode estar em várias situações diferentes quando receber a
mensagem. O meio influencia a resposta do consumidor aumentando a
aceitação senão houver perturbação ao que ele esteja fazendo no momento.
Se o consumidor considerar uma perturbação receber estas mensagens, isto
afetará negativamente a aceitação e percepção do contexto da mensagem
enviada. Em contrapartida, o meio também pode melhorar a aceitação se
estiver retratado de forma apropriada para uma comunicação de publicidade
específica.
O conceito de intrusão influencia a percepção do consumidor à
mensagem enviada e pode ser útil para descrever como sentimentos negativos
surgem das publicidades, assim como, a irritação, levar ao comportamento de
esquiva, distração, intrusão, invasão e obstrução. A natureza da comunicação
de marketing direto pode também ultrapassar a fronteira da discrição e invadir
a privacidade do consumidor, como por exemplo, um e-mail não autorizado ou
um spam são considerados uma invasão de privacidade, pois o dado e-mail
está sendo manipulado por terceiros, e isso tem se tornado atualmente um
sério problema para vários consumidores.
Interrupções podem ser intrusivas quando não são esperadas, como por
exemplo, consumidores recebem mensagens quando estão em um shopping
ou em uma reunião, o horário e o lugar pode influenciar a resposta e
12
Capítulo 2. E-Mail Marketing
consequentemente diminuir a atenção do consumidor para a mensagem de
publicidade e pode ser relatado também como um problema.
2.5.2. Relevância do conteúdo
Outro aspecto importante que influencia a resposta do consumidor é o
seu interesse sobre determinado assunto e a relevância (o quê) que este
assunto tem sobre determinado consumidor. A intrusão das propagandas
pode ser moderada por meio da utilidade do conteúdo para o consumidor.
Pode ser difícil criar um conteúdo relevante, pois cada consumidor tem um
gosto específico, sendo assim necessário tratar cada consumidor de forma
única através de diferentes perfis. Em outras palavras, o quê é relevante para
um consumidor pode não ser tão relevante para outro. Por exemplo, um
consumidor é interessado em golfe enquanto que outro tem interesse por
jardinagem e esportes automotivos.
Alta relevância pode ter dois caminhos diferentes:

Alto compromentimento com umacerta marca ou serviço
prestado, pode tornar o consumidor mais receptivo a mensagem
encaminhada.

Similarmente, alto envolvimento com uma categoria de produto
ou atividade pode levar a uma relevância mais alta para o
consumidor.
Estes caminhos são focados no compromentimento e nas informações
relevantes geradas por meio do envolvimento do consumidor.
2.6. Considerações
Este capítulo apresentou o tema base a ser abordado no trabalho e as
medidas a serem seguidas para que não ocorra práticas indevidas na utilização
da internet, esta que seráomeio escolhido para envio de mensagens
publicitárias. No próximo capítulo será abordada a personalização na Web e
13
Capítulo 2. E-Mail Marketing
suas vantagens, assim como, as técnicas para se obter tais vantagens. Para
isto, é necessário a utilização de um sistema de recomendação personalizado
que atenda aos interesses únicos de cada pessoa que faça parte da base de
clientes da ferramenta implementada.
14
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
3. Sistemas de Recomendação e Mineração de Dados
A personalização na web é um recurso muito útil que permite tomar
decisões baseadas no interesse peculiar de cada usuário, com esta abordagem
é possível direcionar uma campanha a um cliente ofertando apenas produtos
que satisfaçam as necessidades e vontades de cada pessoa.
É necessário obter estas informações sobre os clientes de forma
controlada e não invasiva. Ao se cadastrar em um site, por exemplo, o cliente
pode criar seu perfil, indicando áreas de interesse para que este possa receber
e-mails de ofertas, portanto, é necessário o consentimento do cliente para
receber tal serviço de mensagens.
Mas não somente estas informações prévias do cliente são suficentes para
se obter uma abordagem efetiva, é preciso também conhecer os hábitos dos
clientes, analisar grupos de clientes que tenham perfis semelhantes. Sendo
assim, quanto mais dados relevantes estiverem disponíveis, melhor será a
análise para a formulação de uma recomendação ao cliente.
Os benefícios da personalização não são somente visto pelos clientes, mas
também e principalmente pela empresa que quer saber qual a necessidade do
mercado. Oferecer serviços personalizados pode ser um diferencial capaz de
possibilitar uma taxa maior de conversão de visitantes em consumidores.
3.1. Personalização na Web
Personalizar é tornar algo adaptável a alguém, adequando os serviços
oferecido a sua vontade, necessidades e preferências. É apresentar algo de
forma diferente a cada pessoa, pois cada uma tem um gosto definido, um
perfil formado (GABBER, GIBBONS, MATIAS e MAYER, 1997). Portanto atender
aos interesses de um consumidor nem sempre é possível através de uma
campanha de interesse voltada a um grupo geral. Para tal, é necessário utilizar
uma abordagem adaptativa, onde o conteúdo e as ofertas devem ser feitas de
acordo com os interesses e preferências de cada cliente. Desta forma as
15
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
empresas são capazes de compreenderem e se relacionar melhor com o seu
público alvo.
Personalização é um meio pelo qual é possível diminuir o tempo gasto
para encontrar e elaborar produtos, proporcionando a uma empresa agilidade
e conveniência ao seu processo de aquisição de produtos e/ou serviços
prestados. No entanto, a personalização se dá por meio da análise dos hábitos
de navegação do usuário com base no seu histórico, agregados a um perfil
previamente criado com base em áreas de interesse primário do próprio
cliente durante o cadastro. Desta forma, aumenta-se a probabilidade de
sucesso nas vendas.
De acordo com (KOCH e MOSLEIN, 2003), para utilizar a personalização é
necessário que algumas informações sejam obtidas de forma a utilizá-las para
fins de divulgação e cálculos estatísticos a fim de descobrir a preferência dos
usuários de um modo geral.
De maneira geral, a personalização de sistemas ocorre em duas etapas9:
1. A interação do usuário no sistema é monitorada. As informações
coletadas são utilizadas para manutenção de modelos de usuários.
2. A apresentação dos conteúdos do sistema ao usuário pode ser
modificada, sugerindo qual o próximo caminho ou quais opções de
caminhos que podem ser seguidos.
Rastrear a navegação em um site permite identificar áreas e produtos
mais acessados, ao passo que se na utilização de um site o usuário estiver
logado, é possível fazer o rastreamento de navegação individual do cliente. O
perfil de um cliente pode ser realizado por meio de diversas informações, tais
como: produtos adquiridos, áreas favoritas e mais visitadas, perfis sócio
demográficos, além da avaliação e comentário de outros usuários comuns
sobre determinado produto e/ou serviço.
9
Alguns autores como Kobsa preferem a divisão em três etapas, separando a segunda etapa em: modificação da
apresentação de links e modificação na apresentação de conteúdos (KOBSA,KOENEMANN e POHL, 2001)
16
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
Esses métodos de análise podem ser destinados ao uso em sites de
conteúdo10, lojas virtuais11, e-mail marketing, newsletters12 e toda e qualquer
comunicação on-line entre empresas e seus clientes, prospects13, suspects14 e
parceiros (VEDOVELI, 2007).
É no ambiente comercial que a personalização é mais utilizada, pois
permite um atendimento melhor e diferenciado ao usuário. Neste ponto, a
internet tornou-se um ambiente ideal para a personalização, por causa da
facilidade do rastreamento e da avaliação dos hábitos.
A personalização de sistemas possui também outras nomenclaturas
conforme características específicas a respeito das técnicas utilizadas e
resultados obtidos. Entretanto, os objetivos restringem-se a oferecer
informações para as pessoas que realmente necessitam delas (BELVIN e
CROFT, 1992). Outras denominações são Sistemas Hipermídia Adaptativa
(SHA) (BRUSILOVSKY, 2001), Sistemas de Recomendação (RESNICK e VARIAN,
1997), ou Sistemas Tutores Inteligentes.
Os sistemas adaptativos possuem um mecanismo cuja existência não é
visível ao usuário, são encarregados de realizar a adaptação de conteúdo, de
links e sugestões automaticamente. Os sistemas adaptáveis são aqueles cujo
onível da personalização é controlada pelo próprio usuário.
Os sistemas adaptativos e adaptáveis são tipos de sistemas interativos, ou
seja, que se “moldam” de acordo com as respostas dos usuários. Já os sistemas
hipermídia tradicionais não são sistemas interativos apesar de proporcionarem
10
Sites de conteúdo são sites focados em um tema ou público específico, tais como: jardinagem, economia, culinária,
futebol, artes, e uma infinidade de outros assuntos de interesse. Nesses sites, o internauta encontra conhecimento,
fóruns de debates, dicas úteis, além de poder interagir com outras pessoas de interesse semelhante, sempre em torno
de um tema central.
11
As lojas virtuais surgiram em meados dos anos 90 e são a face visível de uma verdadeira revolução no comércio. Nas
lojas virtuais não há necessidade da presença física nem do comprador, nem do vendedor; lojas virtuais não
necessitam do manuseio de papel moeda e, tampouco, necessitam da mercadoria no momento da transação. Nas lojas
virtuais, a relação ocorre entre um comprador e um sistema hospedado em um computador localizado em qualquer
lugar do planeta.
12
A Newsletter é uma comunicação regular e periódica enviada para clientes e para pessoas que possam ser potenciais
novos clientes para a empresa, oferecendo conteúdo sobre assunto específico juntamente com ofertas de produtos e
serviços.
13
Prospects vem do inglês e significa ver probabilidades. Muito usado em vendas, significando construir uma carteira de
clientes a partir de um levantamento dos possíveis compradores e então criar estratégias para enfim torná-los
definitivamente clientes
14
São aquelas empresas ou indivíduos que se encaixam no perfil de futuros clientes, mas, ainda não compram. São
considerados como alvo.
17
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
uma navegação não linear. Tais definições estão combinadas e representadas
na figura 3.1.
Figura 3. 1– Divisão dos Sistemas computacionais segundo
FONTE: GOTARDO, 2008.
Customização é outra denominação mais abrangente proposta por KOBSA
(1994), que trata da observância do modelo de usuário e também do contexto
onde está inserida a informação.
3.2. Sistemas de Recomendação
Cotidianamente as pessoas se encontram em situações em que não são
raras às vezes em que ficam na dúvida sobre qual produto e/ou serviço devem
escolher devido a grande quantidade de alternativas que se encontram a
disposição. Tomar esta decisão pode não ser tão trivial quanto parece
principalmente se for algo desconhecido da pessoa ou novo no mercado.
Assim, uma recomendação vinda de outro cliente que conhece determinado
produto/serviço, pode influenciar de maneira positiva na decisão de compra, à
18
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
medida que tal produto/serviço já foi testado e aprovado por outros
consumidores e pode ser indicado.
É importante também considerar o fato de comprar um produto de uma
marca específica, pois já é sabido sobre a sua qualidade e destaque no
mercado, mas isto implica em não comprar novos produtos de outras marcas
que possam ser tão bons quanto e possuir um custo/benefício mais
compensador.
Uma alternativa para auxiliar nesta decisão é o uso de sistemas de
recomendação, pois por meio deste uma indicação de compra será
apresentada ao consumidor. Estes sistemas possuem a capacidade de analisar
não somente o perfil do usuário, mas também analisar um grupo de clientes
similares, os produtos mais vendidos, basearem-se no histórico do cliente ou
pela sua localidade geográfica, assim, o sistema de recomendação por meio de
alguma técnica de mineração de dados, tais como utilização do algoritmo de KMeans ou o algoritmo de Apriori, é capaz de encontrar um padrão e poder
sugerir determinada recomendação, fato que não necessariamente deve ser
seguido pelo usuário.
A recomendação é uma forma de indicação que tem como finalidade
indicar uma escolha de acordo com as necessidades e interesses do cliente,
mas não deve ser uma imposição para a pessoa, que é quem de fato irá tomar
suas próprias decisões, sendo assim, não existe um único caminho a ser
seguido.
Um sistema de recomendação requer estudos em outras áreas tal como
a Inteligência Artificial, que auxilia na descoberta de padrões feita pela análise
de informações, mas também engloba vários estudos voltados a diversas áreas
como a Interface Humano-Computador (IHC), destinados à adaptação
personalizada do conteúdo a cada usuário.
Segundo SCHAFER(2000), a estrutura de um Sistema de Recomendação
é constituída de quatro etapas: identificação do usuário, coleta de informações,
estratégias de recomendação e visualização das recomendações. A Figura 3.2
ilustra esse processo de acordo com o modelo de Schafer.
19
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
Figura 3. 2– Estrutura dos Sistemas de Recomendação
FONTE: BARCELLOS, 2007.
O primeiro sistema de recomendação foi denominado de Tapestry, que
é um sistema de e-mail com a capacidade de gerenciar documentos eletrônicos
recebidos levando em consideração a opinião daqueles que já leram o
documento. Assim sendo, foi criada a expressão “filtragem colaborativa” que
representa uma aplicação direta para os sistemas de recomendação. Neste tipo
de aplicação, existe o auxílio explícito humano para obtenção de informações,
gerando a criação de grupos de interesse, mesmo que seja indiretamente
(REATEGUI, CAZELLA e OSÓRIO, 2006).
Além disso, diversos websites possibilitam ao cliente fazer a avaliação
dos produtos vendidos, desta forma, é possível utilizar-se da capacidade de
obter informações sobre as vendas e disponibilizar uma avaliação que possa
influenciar novos clientes na hora de comprar um determinado produto. As
figuras 3.3 e 3.4 a seguir, ilustram o sistema de vendas do site brasileiro Livraria
Saraiva, onde é possível observar esta funcionalidade. Nele, existe a
possibilidade de ver as classificações já feitas, bem como, poder deixar a sua
própria avaliação.
20
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
Os algoritmos de filtragem colaborativa partem do principio de que um
usuário ativo possui uma maior probabilidade de se interessar por itens que
outros usuários semelhantes preferem ou preferiam. Para isto, é necessário
calcular o grau de similaridade entre o usuário ativo (alvo) e os outros usuários,
onde tal cálculo é obtido utilizando-se as medidas de Jaccard ou Cosseno para
determinar a semelhança dos usuários, desta forma, os itens com maior grau
de similaridade são recomendados (GOLDBERG et al., 1992) (RESNICK e
VARIAN, 1997).
Figura 3. 3– Recomendação em Websites de e-commerce: indicação de quem
comprou.
FONTE: LIVRARIA SARAIVA.
21
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
Figura 3. 4– Recomendação em Websites de e-commerce: possibilidade de
avaliar o produto e deixar uma opinião.
FONTE: LIVRARIA SARAIVA.
Em um site de E-commerce 15 , com o auxilio de um sistema de
recomendação, este é capaz de adaptar o seu conteúdo de acordo com o
consumidor em questão. Portanto, um sistema de recomendação automatiza o
processo de personalização na Web, possibilitando uma personalização
individual para cada consumidor, sendo assim, o ideal seria, se um site tiver um
milhão de clientes, ele deveria ter um milhão de lojas na Web para atender
seus clientes de maneira única.
Portanto, existem várias técnicas de personalização baseadas em: perfil
do usuário com exibição de “itens preferenciais”, nos “itens mais vendidos”,
nas “ofertas casadas” de acordo com a análise de quem tem perfil similar e
comprou também outro determinado produto, nos produtos que possuem
melhores classificações, entre outros.
15
E-commerce ou comércio eletrônico em português brasileiro é um tipo de transação comercial feita
especialmente através de um meio digital utilizando-se um equipamento eletrônico, por exemplo, o
computador. Conceitua-se como o uso da comunicação eletrônica e digital, aplicada aos negócios,
criando, alterando ou redefinindo valores entre organizações ou entre estas e indivíduos.
22
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
3.3. Mineração de Dados
São técnicas que buscam reconhecimentos de padrões dentro de uma grande
base de dados, por meio de processos computacionais que extraem
conhecimento não trivial e são muito utilizadas para o auxilio de tomada de
decisões.
3.3.1. Considerações Iniciais
Atualmente, com o advento da World Wide Web16 ou simplesmente
Web, muitos benefícios foram trazidos para a vida cotidiana de todos. A busca
por informações e o seu acesso, que antes só era possível através de pesquisas
em livros ou pedindo uma indicação a pessoas amigas ou um especialista. Hoje
tais informações encontram-se disponíveis utilizando apenas poucos cliques em
uma página Web, sem haver a necessidade de sair do conforto de casa ou
escritório.
A Web consiste de bilhões de documentos interligados entre si, criado
por milhões de pessoas. Sendo assim, a internet se tornou a maior e mais
ampla fonte conhecida de informações com fácil acesso e pesquisa ao seu
conteúdo (LIU, 2007).
É também um importante canal para realização de negócios e
comunicação entre pessoas que estejam em qualquer lugar do mundo.
Como o compartilhamento de informações acontece numa escala
mundial, existe uma preocupação de como disponibilizá-las de forma ordenada
e eficiente, não bastando apenas ter informação disponível, e sim, são
necessários meios de obtê-las rapidamente e que possuam relevância.
Segundo LIU (2007), o rápido crescimento da Web na última década a
tornou a maior fonte de dados de acesso público no mundo com características
únicas, tornado a mineração de dados e conhecimentos numa tarefa fascinante
e desafiadora.
16
World Wide Web é um sistema de documentos hipermídia que são interligados e executados na
internet que permite que um usuário de computador tenha acesso a informações armazenadas em
outro computador pertencente à outra rede interconectada.
23
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
As características únicas mencionadas segundo LIU (2007) são descritas
na tabela 3.1, cuja finalidade é demonstrar os desafios e oportunidades da
mineração para a descoberta de informações a partir da web e da geração de
conhecimentos por meio da análise desses dados.
Tabela 3. 1 – Características Únicas da Web segundo LIU (2007).
Características Únicas da Web
01
A quantidade de dados e informações na Web é enorme e continuam crescendo.
É possível encontrar informações sobre quase tudo na Web
02
Existem dados de todos os tipos, tais como: tabelas estruturadas, páginas Web
semi-estruturadas, textos desestruturados e arquivos de multimídia (imagens,
áudios e vídeos).
03
A informação na Web é heterogênea. Devido às diversas autorias, múltiplas
páginas podem apresentar a mesma informação ou informação similar usando
palavras totalmente diferentes e/ou formatos. Isso faz com que a integração de
informação de várias páginas se torne um problema desafiador.
04
Uma quantidade significativa de informações estão vinculadas. Dentro de um
site os hyperlinks representam um mecanismo de organização da informação.
Entre sites, os hyperlinks representam uma transmissão implícita de autoria para
outras páginas.
05
A informação é ruidosa, ou seja, pode conter informações irrelevantes ou
informações cuja fonte não é segura. Estes ruídos surgem de duas fontes:
Primeira – a página contém muitas partes de informações, por exemplo, (página
principal é formada por: hyperlinks de navegação, anúncios, direitos autorais,
informação). Pode ser que as várias informações não sejam relevantes a não ser
apenas o conteúdo principal.
Segundo – como não existe controle de qualidade, uma pessoa pode escrever
quase tudo sobre o que gosta com informações de baixa qualidade, errôneas ou
mesmo enganadora.
06
A Web é voltada à área de serviços. Muitos sites comerciais permitem por meio
de seus sites serviços úteis tais como: compra de produtos, pagamento de
contas, preenchimento de formulários.
07
A Web é dinâmica, sua informação muda constantemente.
08
A Web é uma sociedade virtual. Ela não contém apenas dados, informações e
serviços, mas possibilita também a interação entre pessoas, empresas e sistemas
automatizados. Qualquer um pode se comunicar com pessoas do mundo de
24
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
25
maneira fácil e instantânea, bem como expressar sua opinião em fóruns, blogs e
sites de avaliação.
A mineração de dados é também chamada de Knowledge Discovery in
Databases – KDD (em português: Descoberta de Conhecimento em Bancos de
Dados). Conforme BERRY e LINOFF (1997), mineração de dados é a exploração
e análise, da maneira mais automatizada possível, de grandes bases de dados
com objetivo de descobrir padrões e regras. O seu objetivo principal é fornecer
informações úteis que permitam as empresas montarem de forma mais
objetiva as estratégias de marketing, vendas e suporte, melhorando assim os
seus negócios.
A figura 3.5 ilustra as fases do processo do KDD: seleção dos dados, préprocessamento e limpeza dos dados, transformação dos dados, mineração dos
dados e análise dos resultados.
Seleção
Pré-Processamento
e limpeza
Transformação
Mineração
de Dados
Conhecimento
Banco de
Dados
Dados
Selecionados
Interpretação
e Avaliação
Dados
Pré-Processados
Dados
Transformados
Padrões
Figura 3. 5 – Fases do KDD
A mineração de dados é uma área de pesquisa multidisciplinar que
envolve tecnologias de aprendizado de máquina, estatísticas, banco de dados,
inteligência artificial, recuperação de informação e visualização dos resultados
obtidos.
3.3.2. Pré-Processamento de Dados
O pré-processamento na Mineração de dados é uma etapa essencial,
pois as bases de dados reais apresentam dados incompletos, ruídos e
inconsistências o que afeta negativamente os resultados finais. Esta etapa
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
26
compreende basicamente a aplicação de várias técnicas para preparação dos
dados, organização e tratamento, o que aumenta a qualidade e determina a
eficiência dos algoritmos de mineração.
O pré-processamento é divido em tarefas como:
1.
Limpeza dos dados – resolve inconsistências, preenche dados
faltantes.
2.
Integração e transformação de Dados – integração de dados de
origens diferentes.
3.
Transformação – normalização e agregação.
4.
Redução – redução do volume de dados que não afeta
significantemente o resultado final.
Limpeza dos dados
Integração dos
dados
Transformação dos
dados
atributos
atributos
transações
Redução dos dados
Figura 3. 6– Fases do Pré-Processamento
3.3.2.1.
Limpeza dos Dados
Preencher os valores inexistentes, suavizar ruídos, identificar valores for
de série (observações discordantes que podem afetar procedimentos de
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
27
análise), resolver redundâncias e dados inconsistentes, identificação e remoção
de desvios, isto é, possui como objetivo principal melhorar a qualidade dos
dados.
3.3.2.2.
Valores Ausentes
São atributos que possuem valores incompletos ou nenhum valor,
podem ocorrer devido ao mau funcionamento do equipamento, falhas e
enganos humanos, inconsistência com outros dados gravados, etc.
Algumas formas de se corrigir esses erros ausentes são:
 Preencher com medidas estatísticas utilizando média do atributo,
média relativa do atributo em todos os registros que estiverem na
mesma situação.
 Preencher com valores manualmente com base em pesquisas nas
fontes originais dos dados.
 Ignorar o registro.
 Utilizar o valor de maior probabilidade para preencher os valores
ausentes, utilizando a técnica de regressão como árvore de decisão
ou
formalismo
bayesiano,
que
permite
codificar
modelos
multivariados à partir da exploração das relações de independência
entre as variáveis.
3.3.2.3.
Dados Ruidosos
São dados que possuem um erro aleatório ou um valor que contraria a
lógica e podem ocorrer devido às falhas nos instrumentos de coleta, problemas
de entrada de dados ou de transmissão, limitação de tecnologia, inconsistência
nas convenções dos nomes.
Algumas formas de se corrigir esses dados ruidosos são:

Compartimentalização: ocorre a partir de uma consulta na vizinhança
de dados ordenados.
Os valores ordenados devem ser armazenados em grupos.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
A suavização ocorre dentro de cada grupo, efetuando-se a média,
mediana, etc.
Pode ocorrer de duas maneiras:
o Particionamento por distância: Divide-se os dados em N
intervalos de mesmo tamanho.
Se A e B são os valores mínimo e máximo do atributo, a largura dos
W intervalos será W=(B-A)/N.
o Particionamento por frequência: Divide os dados em N
intervalos com o mesmo número de amostras.

Clusterização: Identifica e remove os outliers.

Inspeção humana e computadorizada: Valores suspeitos são
identificados pelo computador e avaliados por um ser humano.

Regressão: Suavização por meio do ajuste de dados a uma função de
regressão, os dados podem ser suavizados por meio do ajustamento
em uma função como mostrado na figura 3.7.
Figura 3. 7 – Gráfico que representa uma regressão
FONTE: MERSCHMANN, 2011
28
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
3.3.3. Integração dos Dados
A integração de dados corresponde a fusão ou combinação de dados de
múltiplas fontes em uma única fonte de forma coerente. As fontes podem ser
cubos, arquivos de texto ou bases de dados entre outros tipos de
armazenamento. Tem como objetivo identificar e resolver conflitos de valores,
obtendo assim dados em uma forma mais apropriada para a mineração de
dados.
3.3.3.1.
Redundância dos Dados
Um atributo é considerado redundante quando ele pode ser derivado
de outro armazenamento (tabela).
A redundância geralmente ocorre durante a integração de bases de
dados, pode ser detectado por análise de correlação, método que mede o
quanto dois atributos são correlatos. Pode-se identificar a redundância por
meio da geração de tuplas (registro na base de dados) idênticas geradas em
uma mesma entrada de dados.
3.3.3.2.
Detecção e resolução de valores conflitantes
Para relações em bases de dados no mundo real os valores dos atributos
podem diferir em diversas fontes de dados podendo haver uma
heterogeneidade semântica e isto causa um grande desafio na integração de
dados, uma vez que se pode ter várias representações diferentes para um
mesmo atributo presente em bases de dados distintas. Para resolver este
problema é necessária a busca de uma solução capaz de representar
univocamente estes atributos. Uma forma de se obter isso é por meio do uso
de funções específicas do próprio SGBD capazes de tratar estes valores
conflitantes durante a importação dos dados, verificando quais são estes
valores e substituindo por valores uniformes.
29
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
3.3.3.3.
Integração de esquemas internos
Diferentes entidades do mundo real podem ser semelhantes e cair no
problema típico de identificação de entidades caso estejam definidas em vários
esquemas com atributos diferentes.
Formatos de armazenamento de dados podem afetar também na forma
como se recupera e integra dados. A variedade de sistemas operacionais são
outros fatores que dificultam o acesso aos inúmeros protocolos para
recuperação e integração dos dados.
3.3.3.4.
Transformação de dados
Tem como objetivo transformar e consolidar dados para obter uma
forma mais apropriada para aplicação do reconhecimento de padrões.
3.3.3.5.
Normalização
O objetivo da normalização é diminuir os problemas originados do uso
de unidades e dispersões distintas entre as variáveis, colocando os valores em
uma faixa pré-especificada, por exemplo: valores entre 0 e 1.

Normalização min-max:

Z-Score:

Escalonamento Decimal:
3.3.4. Redução
Tem como objetivo a redução do conjunto de dados, mantendo a
integridade e a distribuição de probabilidade semelhante ao original. O que
simplifica a mineração desse novo conjunto de dados, obtendo resultados mais
30
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
eficientes do que o conjunto de dados original. Uma das razões para efetuar a
redução de dados é a ultrapassagem da capacidade de processamento dos
programas de aprendizagem.
Estratégias:
 Agregação via cubo: Operações de agregação são aplicadas aos
dados na construção dos cubos de dados como mostra a figura 3.8.
Figura 3. 8– Representação de agregação via cubo
FONTE: MERSCHMANN, 2011
 Redução de dimensão: Bases de dados podem conter muitos
atributos, alguns desses podem ser irrelevantes, fracos ou
redundantes para a mineração de dados, neste caso são identificados
e retirados.

Compressão de dados: Dados são transformados para obtenção de
uma representação mais simples e reduzida do conjunto de dados
original.
Figura 3. 9– Representação da compressão de dados
FONTE: MERSCHMANN, 2011

Discretização: São alterados os valores de atributos por intervalos ou
níveis de conceitos mais elevados.
31
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
3.4. Medidas de Similaridade
Medidas de semelhança e diferenças são importantes artifícios
utilizados em várias técnicas de mineração como, por exemplo, em
agrupamento, classificação do vizinho mais próximo, etc. À medida que estas
semelhanças ou diferenças são calculadas, o conjunto de dados iniciais pode
não ser mais útil, uma vez que já se encontra calculado estes novos parâmetros
de comparação.
Tais diferenças ou semelhanças são referenciadas por meio do termo
proximidade, este termo, indica a proximidade entre dois objetos por meio da
análise de atributos correspondentes entre ambos. O cálculo da proximidade
pode ser feito utilizando-se apenas um atributo simples ou por meio de
múltiplos atributos.
De acordo com TAN, STEINBACH E KUMAR (2009), a proximidade inclui
medidas como correlação e distância Euclidiana, que são utilizadas para se
trabalhar com dados densos tais como, séries de tempos ou pontos
bidimensionais, bem como, as medidas de semelhança cosseno e Jaccard, úteis
para trabalho com dados esparsos tais como, documentos.
A semelhança entre dois objetos é uma medida numérica do grau que
determina o quanto estes dois objetos se parecem, desta forma, a semelhança
será maior quanto mais os dois objetos sejam parecidos. O grau de semelhança
geralmente não é negativo e disposto entre a faixa de 0 a 1, onde, o 0
determina nenhuma semelhança e 1 determina semelhança completa.
A diferença por sua vez, é uma medida numérica do grau que determina
o quanto dois objetos são diferentes, desta forma, quanto mais semelhantes
são dois objetos, menor será a diferença entre ambos, e o termo que
determina essa diferença é a distância.
Para que se possa trabalhar com semelhanças ou diferenças no intervalo
[0,1] é necessária uma normalização dos dados. Esta normalização pode ser
obtida no caso da semelhança, aplicando a transformada de semelhança dada
pela expressão s’ = (s - min_s) / (mas_x – min_s) , onde max_s e min_s são os
32
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
33
valores de semelhança máxima e mínima. Para a diferença, o intervalo [0,1]
pode ser mapeado utilizando a expressão d’ = (d - min_d) / (mas_d – min_d).
Para dados ordinais, como por exemplo, um atributo que determina a
qualidade de um produto numa escala (fraca, razoável, satisfatória, boa,
ótima), os valores do atributo ordinal são mapeados com números inteiros
sucessivos, começando em 0 ou 1, desta forma, os valores normalizados são
(fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4). Assim, a distância entre
um produto classificado como de qualidade boa e outro de qualidade
satisfatória, ou seja, P1(3) e P2(2) respectivamente, a distância entre estes
produtos é dada por d(P1,P2) = d(3-2) = d(1). Agora, se for necessário trabalhar
com os valores calculados da diferença em um intervalo entre 0 e 1, basta usar
a expressão d(P1,P2) / N, onde N representa o números de variáveis presentes
na escala, que neste exemplo são as variáveis que determinam a qualidade do
produto na escala (fraca, razoável, satisfatória, boa, ótima), desta forma, a
distância é dada por d(3-2) / 5 = d(0,2).
3.4.1. Diferenças entre objetos
Como dito anteriormente, a distância é um meio de determinar a
diferença entre as propriedades de um objeto. A distância Euclidiana, d, é dada
pela seguinte fórmula descrita abaixo:
d(x,y)=
Onde n é o número de dimensões e
,
e
, são os atributos
(componentes) de índice k de x e y.
Um exemplo da aplicação da distância Euclidiana sobre quatro pontos
bidimensionais pode ser observado na figura 3.10 e nas tabelas 3.2 e 3.3.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
34
3
P1
2
P4
P4
1
P2
0
0
1
2
3
4
5
6
Figura 3. 10– Quatro pontos bidimensionais
Tabela 3. 2 – Coordenadas X e Y
ponto
Coordenada
Coordenada
X
Y
P1
1
2
P2
2
0
P3
3
1
P4
5
1
Tabela 3.3 – Matriz de distância Euclidiana para Tabela 3.2
P1
P2
P3
P4
P1
0,0
2,8
3,2
5,1
P2
2,8
0,0
1,4
3,2
P3
3,2
1,4
0,0
2,0
P4
5,1
3,2
2,0
0,0
3.4.2. Semelhanças entre objetos
Uma forma de determinar a semelhança entre objetos é a utilização das
medidas de semelhança Jaccard e cosseno. Segundo TAN, STEINBACH E KUMAR
(2009), as vezes é possível transformar facilmente uma medida de semelhança
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
35
em uma distância métrica, além de que, é possível derivar limites matemáticos
sobre a semelhança entre dois objetos, simulando uma diferença triangular.
A seguir serão apresentadas medidas de proximidade tais como:
medidas de semelhança para dados binários, semelhança de cosseno,
coeficiente de Jaccard-Tanimoto Estendido 17 e Correlação.
3.4.2.1.
Medidas de Semelhança para Dados Binários
Coeficiente de semelhança são medidas de semelhança entre objetos
que apresentam atributos com valores entre 0 e 1. O valor 0 indica nenhuma
semelhança enquanto que o valor 1 indica que estes são idênticos.
Supondo que x e y sejam dois objetos que consistam de n atributos
binários, a comparação entre estes objetos como, por exemplo, dois vetores
binários podem identificar quatro quantidades de frequências:
f00 = o número de atributos onde x é 0 e y é 0
f01 = o número de atributos onde x é 0 e y é 1
f10 = o número de atributos onde x é 1 e y é 0
f11 = o número de atributos onde x é 1 e y é 1

Coeficiente de Correspondência Simples (Simple Matching
Coefficient - SMC): é um coeficiente comumente usado e definido como:
SMC
.
O SMC pode ser usado então para contar tanto presenças quanto
ausências, desta forma, supondo uma prova cujas questões são do tipo
verdadeiro/falso, poderia ser empregado o SMC para descobrir alunos que
responderam de forma semelhante à prova.

Coeficiente de Jaccard (J): este é um coeficiente utilizado
frequentemente com atributos binários assimétricos, suponha que x e y sejam
17
O coeficiente de Jaccard-Tanimoto Estendido é uma variação do coeficiente de Jaccard para ser
utilizado em atributos contínuos, diferentemente do original que é indicado para atributos binários.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
36
objetos de dados que representam duas linhas de uma matriz de transação. Se
cada atributo binário assimétrico corresponder a um item em uma loja, então
um número 1 indica que o item foi comprado e 0 indica que não foi comprado.
Sendo o número de produtos não comprados maior que o número de produtos
comprados, a medida SMC diria que as transações são semelhantes, por sua
vez, o coeficiente de Jaccard é utilizado para tipo de dados binários
assimétricos. Este é simbolizado pelo símbolo J e representado pela seguinte
equação:
J
.
Exemplo de uso para ilustrar a diferença de semelhança entre as duas
medidas
apresentadas
acima.
Seja
o
dois
vetores
binários
X=(1,0,0,0,0,0,0,0,0,0) e Y=(0,0,0,0,0,0,1,0,0,1) onde:
f01 = 2
o número de atributos onde x é 0 e y é 1
f10 = 1
o número de atributos onde x é 1 e y é 0
f00 = 7
o número de atributos onde x é 0 e y é 0
f11 = 0
o número de atributos onde x é 1 e y é 1
SMC
J

=
=
=0
Semelhança do Cosseno: é uma das medidas mais comuns de
semelhança de documentos. Uma vez que documentos são representados
como vetores, cada atributo representa a frequência de ocorrência de um item
(palavra). Embora cada documento tenha milhares de dezenas de milhares de
atributos (termos), cada um é esparso, já que possui poucos atributos
diferentes de zero. Desta forma, a normalização para documentos não cria
entradas diferentes de zero para uma entrada igual a zero, elas preservam o
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
37
esparsamento. Assim, a semelhança não deve depender do número de valores
zero compartilhados, uma vez que, quaisquer dois documentos provavelmente
não possuem muitas palavras iguais, portanto, se correspondências 0-0 forem
encontradas, a maioria dos documentos serão muito semelhantes aos outros.
Portanto, para determinar a semelhança entre documentos é necessário
ignorar correspondências do tipo 0-0 como a medida de Jaccard, mas ao
mesmo tempo devem ser capazes de lidar com vetores não binários (TAN,
STEINBACH E KUMAR, 2009).
Seja x e y dois vetores de documentos, a representação do cosseno é
dada pela equação abaixo:
Onde · indica o produto dos ponto do vetor
é o comprimentos do vetor x,
=
.
Exemplo de calculo de semelhança através do cosseno de dois objetos
de dados que poderiam representar vetores de documentos:
x · y = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
=
= 6,45
=
= 2,24
cos(x,y) = 0,31
Desta forma, a semelhança do cosseno é na verdade uma medida do
(cosseno) ângulo entre x e y, onde, se o cosseno for igual a 1, o ângulo entre x e
y é igual a 0 e x e y são iguais, exceto pela magnitude (comprimento). Caso a
semelhança do cosseno seja 0 o ângulo entre x e y é 90˚ e eles não possuem
nenhum termo (palavra) em comum.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
38
x
Ө
y
Figura 3. 11– Ilustração Geométrica da medida de cosseno
Outra forma de escrever a equação do cosseno é mostrada a seguir:
= x’ · y’
Onde x’ = x /
e y’ = y /
. Desta forma, a divisão de x e y pelo seu
comprimento, o que os normaliza fazendo-os ter o comprimento igual a 1.
Assim, a semelhança de cosseno de dois objetos não leva em consideração a
magnitude (comprimento).
 Correlação: é uma medida do relacionamento linear entre atributos dos
objetos que possuam variáveis contínuas ou binárias. A correlação de Pearson
entre dois objetos é definida pela equação:
Onde, é utilizada a seguinte notação estatística:
covariância(x,y) =
desvio padrão(x) =
desvio padrão(y) =
é média de x
é média de y
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
39
A correlação é dita perfeita quando possui os valores 1 ou -1, assim, o
valor 1 significa que x e y têm um relacionamento linear positivo perfeito ou
para -1 um relacionamento linear negativo perfeito.
Para valor de correlação igual a 0, significa que não há relacionamento
linear entre os atributos.
3.5. Classificação
A classificação é uma tarefa de mineração de dados, cujo objetivo é
encontrar modelos de classificação que possam classificar dados em classes
distintas, para tal, são analisadas propriedades (atributos) comuns entre
objetos em uma base de dados.
Este modelo de classificação criado baseia-se num conjunto de dados de
amostragem ou treinamento cujas classes já são conhecidas, desta forma, é
possível utilizar o modelo para que se possa predizer a classe de objetos que
ainda não possuem uma classe definida, levando-se em consideração a análise
das propriedades similares com os dados utilizados na criação do modelo.
Em algumas situações, pode não ser necessário utilizar o modelo para
determinar classes, ao invés disso, pode-se querer predizer alguns valores de
dados que estão faltando na base de dados. Esta abordagem é principalmente
utilizada quando faltam valores numéricos, se fossem textuais seria necessário
um processo de normalização antes, para adequar os dados em um intervalo
numérico. Quando isto ocorre, a tarefa de mineração é denominada de
predição.
Algumas técnicas de classificação amplamente utilizadas para
classificação são: redes neurais e árvores de decisões.
Grande parte dos
métodos empregados nesse processo utiliza técnicas estatísticas e de
aprendizado de máquina.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
3.6. O Algoritmo K-Means
Segundo AMO (2003), o algoritmo é baseado em análises e
comparações entre os valores numéricos dos dados, assim fornece uma
classificação automática sem a necessidade da supervisão humana,
considerado então um algoritmo de mineração de dados não supervisionado.
O método K-means recebe uma base de dados de objetos (tuplas) e um
número k que representa o número de classes que se deseja formar entre as
tuplas da base de dados.
Essas classes são denominadas clusters, coleção de objetos que são
semelhantes uns aos outros de acordo com algum critério de semelhança préfixado e diferenças entre objetos de outros clusters.
A base de dados é dada como uma matriz de dissimilaridade entre os
objetos. Nesta matriz são definidos i, j e d(i, j) como sendo respectivamente
linha, coluna e a distância entre os objetos i e j. A representação por
dissimilaridade é baseada na comparação entre todos os objetos envolvidos,
isso nos leva a uma matriz D, na qual cada elemento da matriz representa o
valor de dissimilaridade entre dois objetos.
Figura 3. 12– Matriz de dissimilaridade
FONTE: AMO, 2003.
Dependendo do tipo de dados presentes no banco de dados, existem
técnicas para construir a matriz de dissimilaridade, tais como a distância
Euclidiana, distância de Manhattan e a distância de Minkowski.
40
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
41
Seja C = {C1, C2, C3 ..., Ck} uma partição do banco de dados em k
clusters e sejam s1,s2,s3, ...,sk elementos que representam o centro dos
clusters escolhidos em cada um dos mesmos.
O erro quadrático da partição é obtido por meio de:
Erro(C) =
| x – si |2 .
O algoritmo de K-means procura construir uma partição P contendo k
clusters para a qual o erro quadrático seja mínimo.
SegundoAMO (2003) o algoritmo é dividido em 6 passos:
1º Passo: Neste passo são escolhidos k objetos {p1, p2, p3 ..., pk} da
base de dados, geralmente são escolhidos os k primeiros registros da tabela.
Esses objetos serão os centros de k clusters, ou seja, os k centróides. Cada
cluster Ci é formado somente pelo objeto pi.
2º Passo: A distância entre cada ponto e os centróides é calculada, para
cada objeto O diferente de cada um dos p i's. Considera-se a distância entre O e
cada um dos pi's. Considera-se o pi para o qual a distancia é mínima, o objeto
então passa a fazer parte do cluster representado por pi.
Este processo é o que mais exige processamento de cálculos, pois para
N pontos e k centróides o calculo será N x k distâncias.
3º Passo: Os pontos são classificados de acordo com sua distância dos
centróides de cada cluster.
O centróide que está mais perto deste ponto vai pertencer ao cluster do
ponto.
4º Passo: Calcula-se a média dos elementos de cada cluster, isto é, o seu
centro de gravidade, este ponto será o novo representado pelo cluster.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
5º Passo: O algoritmo volta para o 2º passo, varrendo a base de dados e
para cada objeto O a distância é calculada entre este objeto e os novos centros
dos clusters. O objeto O será realocado para o cluster C tal que a distância
entre O e o centro de C é a menor possível.
6º Passo: O processo fica repetindo iterativamente e o refinamento do
cálculo das coordenadas dos centróides, até que nenhuma mudança ocorra,
isto é, os clusters se estabilizem.
Figura 3. 13 – Funcionamento do algoritmo k-means para k = 3
FONTE: AMO, 2003.
Na primeira iteração os objetos selecionados representam que foram
escolhidos aleatoriamente, nas iterações segunda e terceira os centros de
gravidade são marcados com o sinal positivo (+).
A vantagem do algoritmo é sua eficiência em tratar grandes conjuntos
de dados. Sua desvantagem porém, se encontra no fato do usuário ter que
fornecer o valor de k clusters e por serem sensíveis à ruídos, já que valores
altos podem causar uma grande alteração do cento de gravidade dos clusters, e
assim distorcer a distribuição dos dados nos mesmos.
3.7. Análise de Agrupamentos
Diferente do método de classificação, na análise de agrupamento não
existe classes pré-definidas, a função deste método consiste em identificar
classes de objetos, ou seja, tem como objetivo por meio de um aprendizado
não supervisionado segmentar um conjunto de dados em subconjuntos
homogêneos, por exemplo, pessoas de uma certa região do país efetua mais
42
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
compras em uma loja virtual durante a noite enquanto pessoas de outra região
compram mais no período da manhã.
A formação desses subconjuntos ou grupos é baseada no princípio de
que os elementos de um mesmo grupo devem ser semelhantes entre si, sendo
assim elementos de grupos diferentes devem possuir elementos distintos entre
si.
Sua habilidade de identificar estruturas diretamente dos dados sem que
exista um conhecimento dos mesmos torna a técnica de agrupamento uma das
mais utilizadas.
A qualidade do agrupamento está diretamente ligada à uma série de
definições estabelecidas pelo usuário como por exemplo: escolha dos atributos,
medidas de dissimilaridade, escolha do algoritmo apropriado, número de
agrupamento ou clusters.
Os métodos de agrupamento podem ser divididos em:

1.
Métodos hierárquicos
2.
Métodos de particionamento
3.
Métodos baseados em Densidade
4.
Métodos baseado em Grades
Métodos Hierárquicos
Os métodos hierárquicos montam uma hierarquia de agrupamentos
(dendograma) ou árvore de agrupamentos.
Este método é subdivido em dois tipos: aglomerativo e divisivo.

Aglomerativo (bottom-up): cada objeto representa um grupo
inicialmente, em seguida esses grupos são unidos sucessivamente, uma vez
unidos eles permanecem unidos até o final do processo. Este processo é
realizado até que todos os grupos formem um único grupo ou até que a
condição de finalização seja válida.
De acordo com (BOGORNY,2003) o algoritmo hierárquico aglomerativo
é executado seguindo os seguintes passos:
43
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
1.
Iniciar com n clusters, cada um contendo um objeto.
2.
Calcular a dissimilaridade entre os objetos.
3.
Procurar o par de clusters com menor dissimilaridade.
4.
Recalcular a dissimilaridade do cluster fundido com os demais
clusters.
5.
Repetir os passo 3 e 4 n-1 vezes.

Divisivos (top-down): Neste método ocorre o contrário, todos os
objetos começam fazendo parte do mesmo grupo, o mesmo vai sofrendo
divisões até que em cada grupo reste apenas um agrupamento grupo ou até
que a condição de finalização seja válida. Neste caso o elemento uma vez
separado de seu grupo ele jamais volta a fazer parte do mesmo.
O método hierárquico possuem históricos, ou seja, é possível saber
onde cada elemento estava nos passos anteriores. Devido ao seu alto custo
computacional são impraticáveis em grandes bases de dados.

Método Particionamento
São métodos iterativos que buscam para um determinado número de
grupos uma melhor divisão de um determinado número de objetos, ou seja,
buscam uma melhor partição dos n objetos em k grupos.
A melhor forma de se representar este método é possuir na base de
dados um elemento que melhor representa o grupo ao qual ele pertence, esses
elementos serão usados como referência para decidir a qual grupo outro
elemento irá pertencer.
Esse elemento geralmente é representado pelo ponto central do grupo
(média dos atributos dos objetos que formam o grupo) ou pelo elemento mais
próximo desse ponto central.
Comparados ao método hierárquico os agrupamentos deste método
possuem uma qualidade maior ou seja possuem elementos mais semelhantes.
44
Capítulo 3. Sistemas de Recomendação e Mineração de Dados

45
Método baseado em Densidade
Levando em consideração que os grupos são regiões densas os métodos
baseados em densidade podem ser utilizados para eliminar o ruído dos dados e
descobrir clusters separados com formatos diferentes os quais são separadas
por regiões de baixa densidade, são caracterizados como valores atípicos os
objetos que se encontram nessas regiões.

Métodos baseado em Grades
Dividem o espaço de objetos em um certo número de células, estas por
sua vez são divididas em outras e assim, sucessivamente formando uma
estrutura de grade. Onde cada célula seria um novo grupo.
Figura 3. 14– Ilustração de dados distribuídos em grade
A velocidade de processamento é a principal vantagem desse método,
que geralmente independe do tamanho da base de dados, dependendo apenas
da resolução da grade.
3.8. Mineração de Regras de Associação
São regras eficazes na busca por associações ou relações em uma
transação entre conjuntos de atributos denominadas itens. Seja
X e Y
conjuntos de valores, a regra de associação é um padrão da forma X → Y,
exemplo {açúcar} → { pão } . No exemplo: “Um cliente que compra produto A
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
também compra produto B”, a regra de associação tem a função de encontrar
uma relação entre esses dois produtos e informar o quão confiável é esta
relação, isto é, a regra busca caracterizar quanto um conjunto de atributos na
base de dados implica na presença de outro conjunto.
Toda regra de associação é associada a uma medida objetiva:
Fator de confiança: frequência com que Y aparece nas transações que
contêm X. Definida por P (X | Y), onde P indica a porcentagem, nesse caso, de
transações contendo os itens X que também contém os itens Y.
Número de transações que suportam (X U Y)
Confiança (X→Y) =
Número de transações que suportam X
Fator de suporte: freqüência de ocorrência de um conjunto de itens
denominados itemset. Definida por P (X U Y), onde P indica porcentagem e X U
Y que a transação contém a união dos dois conjuntos.
A regra de associação extrai de uma base de dados consistente todas as
regras possíveis com fator de suporte e confiança maiores ou iguais aos
passados pelo usuário. Além das medidas objetivas existem também as
subjetivas que servem para guiar o processo de mineração de dados,
especificando problemas particulares.
Para eficiência do processo de mineração de dados, medidas objetivas e
subjetivas são essenciais, isto é, pela definição de AMO (2003) uma regra de
associação q é dita interessante se confiança(q) ≥ α e suporte(q) ≥ β, onde α e β
são respectivamente, um grau de confiança e grau de suporte especificado pelo
usuário. Podem ser utilizadas durante o processo de mineração ou após o
término a fim de efetuar uma classificação dos padrões encontrados de acordo
com o interesse de um dado usuário, filtrando e eliminando os não
interessados.
46
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
47
3.8.1. Técnicas para regra de associação – Apriori
Suponha como exemplo, um supermercado e a cada compra de um
cliente, são registrados em uma base de dados todos os produtos ou itens
comprados.
Na figura abaixo por questão de simplificação de representação será
associado um número a cada produto do supermercado.
Tabela 3.4 – Representação numérica dos produtos do supermercado
Artigo (item)
Número que o representa
Pão
1
Leite
2
Açuçar
3
Papel Higiênico
4
Manteiga
5
Fralda
6
Cerveja
7
Refrigerante
8
Iogurte
9
Suco
10
Suponha que o itemset considerado frequente será aquele que aparece
pelo menos 50% de todas as compras registradas. Se o banco de dados for a
figura abaixo, então o itemset {1,3} é o considerado frequente pois aparece em
mais de 60% das compras.
Tabela 3.5 – Registros de transações em um banco de dados
TID
Itens comprados
101
{1,3,5}
102
{2,1,3,7,5}
103
{4,9,2,1}
104
{5,2,1,3,9}
105
{1,8,6,4,3,5}
106
{9,2,8}
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
48
A figura abaixo contabiliza os suportes de diversos itemsets com relação
à base de dados das transações da tabela3.4.
Tabela 3.6 – Suporte de itemsets
Itemset
Suporte
{1,3}
0,6666
{2,3}
0,3333
{1,2,7}
0,16666
{2,9}
0,5
Caso o valor mínimo para um itemset ser considerado frequente seja
50%, os itemsets {1,3}, {2,9} serão considerados.
3.8.2. Formalizando o problema
Pela definição de AMO (2003) , seja A = { i1, i2 ,..., in} um conjunto de
itens (produtos de uma loja virtual) e seja B uma tabela com duas colunas, ou
seja uma base de dados de transações, possuindo a primeira coluna com o ID
(identificador de atributo) e a segunda correspondendo ao conjunto de
produtos ou itemsets. Os registros de B são chamados de transações. Um
subconjunto não vazio de A é chamado de itemset. Uma transação T suporta
um itemset S se S  T. Por exemplo, na Tabela 3.5 a primeira transação suporta
os itemsets {1}, {3}, {5}, {1,3}, {1,5}, {3,5}, {1,3,5}.
O problema da mineração de dados utilizando técnicas de associação é:
encontrar todas as regras de associação com relação a uma base de dados B,
um nível mínimo de confiança α e um nível mínimo de suporte β.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
49
3.8.3. O algoritmo Apriori
Com base na explanação de AMO (2003), é considerado um algoritmo
clássico na regra de associação, proposto pela equipe de pesquisa QUEST da
IBM em 1994. Utilizado para resolver o problema da mineração de dados de
itemsets frequentes, fazendo buscas recursivas na base de dados à procura de
conjuntos que satisfaçam o valor de suporte e de confiança estabelecidos.
Considerando, por exemplo, todos os itemsets frequentes com relação à
base de dados B e valor mínimo de suporte β. E para cada itemset frequente L,
todas as regras candidatas C → (L – C), onde C  L e é verificado para cada uma
das regras candidatas se o valor de confiança excede o grau α. Para efetuar o
cálculo de confiança de C → (L – C) não é preciso varrer novamente a base de
dados B. Durante a execução do algoritmo de Apriori já foi calculado o valor de
suporte para L e C . Veja:
conf(C  (L-C)) =
=
=
Para efetuar o cálculo da confiança C → (L – C) deve-se apenas dividir o
suporte de L pelo suporte de C.
O algoritmo de Apriori é divido em 3 diferentes fases:
1. Geração dos candidatos
2. Poda dos candidatos
3. Validação
As fases 1 e 2 são realizadas na memória principal e não precisam varrer
a base de dados B. A memória secundária é apenas utilizada caso o conjunto de
itemsets candidatos seja muito grande e exceda o tamanho da memória
principal. Apenas na fase 3 onde ocorre o cálculo do suporte dos itemsets
candidatos é que é necessário varrer a base de dados B.
Nas fases de geração e de poda (1 e 2) é utilizada a propriedade de
Apriori ou antimonotonia:
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
50
Propriedade de Apriori ou antimonotonia: Segundo CAMILO (2010),
sejam V e U dois itemsets tais que V  U, se U é frequente então V também é.
Dada uma sequência de itemset de tamanho k, um k-itemset será freqüente se
todos os seus (k-1)-itemsets também forem frequentes.
O algoritmo de associação Apriori possui a execução de forma iterativa:
os itemsets frequentes são calculados através do seu anterior, ou seja, 2itemset é calculado a partir do 1-itemset e assim sucessivamente, não é
necessário calcular o suporte de k-itemset, pois basta utilizar a propriedade de
Apriori ou antimonotonia e verificar se são frequentes os itemsets anteriores.
1º Fase Geração dos candidatos
Nesta
fase
ocorre
a
geração
dos
itemsets
candidatos, não
necessariamente frequentes, de tamanho k a partir do conjunto Lk – 1.
O conjunto C’k de itemsets candidatos de tamanho k é construído
unindo-se pares de itemsets de tamanho k – 1 que tenham k – 2 registros em
comum. Dessa forma pelo menos dois subconjuntos de tamanho k – 1 serão
frequentes em um itemset de tamanho k.
a
a
b
c
d
e
x
itemset frequente de tamanho 6
a
b
c
d
e
y
itemset frequente de tamanho 6
b
c
d
e
x
y
itemset frequente de tamanho 7
Figura 3. 15–Exemplo de construção de itemsets candidatos de tamanho k a
partir de itemsets frequentes de tamanho k-1.
Para a construção do conjunto C’k é utilizado a função de Apriori-Gen,
requer como argumento o Lk – 1 que consiste no conjunto de todos os
conjuntos de itemsets frequentes com (k – 1)-itemsets e retorna um conjunto
de todos os itemsets frequentes com k-itemsets.
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
Exemplo de utilização da função Apriori-Gen: Considerando a base de
dados da Tabela 3.5 e que no passo 2 da iteração é obtido o seguinte conjunto
de itemsets frequentes de tamanho 2:
L2 = { { 1 , 3 }, { 1 , 5 }, { 1 ,4 } , { 2 ,3 } , { 3 ,4 } , { 2 ,4 } }
O conjunto C’3 da interação será:
C’3 = { { 1 , 3 ,5 } , { 1 , 3, 4 } , { 1 ,4 , 5 } , {2 , 3 , 4 } }
2º Fase Poda dos candidatos
Com base na explanação de AMO (2003). Utilizando a propriedade
Apriori é possível descartar subconjuntos de itens de tamanho k – 1 que não
estiverem em Lk – 1 , pois não possui chance de ser um item frequente.
Nessa fase é calculado o conjunto Ck = C’k – { V | existe U  V tal que
|U| = k – 1 e U ∉Lk – 1 }. A notação |U| significa numero de elementos do
itemset U.
Exemplo: Considerando o exemplo anterior da função Apriori-Gen,
neste caso o C3 = C’3 – { { 1 , 4 , 5 } , { 1 ,3 , 5 } } = { { 1 , 3 ,4 } , { 2, 3 , 4 } }. O
itemset { 1 , 4 , 5 } foi podado mas será descartado pois não possui chance de
ser um itemset frequente, pois possui o 2-itemset { 4 , 5 } que não aparece em
L2.
3º Fase Validação: cálculo do valor de suporte
Nesta fase são calculados o valor de suporte de cada um dos itemsets do
conjunto Ck, isso pode ser feito varrendo uma única vez a base de dados B.
Para cada transação verifica-se quais são os candidatos suportados por cada
51
Capítulo 3. Sistemas de Recomendação e Mineração de Dados
52
transação e para esses candidatos é incrementado uma unidade no valor de
suporte.

Itemsets frequentes de tamanho 1: São computados todos os itemsets
de tamanho 1, a base de dados é varrida uma vez para calcular o
suporte de cada um destes conjuntos de tamanho 1, descartandose aqueles que não possuem suporte ≥ β.
O código a seguir é uma uma implementação do algoritmo de
Classificação Apriori segundo GARCIA(2007).
Algorithm: Apriori. Find frequent itemsets using an iterative level-wise approach
based on candidate generation.
Input: Database, D, of transactions; minimum support threshold, min_sup.
Output: L, frequent itemsets in D.
Method:
L1 = find_frequent_1-itemsets(D);
for (k = 2; Lk-1 ≠ Ø; k++) {
Ck = apriori_gen(Lk-1,min_sup);
for each transaction t in D { // Scan D for counts
Ct = subset(Ck,t); // get the subsets of t that are candidates
for each candidate c in Ct
c.count++;
}
Lk = {c in Ck|c.count ≥ min_sup}
}
return L = UkLk;
procedure apriori_gen(Lk-1:frequent(k-1)-itemsets; min_sup: minimum support threshold)
for each itemset l1 in Lk-1
for each itemset l2 in Lk-1
if (l1[1]=l2[1])^(l1[2]=l2[2])^…^(l1[k-2]=l2[k-2])^(l1[k-1]=l2[k-1])then {
c=l1 join l2; //join step: generate candidates
if has_infrequent_subset(c,Lk-1) then
delete c; // prune step: remove unfruitful candidate
else add c to Ck;
}
return Ck;
procedure has_infrequent_subset(c:candidate k-itemset; Lk-1: frequent (k-1)-itemsets)
for each (k-1)-subset s of c
if s not in Lk-1 then
return TRUE;
return FALSE;
Capítulo 4. Ferramenta de E-Mail Marketing
4. Ferramenta de E-mail Marketing
A ferramenta de E-mail Marketing é uma ferramenta Web, que deve ser
hospedada em um servidor. Todas as informações e relatórios gerados são
armazenados em um sistema de banco de dados. A ferramenta é utilizada para
montagem de campanhas, cadastros de produtos, visualização de relatórios e
disparo de e-mails.
4.1. Detalhes Técnicos
A ferramenta de E-mail Marketing utilizada nesse projeto de trabalho e
conclusão de curso foi implementada com auxilio do framework Codeigniter
1.7.2,da linguagem de programação PHP 5.2.6, do SGBD Mysql 5.0.67 e outras
tecnologias como XHTML, CSS 2, JQuery 1.4.2.
Codeigniter é um framework baseado no modelo arquitetural MVC
(model, view e controller) e na linguagem de programação PHP.
PHP (Personal Home Page) é uma linguagem de scripts interpretada e
OpenSource, utilizada para gerar conteúdos dinâmicos dentro de aplicações
Web.
Mysql é um sistema gerenciador de banco de dados, utiliza como
interface a linguagem SQL (Linguagem de Consulta Estruturada, do inglês
Structured Query Language).
XHTML é a linguagem HTML (HyperText Markup Language) reformulada
para XML (Extensible Markup Language).
CSS (Cascading StyleSheets) são folhas de estilo, utilizadas para
personalizar e formatar documentos XHTML e HTML.
JQuery biblioteca JavaScript, utilizada para definir efeitos, criar
elementos, entre outros dentro de uma página Web.
53
Capítulo 4. Ferramenta de E-Mail Marketing
4.2. Ferramenta de E-mail Marketing
A ferramenta de E-mail Marketing tem como objetivo o disparo de emails com campanhas publicitárias para vários clientes. Para esse trabalho de
conclusão de curso, foi desenvolvida uma ferramenta divida em duas áreas:
área pública (cliente) e área restrita (administrador).
Na área pública a ferramenta permite o cadastro de usuários a partir
dos campos: nome, e-mail e áreas de interesse (várias opções que permitem a
ferramenta armazenar um perfil inicial do usuário). Este processo é ilustrado na
Figura 4.1.
Figura 4. 1– Cadastro de clientes na ferramenta
A área restrita foi desenvolvida para uso do administrador, ou seja, a
pessoa que irá gerenciar o disparo dos e-mails. Por ser uma área privada o
sistema conta com uma identificação por login e senha para que seja permitido
o acesso.
Além
dos disparos dos e-mails, é possível gerenciar novos
administradores, permitindo adicionar, editar e excluir um registro.
Inserir, visualizar e excluir clientes cadastrados, gerenciar de forma
dinâmica as áreas de interesse que são exibidas para o usuário na hora do
cadastro. Permite também configurar o SMTP para envio dos e-mails.
Quando o administrador efetua o disparo dos e-mails, a ferramenta
realiza esse comando da seguinte forma: verifica no banco de dados onde estão
todas as informações do sistema os clientes que estão ativos, ou seja, que
desejam receber e-mails, exibe uma listagem de áreas que por meio de
algoritmos de mineração de dados mostraram similaridades dando ao
54
Capítulo 4. Ferramenta de E-Mail Marketing
administrador liberdade para análise e escolha dessas áreas antes de realizar
realmente o disparo da campanha conforme é visto na Figura 4.2.
Figura 4. 2– Processo de envio de mensagens pelo administrador
O cliente possui a opção de cancelar seu cadastro para recebimentos de
e-mails, dentro do corpo do e-mail existe um link com essa opção, quando o
cliente clicar nesse link automaticamente o seu status será desativado, isto é,
no próximo disparo de e-mails esse cliente não será selecionado.
Quando um e-mail é aberto, essa informação é inserida no banco, ou
seja, o sistema saberá qual cliente, a data e a hora que o e-mail foi aberto,
dentro do corpo do e-mail contém produtos cadastrados que quando clicados,
insere no banco o código do cliente e qual o produto foi de interesse do
mesmo, de acordo com a Figura 43.
Figura 4. 3– Disponibilidade de cancelamento do recebimento de e-mails
55
Capítulo 4. Ferramenta de E-Mail Marketing
4.3. Ferramenta Personalizada
A ferramenta trabalha com listas de recomendações personalizadas
baseadas em perfis formados a partir dos disparos dos e-mails, onde serão
armazenados eventos realizados pelos usuários, e regras de associações criadas
por meio de semelhanças encontradas entre os perfis dos usuários cadastrados
no sistema.
A cada nova campanha gerada, os perfis dos usuários são atualizados a
partir do momento que o mesmo mostra interesse, abrindo o e-mail sobre a
campanha enviada.
Os algoritmos de mineração de dados são executados off-line, ou seja,
são agendados para executar em um horário em que não haja uso da
ferramenta e consequentemente atrapalharem o seu uso normal, atualizando
as listas de recomendação, com usuários que possuem interesse direto sobre
os assuntos enviados, algoritmo de classificação e possíveis novos interesses,
gerados pelo algoritmo de regras de associação, conforme Figura 4.4.
Figura 4. 4– Processo de criação de modelos off-line
À medida que a base de dados é atualizada pela interação dos clientes
com os e-mails disparados, são criados os modelos off-line que sugerem listas
de recomendações baseadas nos interesses dos perfis de clientes atualizados. A
Figura 4.5, ilustra esta geração dos modelos a partir da nova base de dados que
foi atualizada.
56
Capítulo 4. Ferramenta de E-Mail Marketing
Figura 4. 5– Processo de envio de mensagens pelo administrador com a base atualizada
após a mineração de dados.
57
Capítulo 5. Avaliação
5. Avaliação
Este capítulo de avaliação visa descrever as atividades realizadas para demonstrar
a proposta apresentada para este trabalho. São descritos 3 estudos de caso
realizados baseados na execução da mineração de dados para criação de perfis por
associação (técnica do algoritmo Apriori) e por criação de grupos (técnica do
algoritmo K-means). Além disso, são apresentados os resultados obtidos por meio
das técnicas sugeridas.
5.1. Utilização da Ferramenta para obtenção dos Dados
Com a ferramenta implementada vários usuários acessaram o front-end
e realizaram o cadastro com nome, e-mail e as possíveis áreas de interesse que
foram previamente inseridas, com isso, a base de clientes foi preenchida de
acordo com o interesse inicial dos usuários.
Paralelamente, foram cadastrados produtos de diferentes categorias
alimentando a base de produtos da ferramenta a serem utilizados em cada
campanha.
Com a conclusão dessas etapas, iniciou-se a elaboração das campanhas
para o envio dos e-mails, neste trabalho foram criadas 11 (onze) campanhas
contendo produtos categorizados em áreas distintas, que ao serem
selecionadas pelos usuários atualizavam o perfil do mesmo.
Nota-se que por enquanto ainda não foi utilizada nenhuma técnica de
mineração de dados, os registros iniciais de cadastro se dão pela inserção dos
dados pelo usuário por meio do cadastro no site e pela interação com os emails
de campanhas recebidas, na qual, caso um cliente tivesse interesse em algum
produto de área que ainda não fazia parte do seu perfil, o mesmo seria
atualizado com a nova informação. Desta forma, os perfis individuais são
criados e atualizados conforme a necessidade.
As personalizações e recomendações se dão pela execução dos
algoritmos específicos presentes na ferramenta, os quais serão descritos nos
estudos de casos.
58
Capítulo 5. Avaliação
5.2. Estudo de Caso 1 – Aplicação do algoritmo de Apriori.
O algoritmo de Apriori é utilizado para se obter regras de associação, ou
seja, busca por áreas frequentes em uma base de dados que ocorre
simultaneamente em diversas transações.
Desta forma, o sistema busca encontrar associações entre duas áreas
distintas e verifica qual é a significância de associação que ambas possam ter.
Na aplicação do algoritmo de Apriori são utilizados dois parâmetros com
os valores desejados para este experimento.O primeiro representa o fator de
suporte mínimo e tem o valor de 30%, o segundo indica o fator de confiança e
tem o valor de 70%.
O suporte mínimo é o percentual de vezes em que uma área aparece
dentro de um conjunto de transações do banco de dados, neste caso, será
considerada a área que tiver uma representação mínima de 30% dentro da
base.
A confiança representa o percentual de ocorrência de uma regra dentro
do conjunto de transações obtido pelo suporte mínimo, neste caso, essa regra
deverá ocorrer em no mínimo 70% dos casos.
O algoritmo cria uma tabela temporária onde são inseridas as áreas e as
frequências sem que as mesmas ocorram dentro das transações, onde essa
frequência deve ser superior ou igual ao valor do suporte mínimo.
A partir dessa tabela temporária são criadas associações entre as áreas,
obtendo como resultado: áreas cadastradas, áreas associadas, frequência total
da área cadastrada e frequência total das áreas associadas dentro da
associação criada. O resultado obtido pelo algoritmo de Apriori é inserido em
de uma tabela na base de dados e é utilizado para exibição das informações
conforme pode ser observado na Figura 5.1.
59
Capítulo 5. Avaliação
60
Figura 5. 1- Informações obtidas por meio do algoritmo de Apriori
A figura 5.1 demonstra as associações encontradas dentro dos
parâmetros de suporte mínimo e de confiança estipulados, ou seja, cada área
deve ocorrer no mínimo 30% dentre todas as transações da base de dados e
uma regra de associação precisa estar presente em no mínimo 70% das
ocorrências neste conjunto de áreas.
Analisando estes dados, o sistema exibe outro relatório que demonstra
as conclusões obtidas pelo processo de associações geradas, conforme pode
ser observado na Figura 5.2.
Figura 5. 2– Relatório obtido por meio do algoritmo de Apriori
Capítulo 5. Avaliação
61
Para isso, como não se deseja mostrar todas as regras que possam
existir e que não sejam relevantes para um estudo mais eficaz, induz-se os
valores mínimos para que ocorra o corte de regras desnecessárias.
Portanto, quanto maior for o percentual de ocorrência (suporte) de uma
área na base dados, assim como, quanto maior for seu percentual de
associação (confiança) à outra área distinta, pode-se concluir que existe uma
forte relação entre ambas as áreas dentro do cenário estudado.
5.3. Estudo de Caso 2 – Aplicação do algoritmo de K-means.
O
algoritmo
de
K-Means é
considerado
um
algoritmo não
supervisionado, pois não necessita da supervisão humana, o seu objetivo é
fornecer uma classificação de informações de acordo com um conjunto de
dados informados, para isso ele utiliza de comparações entre valores
numéricos desses dados.
Para a aplicação desse algoritmo é necessário informar o valor do
parâmetro k que vai representar a quantidade de classes (clusters) que serão
gerados. As classes são formadas por meio da distância Euclidiana, para isso vai
depender da quantidade de atributos da tabela fornecida, após descobrir as
distâncias, o algoritmo calcula centróides de cada classe formada.
Neste estudo de caso foi utilizado para o parâmetro k o valor 3 e
passado uma lista contendo todas as áreas de interesse de cada cliente, com
isso foi gerado três clusters de áreas com interesses similares conforme
mostrado na Figura 5.3.
Capítulo 5. Avaliação
Figura 5. 3– Classificação das áreas de interesse similares por meio do
Algoritmo de K-Means.
De acordo com a Figura 5.3, são demonstrados 3 grupos,este valor k foi
escolhido pois a base de dados com as áreas de interesses não é muito grande,
o que não justificaria adotar um valor muito alto.
Analisando a Figura 5.3, é possível ver que Informática e
Eletrodoméstico possui alto grau de similaridade devido ao fato de terem uma
distância Euclidiana pequena e por isso são inseridos no mesmo grupo. Desta
forma, um cliente que tem interesse na área de Informática possui grande
probabilidade de ter interesse na área de eletrodoméstico.
5.4. Estudo de Caso 3 – Criação e Envio de uma campanha.
Para este estudo de caso foi criada uma campanha da área de
informática onde foi possível após a sua criação, uma análise baseada na
execução das técnicas de Apriori e K-Means. A execução desses algoritmos irá
sugerir áreas que possuem similaridades com o tema proposto na criação da
campanha.
A análise permite auxiliar o usuário na tomada de decisão para o envio
da campanha criada, permitindo que o disparo seja direcionado para os clientes
62
Capítulo 5. Avaliação
63
cuja área de interesse seja o mesmo da campanha e para aqueles com possíveis
interesses, que serão determinados pelas técnicas aplicadas.
De acordo com a Figura 5.24 pode-se observar que aplicando-se a
técnica de k-means são encontradas regras de associações onde são formados
grupos específicos:
Grupo 1 (Informática e Eletrodoméstico), Grupo 2
(Veículos, Culinária, Futebol e Jogos) e Grupo 3 (Vestuário, Bebidas,
Entretenimento e Literatura).
Figura 5. 4 – Relatório gerado pelo algoritmo de K-Means para auxilio na
tomada de decisão.
Com a aplicação dessa técnica o resultado obtido foi uma associação
entre as áreas informática e eletrodomésticos, conforme destacado em
vermelho na Figura 5.4.
Capítulo 5. Avaliação
64
Figura 5. 5– Relatório gerado pelo algoritmo de Apriori para auxilio na tomada
de decisão.
Outra técnica disponível é a de Apriori que é exibida na Figura 5.5 onde
são destacadas todas as linhas que possuem associações com a área da
campanha criada.
As duas técnicas propostas demonstram a capacidade de sugerir novas
recomendações baseadas em uma área tema para criação de campanhas, desta
forma, busca-se encontrar associações com outras áreas que possuem uma
relação dentro da base de dados analisada. Sendo assim, o usuário da
ferramenta tem a liberdade de poder escolher ou não os clientes de outras
áreas para o envio da campanha, haja vista, que esses outros clientes podem
também se interessar pelo conteúdo de tal campanha.
O processo de escolha e envio da campanha pode ser observado
conforme a Figura 5.6.
Capítulo 5. Avaliação
Figura 5. 6– Seleção das áreas para realização do disparo da campanha.
65
Capítulo 6. Conclusões
6. Conclusões
No decorrer deste trabalho pode ser observado que o e-mail marketing é um
recurso que pode ser explorado de uma forma mais ampla de acordo com padrões
e que possa obter resultados mais diretos aos objetivos propostos tentando
diminuir a insatisfação do cliente em receber e-mails com temas indesejados fora
do seu interesse. Para isso, foram apresentadas áreas e técnicas que ao serem
interligadas pudessem apresentar outras formas de gerar recomendações
personalizadas. A decisão de utilizar tais personalizações recai sobre o
administrador que tem total liberdade de aceitar ou não, estas recomendações que
por sua vez, são baseadas em análises de similaridades de agrupamentos ou
associações, portanto, a aceitação destas implica em um envio personalizado
segundo um tema proposto, usuários com tal perfil e possíveis interessados. A
seguir, são apresentadas as conclusões e propostas de trabalhos futuros.
6.1. Discussão sobre os Resultados
A utilização de técnicas de mineração, agrupamento e associação,
apresentou-se como uma nova abordagem para realização de disparos de emails publicitários aos clientes cadastrados.
Por meio delas é possível analisar os perfis dos clientes e encontrar
padrões que possam gerar um novo modelo de recomendação que sugira áreas
que aparentemente não tivessem correlação, isto é, não realiza o envio para
clientes que não possuem nenhum tipo de interesse pela campanha criada.
O uso destas técnicas permite que o administrador faça uma análise
mais profunda dos dados que possui na base de dados, com o pré-cadastro dos
clientes é possível obter uma formação de um perfil inicial e ao cadastrar as
campanhas é possível verificar por meio de análises quais são as áreas com
maior relevância, desta forma, a ferramenta de disparo de e-mails é capaz de
abranger um novo público alvo que está além do tema original da campanha
criada.
66
Capítulo 6. Conclusões
Os casos de uso demonstram a relevância da utilização de técnicas de
mineração para realização do disparo da campanha, objetivando o auxílio na
tomada de decisão do administrador.
Com a conclusão deste trabalho, observa-se a capacidade da ferramenta
em proporcionar sugestões de novas áreas que possam acrescentar uma
abrangência maior ao disparo e ainda assim estar focado em uma similaridade
entre os interesses de áreas distintas.
6.2. Trabalhos Futuros
O trabalho proposto apresenta duas técnicas de mineração de dados e
as sugestões de trabalhos futuros podem compreender outros diferentes
algoritmos de mineração de dados.
Para a realização do disparo das campanhas pode ser implementado um
algoritmo de bounce para verificação e tratamento adequado para os
diferentes tipos de erros que podem ocorrer no envio dos e-mails.
Automatização do processo de geração de listas de e-mails dos clientes
após da aplicação das técnicas de mineração, antes de realizar o envio.
A ferramenta desenvolvida poderá ter novas funcionalidades que
possam incrementar o seu potencial de recomendação e envio dos e-mails.
67
68
ReferênciasBibliográficas
AMO, S. Curso de Data Mining, Programa de Mestrado emCiência da Computação,
Universidade Federal de Uberlândia, 2003.
Antispam.br. Site mantido pelo Comitê Gestor da Internet no Brasil (CGI.br). História:
Origem e CuriosidadesDisponível em: <http://www.antispam.br/historia>. Acessado
em: 22 ago. 2010.
BARCELLOS, Carla Duarte et al. Sistemas de Recomendação para Apoio a
Aprendizagem. In: CICLO DE PALESTRAS SOBRE NOVAS TECNOLOGIAS NA EDUCAÇÃO,
10. Porto Alegre/RS, 2007.
BELVIN, N. J. e CROFT, W. B. Information Filtering and Information Retrieval: two sides
of the same coin? Communications of the ACM, v.35, n.12, December, p.29. 1992.
BERRY, Michael J. A.; LINOFF, Gordon.Data Mining Techniques: For Marketing, Sales,
and Customer Support. New York: Wiley Computer Publishing, 1997.
BOGORNY, V., Algoritmos e Ferramentas deDescoberta de Conhecimento emBancos
de Dados Geográficos, 2003 – Dissertação (Programa Pós-Graduação em Computação)
– Universidade Federal doRio Grande do Sul (UFRGS), Rio Grande do Sul, 2003.
BRUSILOVSKY, P. Methods and Techniques for Adaptive Hypermedia, 1996.
CAMILO, C. O.Uma Metodologia para Mineração de Regras de Associação Usando
Ontologias para Integração de Dados Estruturados e Não-Estruturados - Dissertãção
apresentada ao Programa de Pós-Graduação do Instituto de informática da
Universidade Federal de Goiás como requisito parcial para obtenção do título de
Mestre em Ciência da Computação, 2010.
69
COMITÊ GESTOR DA INTENET NO BRASIL – CGI.br. Código de Auto-regulamentação
para
Prática
de
E-Mail
Marketing.
Disponível
em:
<http://www.cgi.br/publicacoes/documentacao/cod-autoreg-email-marketing.htm>.
Acessadoem: 02 fev. 2011.
DUCOFFE, Robert H. (1996). “Advertising value and advertising on the web”. Journal
of Advertising Research. September-October, 21-35.
DUCOFFE, Robert H. (1995). “How Consumers Assess the Value of Advertising”.
Journal of Current Issues and Research in Advertising. Vol. 17, No. 1, 1-18.
FORRESTER Report (2001): Lussanet et al. The Marketer’s Guide to SMS, Forrester
Research Inc., European Research Center, Amsterdam.
GABBER, E., GIBBONS, P., MATIAS, Y. and MAYER, A. (1997).How to Make Personalized
Web Browsing Simple, Secure, and Anonymous. Bell Laboratories, Information
Sciences Research Center, Lucent Technologies. Disponível em: <http://www.belllabs.com/project/lpwa/papers.html>. Acessado em: 13 fev. 2011.
GARCIA, R. S., Inteligência de Processos de Negócio: Uma Proposta de Padronização
entre as Etapas de Mineração de Dados e Visualização dos Resultados, 2007 –
Dissertação – Pontifícia Universidade Católica do Rio Grande do Sul (PUC/RS), Rio
Grande do Sul, 2007.
GOLDBERG, D. et al. Using collaborative filtering to weave an information Tapestry.
Communications ofthe ACM, December, p.61-70. 1992.
GOTARDO, R. A., Modelo I2P: Recomendação de Recursos baseando-se em
Preferências, Interesses e Popularidade, 2008 – Dissertação (Programa Pós-Graduação
em Ciência da Computação) – Universidade Federal de São Carlos (UFSCAR), São
Carlos, 2008.
GRACIOSO, F.Marketing – O Sucesso em 5 Movimentos. Editora Atlas, 1997, p.16.
70
HARVEY, Bill (1997). “The Expanded ARF Model: Bridge to the Accountable
Advertising Future”. Journal of Advertising Research. March-April, 11-20.
KOBSA, A. User Modeling and User-Adapted Interaction.CHI’94 Tutorial Notes. 1994.
KOBSA, A.; KOENEMANN, J. e POHL, W. Personalized hypermedia presentation
techniques for improving online customer relationships. United Kingdom: Cambridge
University Press. vol.16:2. 2001. 111-155 p. (The Knowledge Engineering Review).
KOCH, M., MOSLEIN, K. User Representation in E-Commerce and Collaboration
Applications.
Disponível
em:
<http://www.communixx.de/files/Koch2003a.pdf>.
Acessado em: 13 fev. 2011.
KOTLER, P. e KELLER, K. L. Administração de Marketing. 12º edição. SãoPaulo, Pearson
Prentice Hall, 2006.
KOTLER, P. e ARMSTRONG, G. Introdução de Marketing. São Paulo, LTC, 1999.
LIU, Bing. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer,
2007
LONGENECKER, J. G., MOORE, C. W., PETTY, J. W.Administração de pequenas
empresas.São Paulo: MAKRON Books, 1999,p.191.
MERSCHMANN,
L.
H.
C.
Mineração
de
Dados.
2011.
Disponível
em:
<http://www.decom.ufop.br/luiz/site_media/uploads/arquivos/bcc444_pcc142/slides
02_md.pdf>. Acessado em: 22 ago. 2010.
REATEGUI, E. B.; CAZELLA, S. C. e OSÓRIO, F. S. Personalização de Páginas Web através
dos Sistemas de Recomendação. In: Tópico em Sistemas Interativos e Colaborativos.
São Carlos, v, 2006.
71
RESNICK, P. e VARIAN, H. R. Recommender Systems. Communications of the ACM,
v.40, March, p.55-58. 1997.
RICHERS, R. O que é marketing. São Paulo: Brasiliense, 1986.
SCHAFER, J. Ben; KONSTAN, Joseph; RIEDL, John.Recommender Systems. In:
Conference on Electronic Commerce, 2000, Minneapolis. Proceedings.
TAN, P.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining.1ª Edição. Nacional.
Editora Ciência Moderna, 2009.
Webshoppers e Boletins Periódicos.São Paulo, 22ª edição, p. 08, 2010. Disponível em
http://www.webshoppers.com.br/webshoppers/WebShoppers22.pdf>. Acessado em:
02 fev. 2011.
VEDOVELI, Karen. Personalização na Web. IDGnow! Publicado em 04 de Julho de 2007
Disponível em: <http://idgnow.uol.com.br/internet/web_marketing/idgcoluna.200707-04.1787087729/>.Acessado em: 13 fev. 2011.

Documentos relacionados