Leia aqui a edição completa em pdf

Transcrição

Leia aqui a edição completa em pdf
COMPUTERWORLD
Março 2012
Big
Data
A grande promessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Problema antigo mas “maior” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Três vertentes de reforço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Mais é ou não melhor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Tirar partido para lá do “hype” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Tendência preocupa e causa grande confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Cinco coisas que deve fazer agora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Mais oportunidades de carreira para profissionais de TI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Faltam profissionais em Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Março 2012 - COMPUTERWORLD
2|
Comunicações
Big
Data
Unificadas
A grande promessa
As organizações estão a
descobrir que as tecnologias
para gerir grandes quantidades
de dados (Big Data) podem
rapidamente encontrar uma
agulha no palheiro.
Para o Twitter, fazer sentido das montanhas de
dados dos seus utilizadores era um problema
suficientemente grande que comprou uma
outra empresa apenas para a ajudar a fazer
esse trabalho.
O sucesso do Twitter depende inteiramente de
quão bem a empresa explora os dados que os
seus utilizadores geram. E tem um monte de
dados para trabalhar: armazena mais de 200
milhões de contas, que geram 230 milhões de
mensagens diárias no Twitter.
Em Julho passado, a gigante das redes sociais
adquiriu a BackType, uma empresa com o software Storm que permite analisar fluxos de
dados dinâmicos, como os milhões de “feeds”
do Twitter. Após a aquisição, o Twitter libertou
o código-fonte do Storm, não tendo interesse
em comercializar o produto em si.
O Storm é valioso para o Twitter nas suas próprias operações, especificamente porque pode
ser útil na identificação de tópicos emergentes
à medida que se estão a desenvolver, em
tempo real, no serviço da empresa. Por exemplo, o Twitter usa o software para calcular quão
amplamente endereços da Web são partilhados entre vários utilizadores do Twitter em
tempo real.
Esse trabalho "é realmente de computação intensiva, que pode envolver milhares de acessos às base de dados e a milhões de registos
de utilizadores", revela Nathan Marz, engenheiro-chefe para o Storm, que explicou a tecnologia em Dezembro passado numa
conferência em Nova Iorque realizada pela DataStax, empresa de software de Big Data.
Usando uma única máquina, calcular o alcance de um endereço Web pode levar até 10
minutos. Mas usando 10 máquinas, explicou
Marz, pode ser executado em apenas alguns
segundos. Para uma empresa que ganha dinheiro a vender anúncios que se conjuguem
com as tendências emergentes, quanto mais
rápida for essa operação pode ser crucial.
Como o Twitter, as organizações estão a descobrir que têm uma grande quantidade de
dados em mãos, e que os dados podem ser
usados para maximizar os lucros e melhorar a
eficiência - se os conseguirem organizar e analisar com suficiente rapidez. Este objectivo,
tornado possível por uma série de novas tecnologias que são em sua maioria de código
COMPUTERWORLD - Março 2012
aberto, é muitas vezes referida como Big Data
– ou grandes quantidades de dados.
"Dá-nos uma vantagem competitiva se podemos entender melhor com o que as pessoas se
preocupam e para melhor utilizar os dados que
temos para criar experiências mais relevantes",
refere Aaron Batalion, director de tecnologia
(CTO) para o serviço de compras online LivingSocial, que usa tecnologias como a plataforma de processamento de dados Hadoop, do
projecto Apache, para recolher mais informações sobre o que os seus utilizadores querem.
"Os dias terminam quando se cria um produto
uma vez e ele simplesmente funciona", disse
Batalion. "Tem de se ter ideias, testá-las, iterálas, usar os dados e analítica para entender o
que funciona e o que não funciona, a fim de
ser bem sucedido. E é assim que usamos a
nossa infra-estrutura de Big Data".
Muitos dados cada vez maiores
Em Maio passado, a empresa de consultoria
McKinsey publicou um relatório que antecipou
como as organizações seriam inundadas com
dados nos próximos anos. Ela também previa
que uma série de indústrias - incluindo saúde,
sector público, retalho e fabrico - poderiam beneficiar da análise dos seus rapidamente crescentes montes de dados.
Recolher e analisar os dados transaccionais
dará às organizações um melhor conhecimento
sobre as preferências dos seus clientes. Isso
pode ser usado para informar melhor na criação de produtos e de serviços, e permitir que
as organizações possam resolver problemas
emergentes mais rapidamente.
"A utilização de grandes dados será uma base
fundamental na concorrência e crescimento
para as empresas", conclui o relatório. "A utilização de Big Data suportará novas ondas de
crescimento na produtividade e satisfação do
consumidor".
É claro que a Teradata, a IBM e a Oracle, entre
muitas outras, têm “warehouses” de dados à
escala dos terabytes há mais de uma década.
Actualmente, no entanto, os dados tendem a
ser recolhidos e armazenados numa ampla variedade de formatos e podem ser processados
em paralelo em vários servidores, o que é uma
necessidade dadas as quantidades de informações que estão a ser analisadas. Para lá de
manter exaustivamente os dados transaccionais em bases de dados e outros cuidadosamente residentes em “warehouses”, as
organizações também estão a recolher quantidades incalculáveis de dados dos acessos
(“logs”) dos servidores e outras formas de
dados gerados pelas máquinas, comentários
de clientes internos e de redes sociais exter-
Big Data
nas, e ainda outras fontes de dados soltos, não
|3
chamado Bigtable. A Google manteve o Bigta-
aestruturados.
Internet nem Amazon e
– números
até um
pouco mais
ble para usotemos
interno,
mas Doug
Cutting,
um
a "Os
Fnacsistemas
não facturava
tradicionais
o
M&P:
de dados
Mas há simplesplanos concretos
de aujovens
dohavia
que a criado
idade média
do meu
programador
que já
o motor
de
que
mente
factura
não
hoje.
manipulam
Receber
grandes
mentar o quantidades
portfólio da RD aobusca
nível de
clientesource”
em base de
dados, tenho de
adem “open
Lucene/Solr,
criou
uma
de carta
dadosdas
muito
Selecções
bem, seja
imprensa?
porque não podem uma versão de
mitir.
Tirando
os países
da América Lacódigo
aberto,
denominando
a
era
lidar
umcom
evento
a variedade
e tinha deFL:
dados
Se as
- os
oportunidades
dados de surgirem
e a partir
tina e do
danome
Ásia, do
a elefante
minha revista
tecnologia
de pe-é
uma
hoje
taxasão
de resposta
muito menos
bruforem
estruturados
boas, sim.porque
E ter como luche
accionista
jovem, por estranho que
do seuinvulgarmente
filho.
tal.
evoluem
Hoje não
muito
estamos
rapidamente
um fundo
-, de
ouinvestimento
porque até
facilita
pareça em
relação a aoutros
países.
DeUma
das primeiras
entidades
adoptar
o Hanessa
[esses
realidade.
sistemas]
A concornão conseguem
as coisas. Mais
ser dimenfacilmente doop
vêem foi
uma Yahoo.
pois também
não contratou
é propriamente
um
A empresa
Cutting
rência
sionados
é duríssima,
à velocidade
os queplano
devem
para
‘mastigar’
investiir uns
os quantos
mi- aproblema
a população
não está
e começou
dedicar porque
grandes
quantidades
do
nossos
dados",
livrosrefere
têm dscondo
Eric Baldeschwieler,
lhões num novoCTO
prodrda
uns quantos
mi- de engenharia
a rejuvenescer,
antes pelo
contrário. No
trabalho
a refinar
a tecnologia,
que
Hortonworks,
foi uma dasuma
razões
empresa
lhõessaída
num novo
da Yahoo,
produto do por
que volta
meio delimite
até tenho
um mercado
2006.
"A Yahoo
tinha maior.
muitos
que
quemeoferece
facilitou
uma
a decidistribuição
milhãodo
deHadoop.
dólares de desvio de
budget.
dados
interessantes em toda a empresa que
são,
Os entrei
dadosdepois
estão adecrescer
no
a uma taxa exponen- poderiam serM&P:
A percepção é que
revista émaum
correlacionados
deavárias
ano
cial,
anterior
graçasterem
à Leisaído
de Moore,
M&P:
salientou
Dado que
Curt
têmMode diversificar
envelhecida.
é que se
neiras, as
mas opouco
que existia
estavaComo
em sistemas
muitas
nash, da Monash Research.
fontesAde
Lei
receita,
de Moore
parece quase
uma
muda?Cutting, que agora trabalha
separados",
refere
afirma que o número inevitabilidade.
de transístores que para a Cloudera,
FL: Aum
maior
parte dasde
pessoas
não
fornecedor
distribuiM&P:
podem
As 'gorduras'
ser colocados
já ti- numa
FL: Não
“wafer”
necessariamente.
dum pro- Tenho
ção várias
Hadoop. pega na revista há mais de dez anos. A
nham
cessador
sido cortadas.
duplica aproximadamente
formas de poder
a cada
crescer,
18 uma
delas éé hoje
percepção
é um
ciclo vicioso,
A Yahoo
um dos depois
maiores
utilizadores
do
FL:
meses.
Já, já.Cada
Houvenova
três geração
rasair
dedaprocessadores
minha concha. Há
é umHadoop,
mercado tendo-o
se a minha
percepção
implantado
emé esta
maisnãodevou
40à
zões
duas
pelas
vezes
quaismais
conseguipotenteque
que
domino
a suamuito
antecesbem, quemil
é a venda
procura.
Por outro
lado, aastecnologia
vendas em
servidores.
A empresa
utiliza
soraatingir
maiseste
recente.
nãocorrespondência.
surpreendentemos
ano o E, por
Estamos
tentar
banca
também “Clusters”
têm vindo a cair.
A esdea diferentes
maneiras.
Hadoop
mente, odepois
poderdedos
servidores
break-even,
doisnovos
alargar
o lote detambém
produtos quemantêm
podemos ficheiros
magadora
maioria de
das “logs”
vendas, de
94 ahis95
massivos
a cada
18 meses,vender,
o quejásignifica
que
ouduplica
três anos
de perdas
hoje vendo
vitaminas,
como
mil, são
e.<
tórias
e secções
em por
queassinatura
os utilizadores
clicaas suas
conjuntos
muito
durasactividades
em Portugal. vãosegerar
fossem
cum teste edevendemos
ram. vitaA actividade publicitária também é
igualmente
maiores.
A dados
fundamental
foi, claraminas. Nos catálogos já vendemos
armazenada em “clusters” Hadoop, como são
A abordagem
Big Data
mente,
o corte na àestrujóias.representa uma
as listas de todo o conteúdo e artigos que a
grande
alteração
na forma como os dados são Yahoo publica.
tura
de custos,
aconteceu
manipulados,
Jack Norris,
também
noutros diz
países,
M&P: vice-presidente
Diversificar não é necessaria"O Hadoop é uma óptima ferramenta para ormas
de em
marketing
Portugal foi
dadrásMapR. mente
Antes,naosárea
dados
editorial,
cui- portanto.
ganizar e condensar grandes quantidades de
tico.
dadosamente
Saíram dezenas
escolhidos
de
FL:eram
Não écanalizados
uma inevitabilidade.
dados Ou
antes de serem colocados numa base
pesal
através
e Espanha,
da rede
ra fa
para
do umseja,
“data
sim warehouse”,
tenho de analisarde
oportunidados relacional", refere Monash. A tecnoque
onde
prostão
podiam
não é depois
a estru- ser dades
examinados.
de investimento
Com ana área
logiaeditoé particularmente bem adequada para
tura
de custos, crescente
que não é de rial
e revistas
em concreto,
não padrões em grandes conjuntos de
quantidade
dados,
no entanto,
"a depois
pesquisar
elevada,
o problema
é que
sei que posso
cdes Sisé que vou
investir,
rede torna-se
o estrangulamento",
refere.
texto.
a temas
receita distribuídos
não é suficiente
posso apostar
tudoaaí. Posso
como onão
Hadoop
permitem
Outracrestecnologia de Big Data que teve o seu
para,
em condições
nor- os cer
o negócio com venda deinício
mais proanálise
onde residem
dados.
num fornecedor de serviços online foi a
mais,
essa um subconjunto
dumail, de anúncios
paísesde
da dados Cassandra. A Cassandra é
Em rentabilizar
vez de criar
limpo nos
de psbase
Europa.
dados do utilizador para
os colocar numa capaz de armazenar 2 milhões de colunas
M&P:
Noutros
mercados apara serem consultados
“data
warehouse”
numa única linha, tornando-as acessíveis para
RD
temnúmero
lançadolimitado
títulos deM&P:
E isso
está a ajudar a rejuvenesnum
formas
pré-determiacrescentar mais dados sobre contas de utiliem
segmentos
nos quais
cer o perfil
de audiência
nadas,
o software
deoBig Data
recolhe
todos osda Selecções?
zadores existentes, sem saber de antemão
grupo
temque
know-how.
Esse
FL: Estamos
resultados como
de vendas
dados
uma organização
gera, ea ter
permite
os dados devem ser formatados.
tipo
está a emelhores
dose
que
há uns tempos,
quedeosestratégia
administradores
analistas
preocuUsar amebase de dados Cassandra também pode
ser
pensada
para oosmerlhores
do que
esperávamos,
precisapem
em como
usar mais
tarde.
Neste
sen- ser
vantajoso na medida em que pode ser dicado
ibérico?
estamos
conseguir
tido,
são mais escaláveis mente
do queporque
os bancos
de a vidida
por vários servidores, o que ajuda as orFL:
O mercado
português
chegarwarehouses”.
a mais pessoas. A internet,
as a escalar as suas bases de dados
dados
tradicionais
e as “data
ganizações
em termos publicitários é
novas formas de comunicação,
estão- para lá de um único servidor, ou até
facilmente
um
décimo,
mais coisa
nosaaBig
permitir
clientes,num pequeno “cluster” de servidores.
Como
a Internet
estimulou
Datachegar a novosmesmo
menos
coisa,maneiras,
do Espa- os gigantes
clientes diferentes,
mas que,
felizDe muitas
fornecedores
A Cassandra
foi desenvolvida pela rede social
nhol.
É um mercado
relanão são
assim tão diferentes.
de serviços
online
comomente,
a Google,
Amazon,
Facebook, que precisava de uma enorme base
tivamente
pequenoe Twitter
e
Diferradicionais
Eles
têm distribuída para lidar com as buscas
Yahoo, Facebook
têm estado nacompram.
van- de
dados
muito
ocupado
por granvindo retirar
e gostam
dos produtos.na
Euentrada
tenho do serviço, refere Jonathan Ellis, o
guarda
da aprendizagem
para
o máximo
des
grupos de
porbons
produtos,
é um responsável
problema
proveito
demedia,
tais enormes
conjuntos
de tenho
dados.
do projecto Apache Cassandra e
tanto,
não ée caro
lançarentrede
percepção,
as pessoas pensam
RD
A Google
a Yahoo,
outros,
participaram
co-fundador
da DataStax, empresa que agora
revistas
em Portugal o di-do Hadoop.
e imaginam
logo teias de aranha.
no desenvolvimento
Engenheiros
oferece suporte profissional para Cassandra.
fícil
é rentabilizá-las.
do Facebook
desenvolveram a primeira base Como o Yahoo, o Facebook queria usar a arAgora
o meu dever
é ana- Cassandra,
M&P: Olhando
para o perfil quitectura
da Selec- Bigtable da Google, que poderia
de dados
distribuída
da Apache,
lisar
oportunidades,
ver source”.
o
ções o Bareme Imprensa indica…
também
em “open
fornecer uma estrutura de base de dados
que
sentidoteve
lançaro ou,
FL: Esses
números
dão uma
idade para colunas e linhas que poderia
O faz
Hadoop
seu início
a partir
de um
orientada
eventualmente,
de 44 anos
meu leitor
o Ba“white paper”adquirir.
da Google,média
em 2004,
quedo
desser -espalhada
por um grande número de nós.
Docreveu
lado de
Espanha, o
reme
Imprensa
da maneira como
é cal- da Bigtable é que era um projecto
a infraestrutura
da
Google
construída
O limite
mercado
é muito dados
grande,em vários
culadoservidores
vale o que difevale, mas
é o que para um nó principal. Toda a operapara analisar
orientado
rentes, utilizando um sistema de indexação
ção dependia de um único nó para coordenar
Março 2012 - COMPUTERWORLD
4|
Big Data
as actividades de leitura e escrita em todos os
outros nós. Por outras palavras, se o nó principal fosse abaixo, todo o sistema ficava inutilizado.
"Isso não é o melhor desempenho. Quer-se um
em que se uma máquina vai abaixo, as outras
continuarão a funcionar", disse Ellis.
Assim, Ellis e os seus colegas desenvolveram
a Cassandra usando uma arquitectura distribuída da Amazon, chamada Dynamo, que os
engenheiros da Amazon descreveram num artigo de 2007. A Amazon desenvolveu inicialmente a Dynamo para acompanhar o que os
seus milhões de clientes online iam colocando
no “carrinho de compras”.
A Dynamo não é dependente de qualquer nó
central. Qualquer nó pode aceitar dados para
todo o sistema, bem como responder a consultas. Os dados são replicados em vários
“hosts”.
Para a empresa
A boa notícia é que muitas destas primeiras
ferramentas desenvolvidas por esses fornecedores de serviços online estão a ficar mais disponíveis para as empresas como software de
código aberto. Por estes dias, ferramentas
para grandes dados estão a ser testadas por
uma ampla gama de organizações, fora dos
COMPUTERWORLD - Março 2012
grandes fornecedores de serviços online. Instituições financeiras, telecomunicações, agências governamentais, empresas de serviços
públicos, retalho e empresas de energia estão
a testar grandes sistemas de dados, observa
Baldeschwieler.
"Há um ar de inevitabilidade" com o Hadoop e
implementações de Big Data, diz. "É aplicável
a uma grande variedade de clientes".
Então como é que uma organização pode começar a usar os seus montes de dados gerados
por máquinas e redes sociais?
Talvez surpreendentemente, a criação da infraestrutura não será o maior desafio para o CIO.
Fabricantes como a Cloudera, Hortonworks,
MapR e outros estão a comercializar tecnologias de Big Data, com efeito, tornando-os mais
fáceis de implementar e gerir.
Em vez disso, encontrar o talento certo para
analisar os dados será o maior obstáculo, segundo o analista da Forrester Research, James
Kobielus.
As organizações "tem de se concentrar na
ciência dos dados", diz Kobielus. "Têm de contratar modeladores estatísticos, profissionais
de extracção de texto, pessoas que se especializaram em análise de sentimentos".
A Big Data baseia-se na sólida modelação dos
dados, refere Kobielus. "Modelos estatísticos
preditivos e modelos analíticos de teste serão
as principais aplicações de que se precisa para
gerir muitos dados", refere.
Muitos estão prevendo que a Big Data trará um
tipo inteiramente novo de profissional, o cientista de dados. Este será alguém com um profundo entendimento de matemáticas e
estatísticas, que também sabe trabalhar com
tecnologias de Big Data.
Pode haver escassez destas pessoas. Em
2018, só os Estados Unidos podem enfrentar
a falta de 140 mil a 190 mil pessoas com profundas capacidades analíticas, bem como 1,5
milhões de gestores e analistas com “knowhow” para usar a análise dos grandes dados
para tomar decisões eficazes, estimou a
McKinsey.
Apesar destas limitações, as organizações precisam de seguir em frente apenas para permanecerem competitivas e eficientes, diz
Norris, da MapR. Como exemplo, ele aponta a
Google, que entrou no campo das buscas na
Internet anos após a concorrência, para acabar por dominar o mercado em dois anos.
"Muito disto deveu-se às vantagens da arquitectura ‘back-end’ da Google", considera Norris. A Big Data "é uma grande mudança de
paradigma que tem o potencial de mudar indústrias".<
6|
Big Data
Problema antigo mas “maior”
As empresas portuguesas já lidam com os problemas do crescimento exponencial de dados há algum tempo.
Mas considerando as dimensões e os constrangimentos actuais, o desafio é mais elevado e diferente.
Û
Para grande parte das organizações portuguesas, Big Data é uma denominação nova para
um problema antigo, com dimensões maiores
– e a exigir redobrada atenção. O grau de preparação varia, com o sector da banca e das telecomunicações a liderarem. Mas, desta vez,
os constrangimentos de financiamento trazem
barreiras adicionais, muitas vezes incontornáveis – incluindo o adiamento do investimento.
As empresas em Portugal “já assimilaram o
conceito” de Big Data , afirma Fernando Faria,
Manager de Data & Information Management
na Unisys. Existirão factores externos para
isso, como o papel da comunicação social e o
próprio discurso dos fabricantes e prestadores
de serviços de alojamento.
Mas as próprias organizações já constataram o
fenómeno internamente, reforça. Também o
CTO da Feedzai, Paulo Marques, considera
que o fenómeno Big Data não é novo para as
empresas portuguesas.
Do seu ponto de vista, a questão mais importante que se coloca às empresas passa por
saber “como extrair valor de negócio dos
dados que existem na organização, independentemente da tecnologia utilizada” como suporte.
A grande diferença é que hoje o desafio ganha
outra dimensão e relevância devido “à surpreendente magnitude dos volumes de dados
produzidos pelas organizações”, salienta Sofia
Esteves, directora do centro de competência
de BI da Novabase. Assim, ele depende da organização ter ou não “um volume de dados
tal, que impossibilite o seu tratamento e análise de forma efectiva”, sustenta.
A própria globalização constitui um factor de
pressão, na opinião desta responsável. A presença das organizações em várias partes do
globo, as consequências da actividade empresarial decorrer em fusos horários distintos e a
necessidade de haver uma visão global sobre o
negócio, são vertentes desse aspecto. O
mesmo resulta num “esmagamento das janelas de processamento de dados disponíveis,
criando novos desafios na eficiência e performance dos processos de ETL (Extraction,
Transformation e Loading)”, explica.
Como noutros países, também em Portugal as
redes sociais são um dos factores de crescimento exponencial da informação, confirma
Fernando Faria (Unysis). E “a análise, extrac-
ção e processamento desta informação pertinente para o ramo de negócio de uma empresa
será um factor justificativo para o investimento
no tratamento de Big Data”, explica.
Contudo, o responsável considera que as organizações “estão a tentar passar esta problemática para um futuro próximo, procurando
adiar investimentos que não tenham um retorno rápido para o seu negócio”. O momento
de contenção de investimentos será o principal
responsável pela situação.
Não obstante, Paulo Marques (Feedzai) tem
uma perspectiva mais positiva sobre a dinâ-
Três vertentes de reforço
O novo universo de capacidades inerente ao Big Data permitirá complementar as capacidades actualmente instaladas nas empresas portuguesas, considera o consultor da Deloitte, Pedro Lopes. Sobretudo em três vertentes
ou situações:
• quando se pretende que os “data warehouses” actuais desçam a um nível de detalhe adicional que antes não era
suportável pela enorme quantidade de informação resultante (exemplos são os detalhes de facturas ou de chamadas telefónicas);
• para se tirar partido de ferramentas de funcionamento em tempo real, que necessitam de capacidades de resposta sobre análises de grandes quantidades de dados, superiores às tradicionais;
• com o objectivo de obter alertas e significado, com valor, a partir de informação não estruturada como “Web
logs”, fluxos de media social, dados de RFID ou de outros sensores, ou dados sobre cliques em sites Web.<
COMPUTERWORLD - Março 2012
Big Data
mica do mercado. Confia na “abertura
enorme” das empresas nacionais para “usar
tecnologia de ponta” mas com uma condição:
é preciso que a tecnologia “resolva os seus
problemas de análise de dados”.
“Do que temos assistido no terreno, as empresas também estão neste momento dispostas a investir por forma a conseguirem reduzir
custos nas suas operações com tecnologia,
que lhes permitam melhores ‘insights’ de negócio na sua organização”, concretiza. Para o
responsável da “start-up” participada da Novabase, o mercado português não apresenta
qualquer peculiaridade face a outros.
Empresas em aprendizagem
Sendo Portugal um país com uma malha empresarial composta sobretudo por PME, levantam-se algumas dúvidas. Na opinião de Pedro
Lopes, da Deloitte, as PME não serão naturais
“clientes” das capacidades inerentes ao fenómeno Big Data.
A sua justificação liga-se à visão de Sofia Esteves: o consultor baseia a sua opinião nas “necessidades típicas de análise de informação
que normalmente evidenciam”. Contudo isso
não invalida a utilidade de investirem num
contexto de Big Data e obterem proveitos.
“As organizações portuguesas, tal como as outras, poderão tirar partido destas capacidades
para segmentar os seus clientes com base em
novas fontes de informação como os media sociais, tomar decisões de oferta de produtos ou
serviços em tempo real com base em informação captada no momento ou identificar fraudes por análises a informação mais detalhada
que antes não eram possíveis”, explica.
Nesse contexto, considera que do ponto de
vista da sua preparação, estão ao nível da “generalidade” das organizações de outros países
– pelo que poderão, mediante mais “alguma
preparação”, reforçar e complementar as suas
capacidades actuais.
Na sua visão, exceptuando organizações como
a Google ou a Facebook, pioneiras a lidar com
o fenómeno Big Data, todas as empresas ainda
estão a aprender como fazê-lo. Na mesma
linha, o gestor da Reditus, Nuno Pacheco,
afirma que o universo tecnológico em torno do
Big Data é “recente e disruptivo”, considerando os cenários tradicionais de BI.
Nuno Pacheco considera existir no mercado
português “algum investimento”, particularmente nas soluções de “data mining” e “data
warehousing”. “A realidade é que apenas têm
capacidade limitada de armazenar e analisar
as suas fontes internas de informação”,
mesmo que já conseguindo desenvolver uma
actividade analítica sobre o negócio , revela.
“Com o know-how já existente, complementado com uma abordagem Big Data, será possível adquirir, organizar e analisar fontes de
informação tanto internas como externas, com
uma abrangência bastante mais alargada”, de-
|7
ÞMais é ou não melhor?
"Big Data não tem a ver apenas com análise de dados”,
assegura o CTO da Amazon, Werner Vogel. Tem a ver com o
fluxo todo, afirma. Por isso, é necessário pensar em todas as
diferentes etapas de processamento de dados: recolha,
armazenamento, organização, análise e partilha.
Já o CTO da Feedzai, Paulo Marques, dá destaque ao
conhecimento sobre as perguntas mais importantes a fazer.
Para aproveitar as crescentes quantidades de dados e ganhar
vantagens competitivas, as empresas terão de inovar em todas
essas áreas, não apenas na análise, segundo Vogel. A Amazon
tem desenvolvido muita actividade em torno do Big Data e da
análises de dados para conseguir chegar a clientes-alvo e
disponibilizar recomendações pertinentes.
O que tem aprendido ao longo do caminho é que “maior”, neste
caso, é sinónimo de melhor, diz Vogel. Quando são detectados
erros, estes são normalmente devidos ao facto de não
existirem dados suficientes para sustentar uma recomendação,
por exemplo.
Mas para o CTO da Feedzai, nem sempre é preferível ter uma
maior quantidade de dados. Em contexto de "Big Data", diz, a
pergunta mais importante a fazer é “o que é que eu preciso de
compreender do negócio que me permita ter uma organização
mais eficiente, mais produtiva, ou com mais oportunidades de
negócio?”
Quando essa questão estiver resolvida, utilizam-se os dados
necessários existentes nos sistemas de informação. “Usar ‘a
maior quantidade possível de dados’ não será efectivamente a
melhor resposta. Saber que perguntas é que têm valor em
termos de negócio, sim, é um catalisador chave de soluções de
Big Data“, defende.<
Tirar partido para lá do “hype”
É impossível negar o crescimento exponencial da informação nos últimos
anos. Para Fernando Faria, Manager de Data & Information Management
da Unisys, “o reconhecimento da sua existência como Big Data, mais recentemente, comprova a tendência”.
Estando na “ordem do dia”, tem sido “um pouco enfatizado” pelos fabricantes. Contudo, “não deixa de ser uma realidade” que merece atenção.
Sobretudo, com o objectivo de as organizações conseguirem “tirar partido da compreensão e exploração desta informação em tempo real”, reforça o responsável.
fende o responsável da Reditus.
“Que capacidades deverão ser utilizadas? Para
que propósitos de negócio?”, são as questões
mais prementes para as organizações interessadas, segundo Pedro Lopes. O responsável da
Deloitte aponta ainda três aspectos em que
uma abordagem no contexto Big Data poderá
complementar as estratégias das organizações
portuguesas (ver caixa).
Nem só de software se fará a preparação para
a abordagem Big Data. “As empresas irão começar a olhar para um tipo de informação diferente, que antes estava consolidada na sua
infra-estrutura tradicional”, destaca Fernando
Faria, da Unisys.
Esse corpo de informações começará a ser
“deslocado” para sistemas desenhados para
proporcionarem armazenamento e rápido
acesso, explica. Além disso, os mesmos terão
a capacidade para “interpretar” e “explorar”
os dados em benefício do negócio. “Desta
forma, as empresas terão que começar a manejar um novo tipo de infra-estrutura, para um
novo tipo de informação com requisitos de manipulação completamente diferentes daqueles
utilizados até agora”, alerta.<
Março 2012 - COMPUTERWORLD
8|
Big Data
Tendência preocupa e
causa grande confusão
A Big Data tem tido alguma atenção
por estes dias e as organizações estão cada vez mais preocupadas com
o problema da sua gestão, mas muitas ainda não entendem o que são
realmente as grandes quantidades
de dados. Nem sequer têm as ferramentas existentes para gerir eficazmente muitos dos dados já à sua disposição,
diz
Mandeep
Khera,
director de marketing da LogLogic,
especializada numa plataforma escalável de registos e segurança de
inteligência (“log and security intelligence platform” ou LSIP) para empresas e cloud.
"A maioria delas estão preocupadas
com os grandes dados, mas ainda
não entendem o que isso significa",
diz Khera. "Porque tem havido tanto
dito sobre Big Data, não há uma definição clara e todos estão confusos".
Um novo estudo conduzido pela LogLogic em conjunto com a consultora de segurança de TI Echelon One
verifica que 49% das organizações
estão um pouco ou muito preocupadas com a gestão de grandes dados, mas 38% não entende o que é a
Big Data e 27% ainda dizem que têm
uma compreensão parcial. Além
disso, o estudo descobriu que 59%
das organizações não possuem as
ferramentas necessárias para gerir
os dados nos seus sistemas de TI,
voltando-se em vez disso para sistemas separados e diferentes, ou até
folhas de cálculo.
"Sabemos que os dados são importantes a partir de muitas perspectivas diferentes: segurança, operações de TI, conformidade", diz
Khera. "As empresas precisam de
gerir os dados dxe forma muito mais
eficaz para que possam tomar decisões mais inteligentes".
O estudo global foi baseado nas respostas de 207 indivíduos ao nível da
direcção numa variedade de indústrias, incluindo manufactura, educação, governo, finanças, saúde, transportes, media e edição, e outros.
"Big Data é sobre muitos terabytes
de dados não estruturados", explica
Khera. "A informação é poder, e a
COMPUTERWORLD - Março 2012
Big Data, se administrada correctamente, pode dar uma tonelada de
conhecimento para ajudar a lidar
com questões da segurança, operacionais e de conformidade. Organizações de todos os tamanhos estão
a recolher mais dados de uma variedade de fontes de dentro da empresa e de infraestruturas na nuvem,
e muitas organizações não estão a
utilizar as ferramentas e processos
adequados para gerir esses dados.
Se este padrão continuar, veremos
as empresas a ficarem para trás, incapazes de obter conhecimentos
que podem ajudar as organizações a
tomar decisões inteligentes".
A maioria dos inquiridos – 62% - disse
que já geria mais de um terabyte de
dados. Mas há mais para vir. O volume de dados está a aumentar no
mundo a uma taxa quase incompreensível. A IBM diz que criamos
2,5 quintiliões de bytes de dados todos os dias. E talvez ainda mais surpreendente, 90% dos dados no
mundo foram criados nos últimos
dois anos, segundo a empresa. Os
dados são provenientes de sensores, registos de transacções, imagens e vídeos, mensagens nos media
sociais, registos de entrada e todos
Big Data
os tipos de outras fontes.
É isto que é a Big Data. Ela pode fornecer o tipo de inteligência e perspicácia activa com que os líderes empresariais sonham. Na frente da
segurança, pode ajudar a proteger a
organização contra ameaças persistentes avançadas (APT) e ataques
de malware, fornecendo visibilidade
sobre o que está a acontecer na
rede, e pode também dar à análise
forense um enorme impulso. E também pode levar a enormes ganhos
em termos de eficiência operacional,
desde a optimização dos servidores
a otimizar a gestão da cadeia de
abastecimento. Pode até ajudar em
questões de conformidade.
Mas se não se tiverem as ferramentas para gerir e realizar a analítica na
infindável inundação dos dados, eles
são essencialmente lixo.
Khera diz que uma das chaves para
ter a Big Data sob controlo é a ges-
tão dos “logs”, que consolida e centraliza os registos de toda a organização - incluindo os “logs” de aplicações Web, “middleware”, aplicações
de “back-end” personalizadas e bases de dados -, com um repositório
indexado de armazenamento e uma
interface de utilizador comum. Para
se obter sentido dos dados, requerse a capacidade de os normalizar,
correlacionar, emitir relatórios e alertas.
Este ano, a LogLogic encomendou
ao IANS (fundado como Institute for
Applied Network Security), para realizar uma análise de investimento na
segurança da informação (Information Security Investment Analysis ou
ISIA) dos seus produtos de gestão
de registos e de conformidade.
Após entrevistar clientes da LogLogic que lidam com as questões das
grandes quantidades de dados, o
IANS afirmou: "o maior diferencia-
|9
dor na gestão de registos em Big
Data é o tamanho da quantidade de
informações nos ‘logs’. Tentar recriar
um evento após o facto não é uma
questão simples se apenas alguns
dispositivos estão disponíveis. Imagine olhar através de milhares de dispositivos e através de petabytes de
dados sem ter um fácil de usar interface de utilizador ou um repositório de armazenamento indexado para
uma resposta rápida. A Big Data é
caracterizada não apenas pelo tamanho, mas também pela velocidade. Procurar através de quantidades maciças de dados leva tempo se
não estiverem indexados correctamente. Se a informação crítica sobre
acessos não autorizados ou outras
actividades não estiverem disponíveis porque não foram indexadas, os
resultados de uma pesquisa serão
inconclusivos. Assim, uma solução de
gestão de muitos dados deve ser capaz de funcionar mesmo com a inundação das novas mensagens. Isto é
ainda mais importante quando se
trata dos alertas. Se a indexação demorar muito, as mensagens críticas
de alerta serão atrasadas causando
uma latência inaceitável nos tempos
de resposta".
Por enquanto, porém, apenas 54%
dos entrevistados disseram usar
uma solução de gestão de “logs”
para gerirem os seus dados de registos. Muitos usam folhas de cálculo
para gerir os registos, de acordo com
o estudo, e 33% não fazem nada.
"Os resultados mostram significativas inconsistências na prática", diz
Bob West, fundador e CEO do
Echelon One. "Ou seja, enquanto a
Big Data, as necessidades na cloud
e os requisitos de conformidade são
claramente as maiores preocupações, a maioria das empresas não
estão preparadas para lidar com
qualquer um deles de forma adequada. É fascinante ver essa distância, e uma percentagem esmagadora das empresas inquiridas não
estão preparadas para gerir muitos
dados adequadamente, monitorizar
os ambientes cloud de forma eficaz
ou relatar as actividades da rede e
dos dispositivos correctamente. Estas empresas estão a ficar expostas a ataques, a tomada de decisões
menos
informadas
de
negócios e até mesmo a arriscarem
multas das agências reguladoras
por não cumprirem com as suas obrigações".<
Março 2012 - COMPUTERWORLD
10 |
Big Data
Cinco coisas que
deve fazer agora
Tem o seu plano para grandes quantidades de dados em prática? Se não, pode querer pensar na implementação de um.
A Big Data está sendo saudada - ou mediatizada, dependendo do seu ponto de vista - como
um activo de negócio estratégico para o futuro.
Isto significa que é apenas uma questão de
tempo até os colegas no escritório quererem saber os pensamentos da TI sobre o assunto.
O que lhes pode dizer? Para ter a certeza, lidar
com grandes quantidades de dados não é um
território virgem para a maioria dos departamentos de TI, mas para além do “hype”, dizem
os analistas, a Big Data é realmente diferente
do “data warehousing”, “data mining” ou da
análise de “business intelligence” que surgiram
antes.
Os dados estão a ser gerados a uma maior velocidade e variabilidade do que antes e, ao
contrário dos dados no passado, a maior parte
é desestruturada e rude (por vezes, são os chamados "dados cinzentos").
Blogues, redes de media social, sensores de
máquinas e ferramentas baseadas em localização estão a gerar todo um novo universo de dados não estruturados que - quando rapidamente capturados, geridos e analisadas podem ajudar as empresas a descobrir factos e
padrões que não foram capazes de reconhecer
no passado.
"Recolhemos dados há muito tempo mas era de
forma muito limitada – o que produziu um
monte deles, mas sem que alguém estivesse a
fazer alguma coisa com eles", diz Paul Gustafson, director dos programas de tecnologia Forum Leading Edge na Computer Sciences Corp.
"Os dados foram arquivados, e foram modelados em torno de processos de negócios, não
como um conjunto mais amplo de conhecimento básico para a empresa. O mantra é essa
mudança de os recolher para os ligar".
A TI está a liderar a vanguarda dessa revolução
dos dados, dizem observadores do sector.
"Esta é uma oportunidade para entrar no escritório do CEO e dizer, 'eu posso mudar este negócio e proporcionar o conhecimento na ponta
dos dedos em questão de segundos, por um
preço que eu não podia oferecer há cinco anos",
diz Eric Williams, CIO da Catalina Marketing.
Williams sabe do que fala – a Catalina mantém
uma base de dados de 2,5 petabytes com a fidelização dos clientes que inclui dados sobre
mais de 190 milhões de clientes de supermercados norte-americanos, reunidos pelas maiores redes de retalho. Esta informação é, por sua
COMPUTERWORLD - Março 2012
vez, utilizada para gerar cupões no “checkout”
com base no historial de compras.
Para orientar as organizações para a era da inteligência predictiva em tempo real, Williams e
outros observadores da indústria dizem que os
gestores de tecnologia devem evoluir a sua arquitectura corporativa de gestão da informação
e cultura para suportar analíticas avançadas em
armazenamento de dados que calculem em terabytes e petabytes (e possam potencialmente
escalar para os exabytes e zetabytes).
"A TI está sempre a dizer que quer encontrar
formas de aproximar-se do negócio - [Big Data]
é uma oportunidade fenomenal para fazer exactamente isso", diz Williams.
Ao invés de esperar que as peças encaixem, os
líderes conhecedores de TI devem começar a
preparar-se e às suas organizações para se chegarem à frente da transformação, dizem os
analistas, como Mark Beyer, da Gartner.
Eis as cinco principais acções que os gestores
de tecnologia devem tomar hoje para definir
uma base adequada para a era da Big Data de
amanhã.
Faça um balanço dos seus dados
Quase todas as organizações têm potencialmente acesso a um fluxo constante de dados
não estruturados – seja nas redes sociais ou a
partir de sensores que monitorizam o chão da
fábrica. Mas só porque uma organização está a
produzir essa quantidade de informação, isso
não significa que há um imperativo de negócio
para guardar e agir em cada byte.
"Com todo este interesse inicial em torno dos
grandes dados, as pessoas estão a sentir uma
necessidade artificial de compreender todos
os dados que vêm de Web logs ou de sensores",
observa Neil Raden, analista da Research Constellation.
Parte dessa ansiedade pode ser proveniente
de fornecedores e consultores ansiosos para
promover a próxima grande coisa na computação empresarial. "Há concerteza um esforço
determinado nesse sentido vindo das pessoas
que estão a comercializar a tecnologia", observa
Raden.
Os gestores inteligentes de TI vão resistir à
tentação e servir como filtro para ajudar a descobrir quais os dados que são ou não relevantes para a organização.
Um bom primeiro passo é fazer um balanço de
que dados são criados internamente e determinar quais as fontes de dados externas, se as
houver, para preencher lacunas de conhecimento e trazer conhecimento agregado ao negócio, diz Raden.
Uma vez isso em curso, a TI deve avançar com
Big Data
projectos altamente direccionados que possam
ser usados para demonstrar os resultados, por
oposição a optar por grandes projectos de Big
Data. "Não se tem de gastar alguns milhões de
dólares para iniciar um projecto e ver se vale a
pena", diz Raden.
Deixe as necessidades
corporativas prevalecerem
Pode já ter ouvido isto antes, mas o alinhamento dos negócios com as TI é fundamental
para uma iniciativa tão grande e variada como
é a Big Data, dizem os analistas. Muitas das
primeiras grandes oportunidades nos grandes
dados começaram em áreas fora das TI - os departamentos de marketing, por exemplo, estão
a analisar os fluxos nos media sociais para ganharem uma melhor compreensão sobre as exigências dos clientes e tendências de compra.
Enquanto especialistas em disciplinas específicas sobre o lado do negócio podem reconhecer as oportunidades de fazer dinheiro, é responsabilidade da TI de tomar conta dos
conceitos de partilha e de federação dos dados
que fazem parte integrante de uma estratégia
de Big Data.
"Isto não é algo que a TI possa fazer por conta
própria", diz Dave Patton, analista das indústrias de gestão de informação na PricewaterhouseCoopers. "Vai ser difícil transformar isto
numa história de sucesso se [a iniciativa] não
estiver alinhada com os objectivos do negócio".
No início da iniciativa de Big Data na Catalina
Marketing, Williams juntou os gestores de negócio ao grupo de análise e planeamento financeiro (FPA), num esforço de equipa para ter
um “business case” para investimentos em arquitectura de informação.
O lado do negócio identificou áreas onde novas
ideias podiam trazer valor - por exemplo, na determinação de compras posteriores com base
nos items do carrinho de compras ou através de
uma análise da próxima compra baseada em
ofertas de produtos – e a equipe FPA analisou
os números para quantificar o que os resultados significavam em termos de aumento de
produtividade ou de aumento de vendas.
Reavaliar a infra-estrutura
As iniciativas de Big Data exigem grandes mu-
COMPUTERWORLD
danças, tanto na infra-estrutura de servidores e
de armazenamento e na arquitectura de gestão
de informação na maioria das empresas, dizem
Beyer e outros especialistas. Os gestores de TI
precisam de estar preparados para expandir os
seus sistemas para conseguirem lidar com as
quantidades cada vez maiores de dados estruturados e não estruturados, dizem.
Isto requer descobrir a melhor abordagem para
tornar ambos os sistemas extensíveis e escaláveis e desenvolver um roteiro para a integração
de todos os diferentes sistemas que irão alimentar o esforço de análise de Big Data.
"Hoje, a maioria das empresas tem sistemas diferentes e silos para folhas de pagamento, para
gestão de clientes, para marketing", diz Anjul
Bhambhri, vice-presidente da IBM para os produtos Big Data. "Os CIOs precisam realmente
de ter uma estratégia para juntar esses diferentes sistemas e silos e construir um sistema
de sistemas. Quer-se fazer perguntas que fluam
através de todos esses sistemas para se obterem respostas".
Desossar a tecnologia
O mundo dos dados enormes vem com uma
longa lista de novas siglas e de tecnologias
que provavelmente nunca apareceram no radar
de um CIO.
Ferramentas de código aberto estão a ter a
maior parte da atenção. Tecnologias como Hadoop, MapReduce e NoSQL estão a ser creditadas como a ajuda de gigantes da Web, como
a Google e o Facebook, a escavarem os seus reservatórios de muitos dados. Muitas destas tecnologias, agora já disponíveis em modelos comerciais, ainda estão bastante imaturas e
necessitam de pessoas com competências
muito específicas.
Outras tecnologias que são importantes para o
mundo dos grandes dados incluem analítica de
base de dados, bases de dados verticais e aplicações de “data warehouse”.
Os gestores de TI e as suas equipas têm de
compreender estas novas ferramentas para garantir que serão capazes de tomar decisões
bem informadas na Big Data.
Prepare as suas equipas
Quer precisem de especialistas do Hadoop ou
cientistas de dados, a maioria das organizações
| 11
de TI sentem muita falta do talento necessário
para dar os próximos passos na Big Data. Capacidades de analítica são talvez a mais crucial, e essa é a área onde a maioria das equipas de TI têm as maiores lacunas.
A McKinsey antecipa que, só nos EUA, haverá
uma necessidade em 2018 entre 140 mil a
190 mil especialistas em métodos estatísticos
e em tecnologias de análise de dados. Os cargos que estarão em procura vão incluir o papel
amplamente alardeado e emergente do cientista de dados.
Além disso, a McKinsey antecipa a necessidade
seja no lado do negócio ou técnico da organização para mais 1,5 milhões de gestores letrados em dados que tenham formação em analítica predictiva e estatística.
Para algumas empresas, especialmente aquelas em áreas menos povoadas, o pessoal será
provavelmente um dos aspectos mais desafiantes numa iniciativa de Big Data. A enorme
quantidade de dados "requer definitivamente
uma mentalidade diferente e capacidades
numa série de áreas", diz Rick Cowan, CIO da
True Textiles, fabricante de tecidos interiores
para o mercado comercial, baseado em Guilford
(EUA).
"Como empresa de médio porte, tem sido um
desafio ser capaz de conseguir pessoal e
mantê-lo a funcionar num ambiente em constante mudança", diz Cowan. Para atender à
necessidade, ele começou a treinar programadores e analistas de bases de dados para os levar até à analítica avançada.
Os responsáveis dos departamentos de TI terão
também de assumir algumas transformações
para terem sucesso neste admirável mundo
novo. Enquanto os melhores líderes de tecnologia do passado foram parte bibliotecário da
informação e parte engenheiro de infra-estrutura, os gestores de TI do futuro vão ser uma
combinação de cientista de dados e engenheiro
de processos de negócios, diz Beyer, da Gartner.
"Os CIOs têm sido usados para gerir a infra-estrutura baseada num conjunto de instruções
dadas a partir do negócio, por oposição a um
CIO que é capaz de identificar a oportunidade
e, portanto, puxar pelo uso inovador da informação", explica. "Essa é a transformação que
precisa de acontecer".<
www.computerworld.com.pt
AV. DA REPÚBLICA, N.º 6, 7º ESQ. 1050-191 LISBOA DIRECTOR EDITORIAL: PEDRO FONSECA [email protected] EDITOR: JOÃO PAULO NÓBREGA [email protected]
DIRECTOR COMERCIAL E DE PUBLICIDADE: PAULO FERNANDES [email protected] TELEF. / FAX +351 213 303 791 PAGINAÇÃO: PAULO COELHO - TODOS OS DIREITOS SÃO RESERVADOS.
A IDG (International Data Group) é o líder mundial em media, estudos de mercado e eventos na área das tecnologias de informação (TI). Fundada em 1964, a IDG possui mais de 12.000 funcionários em todo o mundo. As marcas IDG –
Computerworld, CIO, CFO World, CSO, ChannelWorld, InfoWorld, Macworld, PC World e TechWorld – atingem uma audiência de 270 milhões de consumidores de tecnologia em mais de 90 países, os quais representam 95% dos gastos
mundiais em TI. A rede global de media da IDG inclui mais de 460 websites e 200 publicações impressas, nos segmentos das tecnologias de negócio, de consumo, entretenimento digital e videojogos. Anualmente, a IDG produz mais de
700 eventos e conferências sobre as mais diversas áreas tecnológicas. Pode encontrar mais informações do grupo IDG em www.idg.com
Março 2012 - COMPUTERWORLD
12 |
Big Data
Mais oportunidades de carreira
para profissionais de TI
Novas oportunidades de emprego estão a surgir para os profissionais de TI na área dos dados "grandes", o termo usado
para descrever como as empresas reúnem grandes quantidades de dados em tempo real sobre os seus clientes e os
analisam para conduzir a tomada de decisão e aumentar o lucro.
Um novo cargo - cientista de dados – está na
moda. Um cientista de dados tem normalmente formação em ciências da computação
ou matemática, bem como as capacidades
analíticas necessárias para encontrar a proverbial agulha num palheiro de dados recolhidos
pela empresa.
"Um cientista de dados é alguém que é curioso,
que pode olhar os dados e detectar tendências",
diz Anjul Bhambhri, vice-presidente de produtos Big Data na IBM. "É quase como um
homem da Renascença que realmente quer
aprender e trazer mudança para a organização".
Inédito há 18 meses atrás, o termo "cientista
de dados" explodiu em popularidade no Google. O número de buscas atingiu picos de 20
vezes maior do que o normal no último trimestre de 2011 e primeiro trimestre de 2012. É
um termo de busca popular em locais de alta
tecnologia nos Estados unidos, como São Francisco, Washington D.C. e Nova Iorque.
Entre as empresas que procuram contratar
cientistas de dados estão a PayPal, Amazon e
HP. O termo "cientista de dados" é mencionado
em 195 anúncios de emprego no Dice.com,
um site para profissionais de TI.
Os departamentos de TI também está adicionando programadores centrados nos dados e
administradores de sistemas especializados em
ferramentas como o “open source” Apache Hadoop.
O Hadoop é mencionado em 612 dos mais de
83 mil anúncios de emprego no Dice.com.
Entre as empresas que procuram contratar engenheiros de software e programadores Hadoop
estão a AT&T Interactive, Sears, PayPal, AOL
e Deloitte.
O Hadoop "é uma capacidade emergente", diz
Alice Hill, directora-executiva do Dice.com. "As
empresas precisam de gerir operações de
dados em grande escala, e toda a ideia do Hadoop é que se pode fazer isso com um baixo
custo. Isto funciona muito bem com o que estamos a ver em termos de movimento para a
cloud".
Hill vê oportunidades relacionadas com o Hadoop quer ao nível de entrada como de equipas
de TI experientes, bem como nos especialistas
de hardware e de software.
"As pessoas tradicionais do hardware precisam
de descobrir como se agrupar em diferentes
ambientes. Não é apenas sobre a compra de
COMPUTERWORLD - Março 2012
uma base de dados e a ligar a um disco rígido.
Agora já se têm bancos de dados distribuídos
que estão ligados a múltiplos servidores e múltiplos discos rígidos", diz Hill. O Hadoop "é barato mas exige alguém que realmente saiba
como escalar hardware".
Hill diz também que o Hadoop é igualmente
uma boa oportunidade a seguir por profissionais de TI com experiência em gestão de bases
de dados relacionais. "Se realmente se entende
de estrutura de dados e de consultas [“queries”], haverá um monte de oportunidades de
emprego", acrescenta.
Oportunidades de trabalho para cientistas de
dados e especialistas do Hadoop estão a surgir
em todos os sectores, desde empresas de Web
a e-lojas, a serviços financeiros, energia,
saúde, “utilities” e media.
"Há tantas direcções em que se pode seguir
com estas capacidades” de gestão de dados,
aponta Hill. "É um solo muito fértil para profissionais de TI experientes, mas também para
pessoas que se estão a formar em ciências da
computação. É uma grande área para se especializar".
Bhambhri diz que os departamentos de TI vão
estar a olhar para contratar novas pessoas na
área da Big Data, bem como para re-formar alguns dos seus actuais empregados para adicionar capacidades análise de dados e
ÞFaltam profissionais
em Portugal
O gestor da Reditus, Nuno Pacheco, revela que no âmbito
da sua aposta numa oferta para Big Data ”está a fazer um
forte investimento na aquisição de valências nesta área”.
Mas considera que ainda é escassa a oferta de profissionais de TI especializados.
Na sua visão, as PME terão de se adaptar a um novo paradigma, no qual as fontes de informação a analisar estão
fora do domínio das empresas. “O volume de informação
já não se encontra na ordem dos gigabytes, mas sim nos
tera, exa ou mesmo petabytes. Pode parecer assustadora
esta ordem de grandeza, mas é importante referir que
uma solução Big Data actua mais no tratamento e redução
da informação, do que no armazenamento”, explica. E é
esse enfoque que permitirá efectuar análises mais especializadas – por exemplo, na análise a redes sociais.<
programação relacionada com Hadoop e capacidades administrativas. Por exemplo, a IBM
re-treinou 2.400 profissionais de TI em Big
Data Bootcamps, que usava para os seus clientes e parceiros no ano passado.
"Os departamentos de TI têm realmente que
expandir as suas plataformas de dados e não
estarem restringidos aos repositórios de dados
estruturados", diz Bhambhri. "Eles têm que trazer novas fontes de dados não estruturados
para as suas plataformas para responder às
perguntas que os executivos de nível C estão a
pedir para os seus processos decisórios. De
uma perspectiva da TI, é muito importante
para as pessoas em TI não só identificarem
estas fontes de dados mas para trabalharem
com os seus parceiros de negócios e descobrir
que outras fontes de dados precisam de ser integradas nas suas plataformas".
A IBM tem uma nova iniciativa denominada
Big Data University, que visa a formação de estudantes e de pós-graduados na área de Big
Data e de exposição ao Hadoop. Lançada em
Outubro passado, a Big Data University já
atraiu mais de 14 mil estudantes interessados
em se inscreverem nos seis cursos online relacionadas com Hadoop e Big Data.
"Estamos a tentar fazer com que os alunos
vejam o potencial real do Big Data e que resultados de negócio pode obter a partir dessas
novas fontes de dados", diz Bhambhri. "Estamos a dar-lhes casos úteis de empresas no retalho, cuidados de saúde ou telecomunicações.
Mostramos porque não era possível antes e é
possível agora por causa do trabalho que temos
feito com diferentes clientes nestes sectores
diferentes".
Bhambhri está optimista com as perspectivas
de carreira para profissionais de TI com competências em gestão de dados e em Hadoop.
"Em todos os sectores, há uma grande quantidade de dados que está sendo capturada", diz
Bhambhri. "Os volumes de dados são enormes.
Assim, muitos dos nossos clientes estão a capturar os dados mas até agora não havia tecnologia disponível que eles pudessem usar para
analisar esses dados de forma rápida numa relação de custo-benefício. Era um grande problema. Agora, lemos o que o Yahoo e a Google
estão a fazer com o Hadoop e o MapReduce, e
parece realmente que essas ferramentas em
código aberto vão resolver o problema".<