Leia aqui a edição completa em pdf
Transcrição
Leia aqui a edição completa em pdf
COMPUTERWORLD Março 2012 Big Data A grande promessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Problema antigo mas “maior” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Três vertentes de reforço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Mais é ou não melhor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Tirar partido para lá do “hype” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Tendência preocupa e causa grande confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Cinco coisas que deve fazer agora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Mais oportunidades de carreira para profissionais de TI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Faltam profissionais em Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Março 2012 - COMPUTERWORLD 2| Comunicações Big Data Unificadas A grande promessa As organizações estão a descobrir que as tecnologias para gerir grandes quantidades de dados (Big Data) podem rapidamente encontrar uma agulha no palheiro. Para o Twitter, fazer sentido das montanhas de dados dos seus utilizadores era um problema suficientemente grande que comprou uma outra empresa apenas para a ajudar a fazer esse trabalho. O sucesso do Twitter depende inteiramente de quão bem a empresa explora os dados que os seus utilizadores geram. E tem um monte de dados para trabalhar: armazena mais de 200 milhões de contas, que geram 230 milhões de mensagens diárias no Twitter. Em Julho passado, a gigante das redes sociais adquiriu a BackType, uma empresa com o software Storm que permite analisar fluxos de dados dinâmicos, como os milhões de “feeds” do Twitter. Após a aquisição, o Twitter libertou o código-fonte do Storm, não tendo interesse em comercializar o produto em si. O Storm é valioso para o Twitter nas suas próprias operações, especificamente porque pode ser útil na identificação de tópicos emergentes à medida que se estão a desenvolver, em tempo real, no serviço da empresa. Por exemplo, o Twitter usa o software para calcular quão amplamente endereços da Web são partilhados entre vários utilizadores do Twitter em tempo real. Esse trabalho "é realmente de computação intensiva, que pode envolver milhares de acessos às base de dados e a milhões de registos de utilizadores", revela Nathan Marz, engenheiro-chefe para o Storm, que explicou a tecnologia em Dezembro passado numa conferência em Nova Iorque realizada pela DataStax, empresa de software de Big Data. Usando uma única máquina, calcular o alcance de um endereço Web pode levar até 10 minutos. Mas usando 10 máquinas, explicou Marz, pode ser executado em apenas alguns segundos. Para uma empresa que ganha dinheiro a vender anúncios que se conjuguem com as tendências emergentes, quanto mais rápida for essa operação pode ser crucial. Como o Twitter, as organizações estão a descobrir que têm uma grande quantidade de dados em mãos, e que os dados podem ser usados para maximizar os lucros e melhorar a eficiência - se os conseguirem organizar e analisar com suficiente rapidez. Este objectivo, tornado possível por uma série de novas tecnologias que são em sua maioria de código COMPUTERWORLD - Março 2012 aberto, é muitas vezes referida como Big Data – ou grandes quantidades de dados. "Dá-nos uma vantagem competitiva se podemos entender melhor com o que as pessoas se preocupam e para melhor utilizar os dados que temos para criar experiências mais relevantes", refere Aaron Batalion, director de tecnologia (CTO) para o serviço de compras online LivingSocial, que usa tecnologias como a plataforma de processamento de dados Hadoop, do projecto Apache, para recolher mais informações sobre o que os seus utilizadores querem. "Os dias terminam quando se cria um produto uma vez e ele simplesmente funciona", disse Batalion. "Tem de se ter ideias, testá-las, iterálas, usar os dados e analítica para entender o que funciona e o que não funciona, a fim de ser bem sucedido. E é assim que usamos a nossa infra-estrutura de Big Data". Muitos dados cada vez maiores Em Maio passado, a empresa de consultoria McKinsey publicou um relatório que antecipou como as organizações seriam inundadas com dados nos próximos anos. Ela também previa que uma série de indústrias - incluindo saúde, sector público, retalho e fabrico - poderiam beneficiar da análise dos seus rapidamente crescentes montes de dados. Recolher e analisar os dados transaccionais dará às organizações um melhor conhecimento sobre as preferências dos seus clientes. Isso pode ser usado para informar melhor na criação de produtos e de serviços, e permitir que as organizações possam resolver problemas emergentes mais rapidamente. "A utilização de grandes dados será uma base fundamental na concorrência e crescimento para as empresas", conclui o relatório. "A utilização de Big Data suportará novas ondas de crescimento na produtividade e satisfação do consumidor". É claro que a Teradata, a IBM e a Oracle, entre muitas outras, têm “warehouses” de dados à escala dos terabytes há mais de uma década. Actualmente, no entanto, os dados tendem a ser recolhidos e armazenados numa ampla variedade de formatos e podem ser processados em paralelo em vários servidores, o que é uma necessidade dadas as quantidades de informações que estão a ser analisadas. Para lá de manter exaustivamente os dados transaccionais em bases de dados e outros cuidadosamente residentes em “warehouses”, as organizações também estão a recolher quantidades incalculáveis de dados dos acessos (“logs”) dos servidores e outras formas de dados gerados pelas máquinas, comentários de clientes internos e de redes sociais exter- Big Data nas, e ainda outras fontes de dados soltos, não |3 chamado Bigtable. A Google manteve o Bigta- aestruturados. Internet nem Amazon e – números até um pouco mais ble para usotemos interno, mas Doug Cutting, um a "Os Fnacsistemas não facturava tradicionais o M&P: de dados Mas há simplesplanos concretos de aujovens dohavia que a criado idade média do meu programador que já o motor de que mente factura não hoje. manipulam Receber grandes mentar o quantidades portfólio da RD aobusca nível de clientesource” em base de dados, tenho de adem “open Lucene/Solr, criou uma de carta dadosdas muito Selecções bem, seja imprensa? porque não podem uma versão de mitir. Tirando os países da América Lacódigo aberto, denominando a era lidar umcom evento a variedade e tinha deFL: dados Se as - os oportunidades dados de surgirem e a partir tina e do danome Ásia, do a elefante minha revista tecnologia de pe-é uma hoje taxasão de resposta muito menos bruforem estruturados boas, sim.porque E ter como luche accionista jovem, por estranho que do seuinvulgarmente filho. tal. evoluem Hoje não muito estamos rapidamente um fundo -, de ouinvestimento porque até facilita pareça em relação a aoutros países. DeUma das primeiras entidades adoptar o Hanessa [esses realidade. sistemas] A concornão conseguem as coisas. Mais ser dimenfacilmente doop vêem foi uma Yahoo. pois também não contratou é propriamente um A empresa Cutting rência sionados é duríssima, à velocidade os queplano devem para ‘mastigar’ investiir uns os quantos mi- aproblema a população não está e começou dedicar porque grandes quantidades do nossos dados", livrosrefere têm dscondo Eric Baldeschwieler, lhões num novoCTO prodrda uns quantos mi- de engenharia a rejuvenescer, antes pelo contrário. No trabalho a refinar a tecnologia, que Hortonworks, foi uma dasuma razões empresa lhõessaída num novo da Yahoo, produto do por que volta meio delimite até tenho um mercado 2006. "A Yahoo tinha maior. muitos que quemeoferece facilitou uma a decidistribuição milhãodo deHadoop. dólares de desvio de budget. dados interessantes em toda a empresa que são, Os entrei dadosdepois estão adecrescer no a uma taxa exponen- poderiam serM&P: A percepção é que revista émaum correlacionados deavárias ano cial, anterior graçasterem à Leisaído de Moore, M&P: salientou Dado que Curt têmMode diversificar envelhecida. é que se neiras, as mas opouco que existia estavaComo em sistemas muitas nash, da Monash Research. fontesAde Lei receita, de Moore parece quase uma muda?Cutting, que agora trabalha separados", refere afirma que o número inevitabilidade. de transístores que para a Cloudera, FL: Aum maior parte dasde pessoas não fornecedor distribuiM&P: podem As 'gorduras' ser colocados já ti- numa FL: Não “wafer” necessariamente. dum pro- Tenho ção várias Hadoop. pega na revista há mais de dez anos. A nham cessador sido cortadas. duplica aproximadamente formas de poder a cada crescer, 18 uma delas éé hoje percepção é um ciclo vicioso, A Yahoo um dos depois maiores utilizadores do FL: meses. Já, já.Cada Houvenova três geração rasair dedaprocessadores minha concha. Há é umHadoop, mercado tendo-o se a minha percepção implantado emé esta maisnãodevou 40à zões duas pelas vezes quaismais conseguipotenteque que domino a suamuito antecesbem, quemil é a venda procura. Por outro lado, aastecnologia vendas em servidores. A empresa utiliza soraatingir maiseste recente. nãocorrespondência. surpreendentemos ano o E, por Estamos tentar banca também “Clusters” têm vindo a cair. A esdea diferentes maneiras. Hadoop mente, odepois poderdedos servidores break-even, doisnovos alargar o lote detambém produtos quemantêm podemos ficheiros magadora maioria de das “logs” vendas, de 94 ahis95 massivos a cada 18 meses,vender, o quejásignifica que ouduplica três anos de perdas hoje vendo vitaminas, como mil, são e.< tórias e secções em por queassinatura os utilizadores clicaas suas conjuntos muito durasactividades em Portugal. vãosegerar fossem cum teste edevendemos ram. vitaA actividade publicitária também é igualmente maiores. A dados fundamental foi, claraminas. Nos catálogos já vendemos armazenada em “clusters” Hadoop, como são A abordagem Big Data mente, o corte na àestrujóias.representa uma as listas de todo o conteúdo e artigos que a grande alteração na forma como os dados são Yahoo publica. tura de custos, aconteceu manipulados, Jack Norris, também noutros diz países, M&P: vice-presidente Diversificar não é necessaria"O Hadoop é uma óptima ferramenta para ormas de em marketing Portugal foi dadrásMapR. mente Antes,naosárea dados editorial, cui- portanto. ganizar e condensar grandes quantidades de tico. dadosamente Saíram dezenas escolhidos de FL:eram Não écanalizados uma inevitabilidade. dados Ou antes de serem colocados numa base pesal através e Espanha, da rede ra fa para do umseja, “data sim warehouse”, tenho de analisarde oportunidados relacional", refere Monash. A tecnoque onde prostão podiam não é depois a estru- ser dades examinados. de investimento Com ana área logiaeditoé particularmente bem adequada para tura de custos, crescente que não é de rial e revistas em concreto, não padrões em grandes conjuntos de quantidade dados, no entanto, "a depois pesquisar elevada, o problema é que sei que posso cdes Sisé que vou investir, rede torna-se o estrangulamento", refere. texto. a temas receita distribuídos não é suficiente posso apostar tudoaaí. Posso como onão Hadoop permitem Outracrestecnologia de Big Data que teve o seu para, em condições nor- os cer o negócio com venda deinício mais proanálise onde residem dados. num fornecedor de serviços online foi a mais, essa um subconjunto dumail, de anúncios paísesde da dados Cassandra. A Cassandra é Em rentabilizar vez de criar limpo nos de psbase Europa. dados do utilizador para os colocar numa capaz de armazenar 2 milhões de colunas M&P: Noutros mercados apara serem consultados “data warehouse” numa única linha, tornando-as acessíveis para RD temnúmero lançadolimitado títulos deM&P: E isso está a ajudar a rejuvenesnum formas pré-determiacrescentar mais dados sobre contas de utiliem segmentos nos quais cer o perfil de audiência nadas, o software deoBig Data recolhe todos osda Selecções? zadores existentes, sem saber de antemão grupo temque know-how. Esse FL: Estamos resultados como de vendas dados uma organização gera, ea ter permite os dados devem ser formatados. tipo está a emelhores dose que há uns tempos, quedeosestratégia administradores analistas preocuUsar amebase de dados Cassandra também pode ser pensada para oosmerlhores do que esperávamos, precisapem em como usar mais tarde. Neste sen- ser vantajoso na medida em que pode ser dicado ibérico? estamos conseguir tido, são mais escaláveis mente do queporque os bancos de a vidida por vários servidores, o que ajuda as orFL: O mercado português chegarwarehouses”. a mais pessoas. A internet, as a escalar as suas bases de dados dados tradicionais e as “data ganizações em termos publicitários é novas formas de comunicação, estão- para lá de um único servidor, ou até facilmente um décimo, mais coisa nosaaBig permitir clientes,num pequeno “cluster” de servidores. Como a Internet estimulou Datachegar a novosmesmo menos coisa,maneiras, do Espa- os gigantes clientes diferentes, mas que, felizDe muitas fornecedores A Cassandra foi desenvolvida pela rede social nhol. É um mercado relanão são assim tão diferentes. de serviços online comomente, a Google, Amazon, Facebook, que precisava de uma enorme base tivamente pequenoe Twitter e Diferradicionais Eles têm distribuída para lidar com as buscas Yahoo, Facebook têm estado nacompram. van- de dados muito ocupado por granvindo retirar e gostam dos produtos.na Euentrada tenho do serviço, refere Jonathan Ellis, o guarda da aprendizagem para o máximo des grupos de porbons produtos, é um responsável problema proveito demedia, tais enormes conjuntos de tenho dados. do projecto Apache Cassandra e tanto, não ée caro lançarentrede percepção, as pessoas pensam RD A Google a Yahoo, outros, participaram co-fundador da DataStax, empresa que agora revistas em Portugal o di-do Hadoop. e imaginam logo teias de aranha. no desenvolvimento Engenheiros oferece suporte profissional para Cassandra. fícil é rentabilizá-las. do Facebook desenvolveram a primeira base Como o Yahoo, o Facebook queria usar a arAgora o meu dever é ana- Cassandra, M&P: Olhando para o perfil quitectura da Selec- Bigtable da Google, que poderia de dados distribuída da Apache, lisar oportunidades, ver source”. o ções o Bareme Imprensa indica… também em “open fornecer uma estrutura de base de dados que sentidoteve lançaro ou, FL: Esses números dão uma idade para colunas e linhas que poderia O faz Hadoop seu início a partir de um orientada eventualmente, de 44 anos meu leitor o Ba“white paper”adquirir. da Google,média em 2004, quedo desser -espalhada por um grande número de nós. Docreveu lado de Espanha, o reme Imprensa da maneira como é cal- da Bigtable é que era um projecto a infraestrutura da Google construída O limite mercado é muito dados grande,em vários culadoservidores vale o que difevale, mas é o que para um nó principal. Toda a operapara analisar orientado rentes, utilizando um sistema de indexação ção dependia de um único nó para coordenar Março 2012 - COMPUTERWORLD 4| Big Data as actividades de leitura e escrita em todos os outros nós. Por outras palavras, se o nó principal fosse abaixo, todo o sistema ficava inutilizado. "Isso não é o melhor desempenho. Quer-se um em que se uma máquina vai abaixo, as outras continuarão a funcionar", disse Ellis. Assim, Ellis e os seus colegas desenvolveram a Cassandra usando uma arquitectura distribuída da Amazon, chamada Dynamo, que os engenheiros da Amazon descreveram num artigo de 2007. A Amazon desenvolveu inicialmente a Dynamo para acompanhar o que os seus milhões de clientes online iam colocando no “carrinho de compras”. A Dynamo não é dependente de qualquer nó central. Qualquer nó pode aceitar dados para todo o sistema, bem como responder a consultas. Os dados são replicados em vários “hosts”. Para a empresa A boa notícia é que muitas destas primeiras ferramentas desenvolvidas por esses fornecedores de serviços online estão a ficar mais disponíveis para as empresas como software de código aberto. Por estes dias, ferramentas para grandes dados estão a ser testadas por uma ampla gama de organizações, fora dos COMPUTERWORLD - Março 2012 grandes fornecedores de serviços online. Instituições financeiras, telecomunicações, agências governamentais, empresas de serviços públicos, retalho e empresas de energia estão a testar grandes sistemas de dados, observa Baldeschwieler. "Há um ar de inevitabilidade" com o Hadoop e implementações de Big Data, diz. "É aplicável a uma grande variedade de clientes". Então como é que uma organização pode começar a usar os seus montes de dados gerados por máquinas e redes sociais? Talvez surpreendentemente, a criação da infraestrutura não será o maior desafio para o CIO. Fabricantes como a Cloudera, Hortonworks, MapR e outros estão a comercializar tecnologias de Big Data, com efeito, tornando-os mais fáceis de implementar e gerir. Em vez disso, encontrar o talento certo para analisar os dados será o maior obstáculo, segundo o analista da Forrester Research, James Kobielus. As organizações "tem de se concentrar na ciência dos dados", diz Kobielus. "Têm de contratar modeladores estatísticos, profissionais de extracção de texto, pessoas que se especializaram em análise de sentimentos". A Big Data baseia-se na sólida modelação dos dados, refere Kobielus. "Modelos estatísticos preditivos e modelos analíticos de teste serão as principais aplicações de que se precisa para gerir muitos dados", refere. Muitos estão prevendo que a Big Data trará um tipo inteiramente novo de profissional, o cientista de dados. Este será alguém com um profundo entendimento de matemáticas e estatísticas, que também sabe trabalhar com tecnologias de Big Data. Pode haver escassez destas pessoas. Em 2018, só os Estados Unidos podem enfrentar a falta de 140 mil a 190 mil pessoas com profundas capacidades analíticas, bem como 1,5 milhões de gestores e analistas com “knowhow” para usar a análise dos grandes dados para tomar decisões eficazes, estimou a McKinsey. Apesar destas limitações, as organizações precisam de seguir em frente apenas para permanecerem competitivas e eficientes, diz Norris, da MapR. Como exemplo, ele aponta a Google, que entrou no campo das buscas na Internet anos após a concorrência, para acabar por dominar o mercado em dois anos. "Muito disto deveu-se às vantagens da arquitectura ‘back-end’ da Google", considera Norris. A Big Data "é uma grande mudança de paradigma que tem o potencial de mudar indústrias".< 6| Big Data Problema antigo mas “maior” As empresas portuguesas já lidam com os problemas do crescimento exponencial de dados há algum tempo. Mas considerando as dimensões e os constrangimentos actuais, o desafio é mais elevado e diferente. Û Para grande parte das organizações portuguesas, Big Data é uma denominação nova para um problema antigo, com dimensões maiores – e a exigir redobrada atenção. O grau de preparação varia, com o sector da banca e das telecomunicações a liderarem. Mas, desta vez, os constrangimentos de financiamento trazem barreiras adicionais, muitas vezes incontornáveis – incluindo o adiamento do investimento. As empresas em Portugal “já assimilaram o conceito” de Big Data , afirma Fernando Faria, Manager de Data & Information Management na Unisys. Existirão factores externos para isso, como o papel da comunicação social e o próprio discurso dos fabricantes e prestadores de serviços de alojamento. Mas as próprias organizações já constataram o fenómeno internamente, reforça. Também o CTO da Feedzai, Paulo Marques, considera que o fenómeno Big Data não é novo para as empresas portuguesas. Do seu ponto de vista, a questão mais importante que se coloca às empresas passa por saber “como extrair valor de negócio dos dados que existem na organização, independentemente da tecnologia utilizada” como suporte. A grande diferença é que hoje o desafio ganha outra dimensão e relevância devido “à surpreendente magnitude dos volumes de dados produzidos pelas organizações”, salienta Sofia Esteves, directora do centro de competência de BI da Novabase. Assim, ele depende da organização ter ou não “um volume de dados tal, que impossibilite o seu tratamento e análise de forma efectiva”, sustenta. A própria globalização constitui um factor de pressão, na opinião desta responsável. A presença das organizações em várias partes do globo, as consequências da actividade empresarial decorrer em fusos horários distintos e a necessidade de haver uma visão global sobre o negócio, são vertentes desse aspecto. O mesmo resulta num “esmagamento das janelas de processamento de dados disponíveis, criando novos desafios na eficiência e performance dos processos de ETL (Extraction, Transformation e Loading)”, explica. Como noutros países, também em Portugal as redes sociais são um dos factores de crescimento exponencial da informação, confirma Fernando Faria (Unysis). E “a análise, extrac- ção e processamento desta informação pertinente para o ramo de negócio de uma empresa será um factor justificativo para o investimento no tratamento de Big Data”, explica. Contudo, o responsável considera que as organizações “estão a tentar passar esta problemática para um futuro próximo, procurando adiar investimentos que não tenham um retorno rápido para o seu negócio”. O momento de contenção de investimentos será o principal responsável pela situação. Não obstante, Paulo Marques (Feedzai) tem uma perspectiva mais positiva sobre a dinâ- Três vertentes de reforço O novo universo de capacidades inerente ao Big Data permitirá complementar as capacidades actualmente instaladas nas empresas portuguesas, considera o consultor da Deloitte, Pedro Lopes. Sobretudo em três vertentes ou situações: • quando se pretende que os “data warehouses” actuais desçam a um nível de detalhe adicional que antes não era suportável pela enorme quantidade de informação resultante (exemplos são os detalhes de facturas ou de chamadas telefónicas); • para se tirar partido de ferramentas de funcionamento em tempo real, que necessitam de capacidades de resposta sobre análises de grandes quantidades de dados, superiores às tradicionais; • com o objectivo de obter alertas e significado, com valor, a partir de informação não estruturada como “Web logs”, fluxos de media social, dados de RFID ou de outros sensores, ou dados sobre cliques em sites Web.< COMPUTERWORLD - Março 2012 Big Data mica do mercado. Confia na “abertura enorme” das empresas nacionais para “usar tecnologia de ponta” mas com uma condição: é preciso que a tecnologia “resolva os seus problemas de análise de dados”. “Do que temos assistido no terreno, as empresas também estão neste momento dispostas a investir por forma a conseguirem reduzir custos nas suas operações com tecnologia, que lhes permitam melhores ‘insights’ de negócio na sua organização”, concretiza. Para o responsável da “start-up” participada da Novabase, o mercado português não apresenta qualquer peculiaridade face a outros. Empresas em aprendizagem Sendo Portugal um país com uma malha empresarial composta sobretudo por PME, levantam-se algumas dúvidas. Na opinião de Pedro Lopes, da Deloitte, as PME não serão naturais “clientes” das capacidades inerentes ao fenómeno Big Data. A sua justificação liga-se à visão de Sofia Esteves: o consultor baseia a sua opinião nas “necessidades típicas de análise de informação que normalmente evidenciam”. Contudo isso não invalida a utilidade de investirem num contexto de Big Data e obterem proveitos. “As organizações portuguesas, tal como as outras, poderão tirar partido destas capacidades para segmentar os seus clientes com base em novas fontes de informação como os media sociais, tomar decisões de oferta de produtos ou serviços em tempo real com base em informação captada no momento ou identificar fraudes por análises a informação mais detalhada que antes não eram possíveis”, explica. Nesse contexto, considera que do ponto de vista da sua preparação, estão ao nível da “generalidade” das organizações de outros países – pelo que poderão, mediante mais “alguma preparação”, reforçar e complementar as suas capacidades actuais. Na sua visão, exceptuando organizações como a Google ou a Facebook, pioneiras a lidar com o fenómeno Big Data, todas as empresas ainda estão a aprender como fazê-lo. Na mesma linha, o gestor da Reditus, Nuno Pacheco, afirma que o universo tecnológico em torno do Big Data é “recente e disruptivo”, considerando os cenários tradicionais de BI. Nuno Pacheco considera existir no mercado português “algum investimento”, particularmente nas soluções de “data mining” e “data warehousing”. “A realidade é que apenas têm capacidade limitada de armazenar e analisar as suas fontes internas de informação”, mesmo que já conseguindo desenvolver uma actividade analítica sobre o negócio , revela. “Com o know-how já existente, complementado com uma abordagem Big Data, será possível adquirir, organizar e analisar fontes de informação tanto internas como externas, com uma abrangência bastante mais alargada”, de- |7 ÞMais é ou não melhor? "Big Data não tem a ver apenas com análise de dados”, assegura o CTO da Amazon, Werner Vogel. Tem a ver com o fluxo todo, afirma. Por isso, é necessário pensar em todas as diferentes etapas de processamento de dados: recolha, armazenamento, organização, análise e partilha. Já o CTO da Feedzai, Paulo Marques, dá destaque ao conhecimento sobre as perguntas mais importantes a fazer. Para aproveitar as crescentes quantidades de dados e ganhar vantagens competitivas, as empresas terão de inovar em todas essas áreas, não apenas na análise, segundo Vogel. A Amazon tem desenvolvido muita actividade em torno do Big Data e da análises de dados para conseguir chegar a clientes-alvo e disponibilizar recomendações pertinentes. O que tem aprendido ao longo do caminho é que “maior”, neste caso, é sinónimo de melhor, diz Vogel. Quando são detectados erros, estes são normalmente devidos ao facto de não existirem dados suficientes para sustentar uma recomendação, por exemplo. Mas para o CTO da Feedzai, nem sempre é preferível ter uma maior quantidade de dados. Em contexto de "Big Data", diz, a pergunta mais importante a fazer é “o que é que eu preciso de compreender do negócio que me permita ter uma organização mais eficiente, mais produtiva, ou com mais oportunidades de negócio?” Quando essa questão estiver resolvida, utilizam-se os dados necessários existentes nos sistemas de informação. “Usar ‘a maior quantidade possível de dados’ não será efectivamente a melhor resposta. Saber que perguntas é que têm valor em termos de negócio, sim, é um catalisador chave de soluções de Big Data“, defende.< Tirar partido para lá do “hype” É impossível negar o crescimento exponencial da informação nos últimos anos. Para Fernando Faria, Manager de Data & Information Management da Unisys, “o reconhecimento da sua existência como Big Data, mais recentemente, comprova a tendência”. Estando na “ordem do dia”, tem sido “um pouco enfatizado” pelos fabricantes. Contudo, “não deixa de ser uma realidade” que merece atenção. Sobretudo, com o objectivo de as organizações conseguirem “tirar partido da compreensão e exploração desta informação em tempo real”, reforça o responsável. fende o responsável da Reditus. “Que capacidades deverão ser utilizadas? Para que propósitos de negócio?”, são as questões mais prementes para as organizações interessadas, segundo Pedro Lopes. O responsável da Deloitte aponta ainda três aspectos em que uma abordagem no contexto Big Data poderá complementar as estratégias das organizações portuguesas (ver caixa). Nem só de software se fará a preparação para a abordagem Big Data. “As empresas irão começar a olhar para um tipo de informação diferente, que antes estava consolidada na sua infra-estrutura tradicional”, destaca Fernando Faria, da Unisys. Esse corpo de informações começará a ser “deslocado” para sistemas desenhados para proporcionarem armazenamento e rápido acesso, explica. Além disso, os mesmos terão a capacidade para “interpretar” e “explorar” os dados em benefício do negócio. “Desta forma, as empresas terão que começar a manejar um novo tipo de infra-estrutura, para um novo tipo de informação com requisitos de manipulação completamente diferentes daqueles utilizados até agora”, alerta.< Março 2012 - COMPUTERWORLD 8| Big Data Tendência preocupa e causa grande confusão A Big Data tem tido alguma atenção por estes dias e as organizações estão cada vez mais preocupadas com o problema da sua gestão, mas muitas ainda não entendem o que são realmente as grandes quantidades de dados. Nem sequer têm as ferramentas existentes para gerir eficazmente muitos dos dados já à sua disposição, diz Mandeep Khera, director de marketing da LogLogic, especializada numa plataforma escalável de registos e segurança de inteligência (“log and security intelligence platform” ou LSIP) para empresas e cloud. "A maioria delas estão preocupadas com os grandes dados, mas ainda não entendem o que isso significa", diz Khera. "Porque tem havido tanto dito sobre Big Data, não há uma definição clara e todos estão confusos". Um novo estudo conduzido pela LogLogic em conjunto com a consultora de segurança de TI Echelon One verifica que 49% das organizações estão um pouco ou muito preocupadas com a gestão de grandes dados, mas 38% não entende o que é a Big Data e 27% ainda dizem que têm uma compreensão parcial. Além disso, o estudo descobriu que 59% das organizações não possuem as ferramentas necessárias para gerir os dados nos seus sistemas de TI, voltando-se em vez disso para sistemas separados e diferentes, ou até folhas de cálculo. "Sabemos que os dados são importantes a partir de muitas perspectivas diferentes: segurança, operações de TI, conformidade", diz Khera. "As empresas precisam de gerir os dados dxe forma muito mais eficaz para que possam tomar decisões mais inteligentes". O estudo global foi baseado nas respostas de 207 indivíduos ao nível da direcção numa variedade de indústrias, incluindo manufactura, educação, governo, finanças, saúde, transportes, media e edição, e outros. "Big Data é sobre muitos terabytes de dados não estruturados", explica Khera. "A informação é poder, e a COMPUTERWORLD - Março 2012 Big Data, se administrada correctamente, pode dar uma tonelada de conhecimento para ajudar a lidar com questões da segurança, operacionais e de conformidade. Organizações de todos os tamanhos estão a recolher mais dados de uma variedade de fontes de dentro da empresa e de infraestruturas na nuvem, e muitas organizações não estão a utilizar as ferramentas e processos adequados para gerir esses dados. Se este padrão continuar, veremos as empresas a ficarem para trás, incapazes de obter conhecimentos que podem ajudar as organizações a tomar decisões inteligentes". A maioria dos inquiridos – 62% - disse que já geria mais de um terabyte de dados. Mas há mais para vir. O volume de dados está a aumentar no mundo a uma taxa quase incompreensível. A IBM diz que criamos 2,5 quintiliões de bytes de dados todos os dias. E talvez ainda mais surpreendente, 90% dos dados no mundo foram criados nos últimos dois anos, segundo a empresa. Os dados são provenientes de sensores, registos de transacções, imagens e vídeos, mensagens nos media sociais, registos de entrada e todos Big Data os tipos de outras fontes. É isto que é a Big Data. Ela pode fornecer o tipo de inteligência e perspicácia activa com que os líderes empresariais sonham. Na frente da segurança, pode ajudar a proteger a organização contra ameaças persistentes avançadas (APT) e ataques de malware, fornecendo visibilidade sobre o que está a acontecer na rede, e pode também dar à análise forense um enorme impulso. E também pode levar a enormes ganhos em termos de eficiência operacional, desde a optimização dos servidores a otimizar a gestão da cadeia de abastecimento. Pode até ajudar em questões de conformidade. Mas se não se tiverem as ferramentas para gerir e realizar a analítica na infindável inundação dos dados, eles são essencialmente lixo. Khera diz que uma das chaves para ter a Big Data sob controlo é a ges- tão dos “logs”, que consolida e centraliza os registos de toda a organização - incluindo os “logs” de aplicações Web, “middleware”, aplicações de “back-end” personalizadas e bases de dados -, com um repositório indexado de armazenamento e uma interface de utilizador comum. Para se obter sentido dos dados, requerse a capacidade de os normalizar, correlacionar, emitir relatórios e alertas. Este ano, a LogLogic encomendou ao IANS (fundado como Institute for Applied Network Security), para realizar uma análise de investimento na segurança da informação (Information Security Investment Analysis ou ISIA) dos seus produtos de gestão de registos e de conformidade. Após entrevistar clientes da LogLogic que lidam com as questões das grandes quantidades de dados, o IANS afirmou: "o maior diferencia- |9 dor na gestão de registos em Big Data é o tamanho da quantidade de informações nos ‘logs’. Tentar recriar um evento após o facto não é uma questão simples se apenas alguns dispositivos estão disponíveis. Imagine olhar através de milhares de dispositivos e através de petabytes de dados sem ter um fácil de usar interface de utilizador ou um repositório de armazenamento indexado para uma resposta rápida. A Big Data é caracterizada não apenas pelo tamanho, mas também pela velocidade. Procurar através de quantidades maciças de dados leva tempo se não estiverem indexados correctamente. Se a informação crítica sobre acessos não autorizados ou outras actividades não estiverem disponíveis porque não foram indexadas, os resultados de uma pesquisa serão inconclusivos. Assim, uma solução de gestão de muitos dados deve ser capaz de funcionar mesmo com a inundação das novas mensagens. Isto é ainda mais importante quando se trata dos alertas. Se a indexação demorar muito, as mensagens críticas de alerta serão atrasadas causando uma latência inaceitável nos tempos de resposta". Por enquanto, porém, apenas 54% dos entrevistados disseram usar uma solução de gestão de “logs” para gerirem os seus dados de registos. Muitos usam folhas de cálculo para gerir os registos, de acordo com o estudo, e 33% não fazem nada. "Os resultados mostram significativas inconsistências na prática", diz Bob West, fundador e CEO do Echelon One. "Ou seja, enquanto a Big Data, as necessidades na cloud e os requisitos de conformidade são claramente as maiores preocupações, a maioria das empresas não estão preparadas para lidar com qualquer um deles de forma adequada. É fascinante ver essa distância, e uma percentagem esmagadora das empresas inquiridas não estão preparadas para gerir muitos dados adequadamente, monitorizar os ambientes cloud de forma eficaz ou relatar as actividades da rede e dos dispositivos correctamente. Estas empresas estão a ficar expostas a ataques, a tomada de decisões menos informadas de negócios e até mesmo a arriscarem multas das agências reguladoras por não cumprirem com as suas obrigações".< Março 2012 - COMPUTERWORLD 10 | Big Data Cinco coisas que deve fazer agora Tem o seu plano para grandes quantidades de dados em prática? Se não, pode querer pensar na implementação de um. A Big Data está sendo saudada - ou mediatizada, dependendo do seu ponto de vista - como um activo de negócio estratégico para o futuro. Isto significa que é apenas uma questão de tempo até os colegas no escritório quererem saber os pensamentos da TI sobre o assunto. O que lhes pode dizer? Para ter a certeza, lidar com grandes quantidades de dados não é um território virgem para a maioria dos departamentos de TI, mas para além do “hype”, dizem os analistas, a Big Data é realmente diferente do “data warehousing”, “data mining” ou da análise de “business intelligence” que surgiram antes. Os dados estão a ser gerados a uma maior velocidade e variabilidade do que antes e, ao contrário dos dados no passado, a maior parte é desestruturada e rude (por vezes, são os chamados "dados cinzentos"). Blogues, redes de media social, sensores de máquinas e ferramentas baseadas em localização estão a gerar todo um novo universo de dados não estruturados que - quando rapidamente capturados, geridos e analisadas podem ajudar as empresas a descobrir factos e padrões que não foram capazes de reconhecer no passado. "Recolhemos dados há muito tempo mas era de forma muito limitada – o que produziu um monte deles, mas sem que alguém estivesse a fazer alguma coisa com eles", diz Paul Gustafson, director dos programas de tecnologia Forum Leading Edge na Computer Sciences Corp. "Os dados foram arquivados, e foram modelados em torno de processos de negócios, não como um conjunto mais amplo de conhecimento básico para a empresa. O mantra é essa mudança de os recolher para os ligar". A TI está a liderar a vanguarda dessa revolução dos dados, dizem observadores do sector. "Esta é uma oportunidade para entrar no escritório do CEO e dizer, 'eu posso mudar este negócio e proporcionar o conhecimento na ponta dos dedos em questão de segundos, por um preço que eu não podia oferecer há cinco anos", diz Eric Williams, CIO da Catalina Marketing. Williams sabe do que fala – a Catalina mantém uma base de dados de 2,5 petabytes com a fidelização dos clientes que inclui dados sobre mais de 190 milhões de clientes de supermercados norte-americanos, reunidos pelas maiores redes de retalho. Esta informação é, por sua COMPUTERWORLD - Março 2012 vez, utilizada para gerar cupões no “checkout” com base no historial de compras. Para orientar as organizações para a era da inteligência predictiva em tempo real, Williams e outros observadores da indústria dizem que os gestores de tecnologia devem evoluir a sua arquitectura corporativa de gestão da informação e cultura para suportar analíticas avançadas em armazenamento de dados que calculem em terabytes e petabytes (e possam potencialmente escalar para os exabytes e zetabytes). "A TI está sempre a dizer que quer encontrar formas de aproximar-se do negócio - [Big Data] é uma oportunidade fenomenal para fazer exactamente isso", diz Williams. Ao invés de esperar que as peças encaixem, os líderes conhecedores de TI devem começar a preparar-se e às suas organizações para se chegarem à frente da transformação, dizem os analistas, como Mark Beyer, da Gartner. Eis as cinco principais acções que os gestores de tecnologia devem tomar hoje para definir uma base adequada para a era da Big Data de amanhã. Faça um balanço dos seus dados Quase todas as organizações têm potencialmente acesso a um fluxo constante de dados não estruturados – seja nas redes sociais ou a partir de sensores que monitorizam o chão da fábrica. Mas só porque uma organização está a produzir essa quantidade de informação, isso não significa que há um imperativo de negócio para guardar e agir em cada byte. "Com todo este interesse inicial em torno dos grandes dados, as pessoas estão a sentir uma necessidade artificial de compreender todos os dados que vêm de Web logs ou de sensores", observa Neil Raden, analista da Research Constellation. Parte dessa ansiedade pode ser proveniente de fornecedores e consultores ansiosos para promover a próxima grande coisa na computação empresarial. "Há concerteza um esforço determinado nesse sentido vindo das pessoas que estão a comercializar a tecnologia", observa Raden. Os gestores inteligentes de TI vão resistir à tentação e servir como filtro para ajudar a descobrir quais os dados que são ou não relevantes para a organização. Um bom primeiro passo é fazer um balanço de que dados são criados internamente e determinar quais as fontes de dados externas, se as houver, para preencher lacunas de conhecimento e trazer conhecimento agregado ao negócio, diz Raden. Uma vez isso em curso, a TI deve avançar com Big Data projectos altamente direccionados que possam ser usados para demonstrar os resultados, por oposição a optar por grandes projectos de Big Data. "Não se tem de gastar alguns milhões de dólares para iniciar um projecto e ver se vale a pena", diz Raden. Deixe as necessidades corporativas prevalecerem Pode já ter ouvido isto antes, mas o alinhamento dos negócios com as TI é fundamental para uma iniciativa tão grande e variada como é a Big Data, dizem os analistas. Muitas das primeiras grandes oportunidades nos grandes dados começaram em áreas fora das TI - os departamentos de marketing, por exemplo, estão a analisar os fluxos nos media sociais para ganharem uma melhor compreensão sobre as exigências dos clientes e tendências de compra. Enquanto especialistas em disciplinas específicas sobre o lado do negócio podem reconhecer as oportunidades de fazer dinheiro, é responsabilidade da TI de tomar conta dos conceitos de partilha e de federação dos dados que fazem parte integrante de uma estratégia de Big Data. "Isto não é algo que a TI possa fazer por conta própria", diz Dave Patton, analista das indústrias de gestão de informação na PricewaterhouseCoopers. "Vai ser difícil transformar isto numa história de sucesso se [a iniciativa] não estiver alinhada com os objectivos do negócio". No início da iniciativa de Big Data na Catalina Marketing, Williams juntou os gestores de negócio ao grupo de análise e planeamento financeiro (FPA), num esforço de equipa para ter um “business case” para investimentos em arquitectura de informação. O lado do negócio identificou áreas onde novas ideias podiam trazer valor - por exemplo, na determinação de compras posteriores com base nos items do carrinho de compras ou através de uma análise da próxima compra baseada em ofertas de produtos – e a equipe FPA analisou os números para quantificar o que os resultados significavam em termos de aumento de produtividade ou de aumento de vendas. Reavaliar a infra-estrutura As iniciativas de Big Data exigem grandes mu- COMPUTERWORLD danças, tanto na infra-estrutura de servidores e de armazenamento e na arquitectura de gestão de informação na maioria das empresas, dizem Beyer e outros especialistas. Os gestores de TI precisam de estar preparados para expandir os seus sistemas para conseguirem lidar com as quantidades cada vez maiores de dados estruturados e não estruturados, dizem. Isto requer descobrir a melhor abordagem para tornar ambos os sistemas extensíveis e escaláveis e desenvolver um roteiro para a integração de todos os diferentes sistemas que irão alimentar o esforço de análise de Big Data. "Hoje, a maioria das empresas tem sistemas diferentes e silos para folhas de pagamento, para gestão de clientes, para marketing", diz Anjul Bhambhri, vice-presidente da IBM para os produtos Big Data. "Os CIOs precisam realmente de ter uma estratégia para juntar esses diferentes sistemas e silos e construir um sistema de sistemas. Quer-se fazer perguntas que fluam através de todos esses sistemas para se obterem respostas". Desossar a tecnologia O mundo dos dados enormes vem com uma longa lista de novas siglas e de tecnologias que provavelmente nunca apareceram no radar de um CIO. Ferramentas de código aberto estão a ter a maior parte da atenção. Tecnologias como Hadoop, MapReduce e NoSQL estão a ser creditadas como a ajuda de gigantes da Web, como a Google e o Facebook, a escavarem os seus reservatórios de muitos dados. Muitas destas tecnologias, agora já disponíveis em modelos comerciais, ainda estão bastante imaturas e necessitam de pessoas com competências muito específicas. Outras tecnologias que são importantes para o mundo dos grandes dados incluem analítica de base de dados, bases de dados verticais e aplicações de “data warehouse”. Os gestores de TI e as suas equipas têm de compreender estas novas ferramentas para garantir que serão capazes de tomar decisões bem informadas na Big Data. Prepare as suas equipas Quer precisem de especialistas do Hadoop ou cientistas de dados, a maioria das organizações | 11 de TI sentem muita falta do talento necessário para dar os próximos passos na Big Data. Capacidades de analítica são talvez a mais crucial, e essa é a área onde a maioria das equipas de TI têm as maiores lacunas. A McKinsey antecipa que, só nos EUA, haverá uma necessidade em 2018 entre 140 mil a 190 mil especialistas em métodos estatísticos e em tecnologias de análise de dados. Os cargos que estarão em procura vão incluir o papel amplamente alardeado e emergente do cientista de dados. Além disso, a McKinsey antecipa a necessidade seja no lado do negócio ou técnico da organização para mais 1,5 milhões de gestores letrados em dados que tenham formação em analítica predictiva e estatística. Para algumas empresas, especialmente aquelas em áreas menos povoadas, o pessoal será provavelmente um dos aspectos mais desafiantes numa iniciativa de Big Data. A enorme quantidade de dados "requer definitivamente uma mentalidade diferente e capacidades numa série de áreas", diz Rick Cowan, CIO da True Textiles, fabricante de tecidos interiores para o mercado comercial, baseado em Guilford (EUA). "Como empresa de médio porte, tem sido um desafio ser capaz de conseguir pessoal e mantê-lo a funcionar num ambiente em constante mudança", diz Cowan. Para atender à necessidade, ele começou a treinar programadores e analistas de bases de dados para os levar até à analítica avançada. Os responsáveis dos departamentos de TI terão também de assumir algumas transformações para terem sucesso neste admirável mundo novo. Enquanto os melhores líderes de tecnologia do passado foram parte bibliotecário da informação e parte engenheiro de infra-estrutura, os gestores de TI do futuro vão ser uma combinação de cientista de dados e engenheiro de processos de negócios, diz Beyer, da Gartner. "Os CIOs têm sido usados para gerir a infra-estrutura baseada num conjunto de instruções dadas a partir do negócio, por oposição a um CIO que é capaz de identificar a oportunidade e, portanto, puxar pelo uso inovador da informação", explica. "Essa é a transformação que precisa de acontecer".< www.computerworld.com.pt AV. DA REPÚBLICA, N.º 6, 7º ESQ. 1050-191 LISBOA DIRECTOR EDITORIAL: PEDRO FONSECA [email protected] EDITOR: JOÃO PAULO NÓBREGA [email protected] DIRECTOR COMERCIAL E DE PUBLICIDADE: PAULO FERNANDES [email protected] TELEF. / FAX +351 213 303 791 PAGINAÇÃO: PAULO COELHO - TODOS OS DIREITOS SÃO RESERVADOS. A IDG (International Data Group) é o líder mundial em media, estudos de mercado e eventos na área das tecnologias de informação (TI). Fundada em 1964, a IDG possui mais de 12.000 funcionários em todo o mundo. As marcas IDG – Computerworld, CIO, CFO World, CSO, ChannelWorld, InfoWorld, Macworld, PC World e TechWorld – atingem uma audiência de 270 milhões de consumidores de tecnologia em mais de 90 países, os quais representam 95% dos gastos mundiais em TI. A rede global de media da IDG inclui mais de 460 websites e 200 publicações impressas, nos segmentos das tecnologias de negócio, de consumo, entretenimento digital e videojogos. Anualmente, a IDG produz mais de 700 eventos e conferências sobre as mais diversas áreas tecnológicas. Pode encontrar mais informações do grupo IDG em www.idg.com Março 2012 - COMPUTERWORLD 12 | Big Data Mais oportunidades de carreira para profissionais de TI Novas oportunidades de emprego estão a surgir para os profissionais de TI na área dos dados "grandes", o termo usado para descrever como as empresas reúnem grandes quantidades de dados em tempo real sobre os seus clientes e os analisam para conduzir a tomada de decisão e aumentar o lucro. Um novo cargo - cientista de dados – está na moda. Um cientista de dados tem normalmente formação em ciências da computação ou matemática, bem como as capacidades analíticas necessárias para encontrar a proverbial agulha num palheiro de dados recolhidos pela empresa. "Um cientista de dados é alguém que é curioso, que pode olhar os dados e detectar tendências", diz Anjul Bhambhri, vice-presidente de produtos Big Data na IBM. "É quase como um homem da Renascença que realmente quer aprender e trazer mudança para a organização". Inédito há 18 meses atrás, o termo "cientista de dados" explodiu em popularidade no Google. O número de buscas atingiu picos de 20 vezes maior do que o normal no último trimestre de 2011 e primeiro trimestre de 2012. É um termo de busca popular em locais de alta tecnologia nos Estados unidos, como São Francisco, Washington D.C. e Nova Iorque. Entre as empresas que procuram contratar cientistas de dados estão a PayPal, Amazon e HP. O termo "cientista de dados" é mencionado em 195 anúncios de emprego no Dice.com, um site para profissionais de TI. Os departamentos de TI também está adicionando programadores centrados nos dados e administradores de sistemas especializados em ferramentas como o “open source” Apache Hadoop. O Hadoop é mencionado em 612 dos mais de 83 mil anúncios de emprego no Dice.com. Entre as empresas que procuram contratar engenheiros de software e programadores Hadoop estão a AT&T Interactive, Sears, PayPal, AOL e Deloitte. O Hadoop "é uma capacidade emergente", diz Alice Hill, directora-executiva do Dice.com. "As empresas precisam de gerir operações de dados em grande escala, e toda a ideia do Hadoop é que se pode fazer isso com um baixo custo. Isto funciona muito bem com o que estamos a ver em termos de movimento para a cloud". Hill vê oportunidades relacionadas com o Hadoop quer ao nível de entrada como de equipas de TI experientes, bem como nos especialistas de hardware e de software. "As pessoas tradicionais do hardware precisam de descobrir como se agrupar em diferentes ambientes. Não é apenas sobre a compra de COMPUTERWORLD - Março 2012 uma base de dados e a ligar a um disco rígido. Agora já se têm bancos de dados distribuídos que estão ligados a múltiplos servidores e múltiplos discos rígidos", diz Hill. O Hadoop "é barato mas exige alguém que realmente saiba como escalar hardware". Hill diz também que o Hadoop é igualmente uma boa oportunidade a seguir por profissionais de TI com experiência em gestão de bases de dados relacionais. "Se realmente se entende de estrutura de dados e de consultas [“queries”], haverá um monte de oportunidades de emprego", acrescenta. Oportunidades de trabalho para cientistas de dados e especialistas do Hadoop estão a surgir em todos os sectores, desde empresas de Web a e-lojas, a serviços financeiros, energia, saúde, “utilities” e media. "Há tantas direcções em que se pode seguir com estas capacidades” de gestão de dados, aponta Hill. "É um solo muito fértil para profissionais de TI experientes, mas também para pessoas que se estão a formar em ciências da computação. É uma grande área para se especializar". Bhambhri diz que os departamentos de TI vão estar a olhar para contratar novas pessoas na área da Big Data, bem como para re-formar alguns dos seus actuais empregados para adicionar capacidades análise de dados e ÞFaltam profissionais em Portugal O gestor da Reditus, Nuno Pacheco, revela que no âmbito da sua aposta numa oferta para Big Data ”está a fazer um forte investimento na aquisição de valências nesta área”. Mas considera que ainda é escassa a oferta de profissionais de TI especializados. Na sua visão, as PME terão de se adaptar a um novo paradigma, no qual as fontes de informação a analisar estão fora do domínio das empresas. “O volume de informação já não se encontra na ordem dos gigabytes, mas sim nos tera, exa ou mesmo petabytes. Pode parecer assustadora esta ordem de grandeza, mas é importante referir que uma solução Big Data actua mais no tratamento e redução da informação, do que no armazenamento”, explica. E é esse enfoque que permitirá efectuar análises mais especializadas – por exemplo, na análise a redes sociais.< programação relacionada com Hadoop e capacidades administrativas. Por exemplo, a IBM re-treinou 2.400 profissionais de TI em Big Data Bootcamps, que usava para os seus clientes e parceiros no ano passado. "Os departamentos de TI têm realmente que expandir as suas plataformas de dados e não estarem restringidos aos repositórios de dados estruturados", diz Bhambhri. "Eles têm que trazer novas fontes de dados não estruturados para as suas plataformas para responder às perguntas que os executivos de nível C estão a pedir para os seus processos decisórios. De uma perspectiva da TI, é muito importante para as pessoas em TI não só identificarem estas fontes de dados mas para trabalharem com os seus parceiros de negócios e descobrir que outras fontes de dados precisam de ser integradas nas suas plataformas". A IBM tem uma nova iniciativa denominada Big Data University, que visa a formação de estudantes e de pós-graduados na área de Big Data e de exposição ao Hadoop. Lançada em Outubro passado, a Big Data University já atraiu mais de 14 mil estudantes interessados em se inscreverem nos seis cursos online relacionadas com Hadoop e Big Data. "Estamos a tentar fazer com que os alunos vejam o potencial real do Big Data e que resultados de negócio pode obter a partir dessas novas fontes de dados", diz Bhambhri. "Estamos a dar-lhes casos úteis de empresas no retalho, cuidados de saúde ou telecomunicações. Mostramos porque não era possível antes e é possível agora por causa do trabalho que temos feito com diferentes clientes nestes sectores diferentes". Bhambhri está optimista com as perspectivas de carreira para profissionais de TI com competências em gestão de dados e em Hadoop. "Em todos os sectores, há uma grande quantidade de dados que está sendo capturada", diz Bhambhri. "Os volumes de dados são enormes. Assim, muitos dos nossos clientes estão a capturar os dados mas até agora não havia tecnologia disponível que eles pudessem usar para analisar esses dados de forma rápida numa relação de custo-benefício. Era um grande problema. Agora, lemos o que o Yahoo e a Google estão a fazer com o Hadoop e o MapReduce, e parece realmente que essas ferramentas em código aberto vão resolver o problema".<