Hadoop und SAS Status und Ausblick
Transcrição
Hadoop und SAS Status und Ausblick
Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL, CLIENT SERVICE MANAGER SAS AUSTRIA C o p yr y riigghht t ©© 2200112 2, ,S S AA S SInIsnt si ttui t e u t In e cI .n cA.l l Ar il g l hr it g s hr tess er e r ve s edr.ve d . AGENDA 1 SAS & Hadoop Technologien, Lösungen 2 3 C o p yr y riigghht t ©© 2200112 2, ,S S AA S SInIsnt si ttui t e u t In e cI .n cA.l l Ar il g l hr it g s hr tess er e r ve s edr.ve d . Demo SAS access to hadoop, SAS Dataloader for hadoop SAS Hadoop Anwendungsszenarien & Ausblick SAS FOR HADOOP VISION To be the Analytic and Data Management solution of choice for Hadoop. C o p yr y riigghht t ©© 2200112 2, ,S S AA S SInIsnt si ttui t e u t In e cI .n cA.l l Ar il g l hr it g s hr tess er e r ve s edr.ve d . HADOOP GRUNDLAGEN Wdh. KEINE GEGENSÄTZE … ABER OFT NICHT GEMEINSAM BETRACHTET! Hadoop als “Data Integration Platform” Hadoop als Kernkomponente einer “next gen” BI- und Analytics-Strategie IDENTIFY / FORMULATE PROBLEM EVALUATE / MONITOR RESULTS DATA PREPARATION DEPLOY MODEL ETL Process DATA EXPLORATION VALIDATE MODEL TRANSFORM & SELECT BUILD MODEL …ist Baustein einer Transformation der IT Landschaft C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . …dient zur Unterstützung neuer Fragestellungen in den Fachbereichen SAS & HADOOP BASIS TECHNOLOGIEN & PRODUKTE SAS/Access to Hadoop Push some SAS processing from Hadoop into SAS SAS Hive In-Memory Analytics - Use Hadoop for Storage persistence and commodity computing. SAS SAS Impala SAS/Access to Hadoop - Demo SAS/Access to Cloudera Impala SAS DI Server C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Embedded Process - Push SAS data processing to Hadoop with Map Reduce Score A Code A SAS/Scoring Accelerator for Hadoop SAS Code Accelerator for Hadoop * SAS Data Quality Accelerator for Hadoop* SAS Data Loader for Hadoop (*inkludiert) - Demo HPA LASR SAS Visual Analytics SAS Visual Statistics SAS in memory Statistics SAS HPA Produkt bundles SAS & HADOOP • DATENMANAGEMENT FÜR HADOOP MIT SAS Datenmanagement mit SAS “PROC HADOOP” (Map Reduce + Pig Scripting + HDFS Kommandos) • SAS Access to Hadoop • • Hive, Hive2, Impala • Proc Pushdown: FREQ, RANK, REPORT, SORT, SUMMARY/MEANS & TABULATE • Hadoop Plugins für SAS Data Integration Studio C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . • SAS Data Loader • Point & Click Datenmanagement für Hadoop: Einlesen, Transformieren und Bereinigen von Daten in Hadoop • Highlights: SQOOP Integration, SAS Profiling und Data Quality Engines, Transfer der Daten zu SAS InMemory Analytics Cluster • HTML-basierendes Interface KURZDEMO SAS ACCESS TO HADOOP ENGINE SAS access to Hadoop Zugriffe - > 3 Möglichkeiten Sas access engine -> Hive library Hadoop Cluster SAS Application Server Access to Hadoop XML Files HiveServer2 JAR Files Hive Metastore MapReduce JDBC (Compute Framework) HDFS File access -> hdfs Proc hadoop -> “pass through” C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . Data Files Fileref HDFS Data Files proc Hadoop -> passthrough hdfs commands eingebettet in sas code SAS DATA INTEGRATION SERVER GUI SUPPORTED HADOOP TRANSFORMATIONEN FROM Hadoop IN Hadoop EP WITH Hadoop EP C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . EP SAS DATA LOADER FOR HADOOP • STECKBRIEF Führt SAS DS2 Code, HiveQL und DQ Code auf einem Hadoop Cluster aus • Kann Hadoop-Daten in einen vorhandenen LASR Server laden (für weitere Analysen in VA / VS) • Zugriff auf externe Datenbanken (2.2) RDBMS Hadoop Cluster SAS Data Loader C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SAS LASR (VA / VS) KURZDEMO SAS DATALOADER FOR HADOOP 2.2 CONFIG TRIAL EDITION 1 Client PC EP SAS Embedded Process + QKB Hadoop Config ACQUIRE DATA DISCOVER DATA • Copy Data to Hadoop • Profile Data Virt. Virt. SAS Data Loader vApp Hadoop Sandbox EP • Identification Analysis • Query SAS Embedded Process + QKB Configuration Directory 3 CLEANSE DATA 4 INTEGRATE DATA 5 DELIVER DATA • Query • Validate • Join • Load SAS LASR • Select Columns • Parse • Standardize • Create Match codes • Create tables • Apply Filters • Sort & Deduplicate • Copy from Hadoop • Map Columns • Sort / Order • Create views • Aggregate • Calculate Columns • Run a SAS program • Aggregate HDFS • Transform data Hadoop Data Access data, move it into Hadoop, and assess the data structure and content C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . TRANSFORM DATA • Transpose data Hadoop Config 2 Select data of interest, manipulate it, and structure it into the data format desired Put data into a consistent format Combine datasets, including data that has no common key, remove duplicate data, and create new data points thru aggregation Load datasets into SAS LASR inmemory analytic server, Create new Hadoop tables, and deliver data to other databases and apps SAS® DATA LOADER FOR HADOOP Business Analyst EXAMPLE – PREPARE AND LOAD CUSTOMER DATA Action Business Analyst Use Copy Data to Hadoop I need my Customer data in Hadoop Use Transform data in Hadoop I need to subset and summarize the data Use Load Data to LASR Use Cleanse Data in Hadoop I can see, but I can also fix, the data quality issue C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . Action I need to Load the data to LASR for visualization HADOOP PRAXIS • ZUSAMMENFASSUNG Hadoop unterscheidet sich von traditionellen DBMS Systemen • Umdenken bei der Datenverarbeitung notwendig • Hive & SQL bedarfsgetrieben verwenden • Datenhaltung eröffnet neue Möglichkeiten • • • • • • Ordner von Flatfiles werden als Tabelle verwaltet (vergleichbar SPD Server/SPD Engine) Arbeiten mit den Partitionen Nutzen der Transfer-Transformationen Hadoop ist optimiert auf große Tabellen Datenqualitätsfunktionen mit DQ Accelerator optimal für Big Data Dataloader for Hadoop – Fachbereichstaugliches point & click Werkzeug für hadoop ( Datentransfer rdms – hdfs, LASR Server , DQ, ETL ..) C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . SAS DATA LOADER WHATS NEW – ROADMAP FOR HADOOP • Version 2.3 (9.4M3) • • • • • • • Future (2.4+) * Enhancements • • • Profile Threading & Performance Enhancements SAS User Defined Formats Hive 14 Enhancements • New Directives : Merge, Score Unstructured Text Processing Major Features • Distribution Support • • • MapR / PHD (stretch) New Directives: Hive Node, Delete Node LDAP Authentication • Spark Integration Chained Directives – Execute in Jobs Parallel Federation Server Integration Automated & Smart Profiling * features are subject to change C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SAS 9.4M3 WHAT‘S NEW • MapR Support für alle SAS Bausteine • PROC SQOOP • SAS/Access to Hadoop • Verbessert: Performance, Durchreichen von Fehlerbeschreibungen, implicit passthrough (where exists, between) • SAS/ACCESS to HAWQ • SAS/ACCESS to Impala • BASE Proc Pushdown C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . • Embedded Process (Accelerators) • Zugriff auf Daten über HCatalog (Hive SerDes) • • Dateiformate verwendbar: Parquet, ORC, Avro, Sequence, RCFILE Code Accelerator: erlaubt multiple Input Data Sources, unterstützt Merge Statement SAS & HADOOP • IN-MEMORY TECHNOLOGIE – BI & ANALYTIC LASR-based In-Memory Technology • SAS Visual Analytics / Visual Statistics • SAS High-Performance Analytics • SAS Prozeduren aus den Bereichen Statistics, Data Mining, Text Analytics, Optimization übertragen auf verteilte In-Memory Technologie • Frontend: Enterprise Miner Fokus auf Batch-Processing und Produktiv-Betrieb • Business Analysten und Data Scientists • Fokus auf interaktive Analysen • SAS In-Memory Statistics • Fokus auf Programmierung • C o p yr y riigghht t ©© 2200112 2, ,S S AA S SInIsnt si ttui t e u t In e cI .n cA.l l Ar il g l hr it g s hr tess er e r ve s edr.ve d . SAS & HADOOP ANWENDUNGS SZENARIEN HADOOP ANALYTICS FÜR SPEZIALTHEMEN UND INPUT / ANREICHERUNG EDW BI and Analytics Data Mart Operational Data Sources Data Mart EDW Analytic Mart Analytic Mart Analytic Mart Data Mart C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . SAS & HADOOP ANWENDUNGS SZENARIEN HADOOP DATA PLATFORM ALS “STAGING LAYER”– “DATA LAKE” Beladung HDFS, Auswertestrukturen in Hadoop, data appliances oder RDBMS BI and Analytics Operational Data Sources EDW Data Mart Data Mart Analytic Mart C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . Analytic Mart HADOOP IM EINSATZ • Kunden nach Branchen • Eingesetzte Hadoop Distributionen • Produkte im Einsatz • Einsatzszenarien ERGEBNISSE EINER UMFRAGE UNTER SAS KUNDEN, DIE BEREITS HADOOP EINSETZEN (EMEA/AP, 02.2015) Fraud 13% "Analytics" 42% C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . Offload EDWH / Cost Reduction 32% "Data Lake" 13% SAS ANGEBOT BIG DATA LAB SERVICE TECHNOLOGIE SoftwareLösungen S Größenskalierung M L Einsatzfertiges Datenmanagement Komplettpaket für die OnPremise selbständige Entwicklung von Big Data Use Cases ► ► ► Bereitstellung Data Loader for Hadoop Access to Hadoop Metadatenmanagement Analytics zum Fixpreis Cloud ► ► ► Visual Analytics Visual Statistics In-Memory Statistics ► Installation ► Konfiguration ► Training ► Umsetzung eines beispielhaften Use Cases Zusätzlich buchbare Dienstleistungen: ► Coaching und Bereitstellung von Experten (Data Scientist, DatenManagement-Experte) ► Consulting C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . BIG DATA LAB IHRE VORTEILE • • • • Sie starten schneller. Sie minimieren das Risiko falscher Investments. Sie sparen Doppelarbeit und Doppelinvestitionen. Sie bezahlen genau das, was Sie brauchen. C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SUMMARY SAS & HADOOP VIELFÄLTIGE UNTERSTÜTZUNG, MORE TO COME! 1. Data Management: SAS optimiert und erleichtert den Zugriff auf Daten in Hadoop 2. In-Memory Analytics: SAS erweitert und beschleunigt Analytik auf Hadoop-Daten. 3. In-Database Processing: SAS verlagert (analytische) SAS Funktionalität in das Hadoop Cluster. C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d . UNSER ANGEBOT THINK BIG, START NOW! • BIG DATA LAB • Kommen Sie ins Gespräch mit uns! • PRODUKTE TESTEN • • C o p yr y riigghht t ©© 2200112 2, ,S S AA S SInIsnt si ttui t e u t In e cI .n cA.l l Ar il g l hr it g s hr tess er e r ve s edr.ve d . Auf www.sas.de/bigdatalab alle Infos zum Nachlesen SAS Data Loader for Hadoop kostenlos herunterladen und 90 Tage testen: www.sas.de/dataloader SAS Visual Analytics (Demo) kostenlos ausprobieren: www.sas.de/visualanalytics INFORMATIONEN KONTAKT SAS UND HADOOP INFORMATIONEN: http://www.sas.com/de_de/software/sas-hadoop.html - http://www.sas.com/en_us/software/sas-hadoop.html Interessante White papers: http://www.sas.com/en_us/whitepapers/big-data-analytics-hadoop-107049.html http://www.sas.com/en_us/whitepapers/bringing-power-of-sas-to-hadoop-105776.html BARC: Big data analytics in der DACH region: http://www.sas.com/de_de/whitepapers/ba-wp-barc-big-data-analytics-2014-2298353.html Webinare: http://www.sas.com/de_at/webinars.html • Big Data Analytics mit SAS & Hadoop • Big data lab Code Beispiele:http://support.sas.com/resources/papers/proceedings14/SAS033-2014.pdf C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . THANKS A LOT !! FRAGEN - next steps ?? [email protected], [email protected] , [email protected] DANKE ! C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .