Hadoop und SAS Status und Ausblick

Transcrição

Hadoop und SAS Status und Ausblick
Hadoop und SAS Status
und Ausblick
WIEN, JUNI 2015
GERNOT ENGEL,
CLIENT SERVICE MANAGER
SAS AUSTRIA
C o p yr
y riigghht t ©© 2200112 2, ,S S
AA
S SInIsnt si ttui t e
u t In
e cI .n cA.l l Ar il g
l hr it g
s hr tess er e
r ve
s edr.ve d .
AGENDA
1
SAS & Hadoop Technologien, Lösungen
2
3
C o p yr
y riigghht t ©© 2200112 2, ,S S
AA
S SInIsnt si ttui t e
u t In
e cI .n cA.l l Ar il g
l hr it g
s hr tess er e
r ve
s edr.ve d .
Demo SAS access to hadoop, SAS
Dataloader for hadoop
SAS Hadoop Anwendungsszenarien &
Ausblick
SAS FOR HADOOP
VISION
To be the Analytic and Data
Management solution of choice for
Hadoop.
C o p yr
y riigghht t ©© 2200112 2, ,S S
AA
S SInIsnt si ttui t e
u t In
e cI .n cA.l l Ar il g
l hr it g
s hr tess er e
r ve
s edr.ve d .
HADOOP GRUNDLAGEN
Wdh.
KEINE GEGENSÄTZE
… ABER OFT NICHT GEMEINSAM BETRACHTET!
Hadoop als
“Data Integration Platform”
Hadoop als Kernkomponente einer
“next gen” BI- und Analytics-Strategie
IDENTIFY /
FORMULATE
PROBLEM
EVALUATE /
MONITOR
RESULTS
DATA
PREPARATION
DEPLOY
MODEL
ETL
Process
DATA
EXPLORATION
VALIDATE
MODEL
TRANSFORM
& SELECT
BUILD
MODEL
…ist Baustein einer Transformation
der IT Landschaft
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
…dient zur Unterstützung neuer
Fragestellungen in den Fachbereichen
SAS & HADOOP BASIS TECHNOLOGIEN & PRODUKTE
SAS/Access to Hadoop Push
some SAS processing from
Hadoop into SAS
SAS
Hive
In-Memory Analytics - Use
Hadoop for Storage persistence
and commodity computing.
SAS
SAS
Impala
SAS/Access to Hadoop - Demo
SAS/Access to Cloudera Impala
SAS DI Server
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Embedded Process - Push
SAS data processing to
Hadoop with Map Reduce
Score A
Code A
SAS/Scoring Accelerator for Hadoop
SAS Code Accelerator for Hadoop *
SAS Data Quality Accelerator for Hadoop*
SAS Data Loader for Hadoop (*inkludiert) - Demo
HPA
LASR
SAS Visual Analytics
SAS Visual Statistics
SAS in memory Statistics
SAS HPA Produkt bundles
SAS & HADOOP
•
DATENMANAGEMENT FÜR HADOOP MIT SAS
Datenmanagement mit SAS
“PROC HADOOP” (Map Reduce + Pig Scripting +
HDFS Kommandos)
• SAS Access to Hadoop
•
•
Hive, Hive2, Impala
• Proc Pushdown: FREQ, RANK, REPORT, SORT,
SUMMARY/MEANS & TABULATE
•
Hadoop Plugins für SAS Data Integration Studio
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
•
SAS Data Loader
•
Point & Click Datenmanagement für Hadoop:
Einlesen, Transformieren und Bereinigen von Daten
in Hadoop
• Highlights: SQOOP Integration, SAS Profiling und
Data Quality Engines, Transfer der Daten zu SAS InMemory Analytics Cluster
• HTML-basierendes Interface
KURZDEMO
SAS ACCESS TO HADOOP ENGINE
SAS access to Hadoop Zugriffe - > 3 Möglichkeiten
Sas access engine ->
Hive library
Hadoop Cluster
SAS Application
Server
Access to
Hadoop
XML
Files
HiveServer2
JAR
Files
Hive
Metastore
MapReduce
JDBC
(Compute Framework)
HDFS
File access ->
hdfs
Proc hadoop ->
“pass through”
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
Data Files
Fileref
HDFS
Data Files
proc Hadoop -> passthrough hdfs
commands eingebettet in sas code
SAS DATA INTEGRATION
SERVER
GUI SUPPORTED HADOOP TRANSFORMATIONEN
FROM
Hadoop
IN
Hadoop
EP
WITH
Hadoop
EP
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
EP
SAS DATA LOADER FOR
HADOOP
•
STECKBRIEF
Führt SAS DS2 Code, HiveQL und DQ
Code auf einem Hadoop Cluster aus
• Kann Hadoop-Daten in einen
vorhandenen LASR Server laden (für
weitere Analysen in VA / VS)
• Zugriff auf externe Datenbanken (2.2)
RDBMS
Hadoop Cluster
SAS Data Loader
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SAS LASR (VA / VS)
KURZDEMO
SAS DATALOADER FOR HADOOP 2.2
CONFIG TRIAL EDITION
1
Client PC
EP
SAS Embedded
Process + QKB
Hadoop
Config
ACQUIRE
DATA
DISCOVER
DATA
• Copy Data to
Hadoop
• Profile Data
Virt.
Virt.
SAS Data Loader
vApp
Hadoop Sandbox
EP
• Identification
Analysis
• Query
SAS Embedded
Process + QKB
Configuration
Directory
3
CLEANSE
DATA
4
INTEGRATE
DATA
5
DELIVER
DATA
• Query
• Validate
• Join
• Load SAS LASR
• Select Columns
• Parse
• Standardize
• Create Match
codes
• Create tables
• Apply Filters
• Sort & Deduplicate
• Copy from Hadoop
• Map Columns
• Sort / Order
• Create views
• Aggregate
• Calculate
Columns
• Run a SAS
program
• Aggregate
HDFS
• Transform data
Hadoop Data
Access data, move
it into Hadoop, and
assess the data
structure and
content
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
TRANSFORM
DATA
• Transpose data
Hadoop
Config
2
Select data of
interest, manipulate
it, and structure it
into the data format
desired
Put data into a
consistent format
Combine datasets,
including data that
has no common key,
remove duplicate
data, and create new
data points thru
aggregation
Load datasets into
SAS LASR inmemory analytic
server, Create new
Hadoop tables, and
deliver data to other
databases and apps
SAS® DATA LOADER FOR
HADOOP
Business Analyst
EXAMPLE – PREPARE AND LOAD CUSTOMER DATA
Action
Business Analyst
Use
Copy Data to Hadoop
I need my Customer
data in Hadoop
Use
Transform data in Hadoop
I need to subset
and summarize the
data
Use
Load Data to LASR
Use
Cleanse Data in Hadoop
I can see, but I can
also fix, the data
quality issue
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
Action
I need to Load the
data to LASR for
visualization
HADOOP PRAXIS
•
ZUSAMMENFASSUNG
Hadoop unterscheidet sich von traditionellen DBMS Systemen
• Umdenken bei der Datenverarbeitung notwendig
• Hive & SQL bedarfsgetrieben verwenden
• Datenhaltung eröffnet neue Möglichkeiten
•
•
•
•
•
•
Ordner von Flatfiles werden als Tabelle verwaltet (vergleichbar SPD Server/SPD Engine)
Arbeiten mit den Partitionen
Nutzen der Transfer-Transformationen
Hadoop ist optimiert auf große Tabellen
Datenqualitätsfunktionen mit DQ Accelerator optimal für Big Data
Dataloader for Hadoop – Fachbereichstaugliches point & click Werkzeug für
hadoop ( Datentransfer rdms – hdfs, LASR Server , DQ, ETL ..)
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
SAS DATA LOADER
WHATS NEW – ROADMAP
FOR HADOOP
•
Version 2.3 (9.4M3)
•
•
•
•
•
•
•
Future (2.4+) *
Enhancements
•
•
•
Profile Threading & Performance Enhancements
SAS User Defined Formats
Hive 14 Enhancements
•
New Directives : Merge, Score
Unstructured Text Processing
Major Features
•
Distribution Support
•
•
•
MapR / PHD (stretch)
New Directives: Hive Node, Delete Node
LDAP Authentication
•
Spark Integration
Chained Directives – Execute in Jobs Parallel
Federation Server Integration
Automated & Smart Profiling
* features are subject to change
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SAS 9.4M3 WHAT‘S NEW
•
MapR Support für alle SAS Bausteine
• PROC SQOOP
• SAS/Access to Hadoop
•
Verbessert: Performance, Durchreichen von
Fehlerbeschreibungen, implicit passthrough (where exists, between)
•
SAS/ACCESS to HAWQ
• SAS/ACCESS to Impala
•
BASE Proc Pushdown
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
•
Embedded Process (Accelerators)
•
Zugriff auf Daten über HCatalog (Hive
SerDes)
•
•
Dateiformate verwendbar: Parquet, ORC,
Avro, Sequence, RCFILE
Code Accelerator: erlaubt multiple
Input Data Sources, unterstützt Merge
Statement
SAS & HADOOP
•
IN-MEMORY TECHNOLOGIE – BI & ANALYTIC
LASR-based In-Memory Technology
•
SAS Visual Analytics / Visual Statistics
•
SAS High-Performance Analytics
•
SAS Prozeduren aus den Bereichen Statistics,
Data Mining, Text Analytics, Optimization
übertragen auf verteilte In-Memory Technologie
•
Frontend: Enterprise Miner
Fokus auf Batch-Processing und Produktiv-Betrieb
•
Business Analysten und Data Scientists
• Fokus auf interaktive Analysen
•
SAS In-Memory Statistics
•
Fokus auf Programmierung
•
C o p yr
y riigghht t ©© 2200112 2, ,S S
AA
S SInIsnt si ttui t e
u t In
e cI .n cA.l l Ar il g
l hr it g
s hr tess er e
r ve
s edr.ve d .
SAS & HADOOP
ANWENDUNGS
SZENARIEN
HADOOP ANALYTICS FÜR SPEZIALTHEMEN
UND INPUT / ANREICHERUNG EDW
BI and
Analytics
Data Mart
Operational
Data Sources
Data Mart
EDW
Analytic
Mart
Analytic
Mart
Analytic
Mart
Data Mart
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
SAS & HADOOP
ANWENDUNGS
SZENARIEN
HADOOP DATA PLATFORM ALS “STAGING LAYER”– “DATA LAKE”
Beladung HDFS, Auswertestrukturen in Hadoop, data appliances oder
RDBMS
BI and
Analytics
Operational
Data Sources
EDW
Data Mart
Data Mart
Analytic
Mart
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
Analytic
Mart
HADOOP IM EINSATZ
•
Kunden nach Branchen
• Eingesetzte Hadoop
Distributionen
• Produkte im Einsatz
• Einsatzszenarien
ERGEBNISSE EINER UMFRAGE UNTER SAS KUNDEN, DIE
BEREITS HADOOP EINSETZEN (EMEA/AP, 02.2015)
Fraud
13%
"Analytics"
42%
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
Offload
EDWH /
Cost
Reduction
32%
"Data
Lake"
13%
SAS ANGEBOT
BIG DATA LAB
SERVICE
TECHNOLOGIE
SoftwareLösungen
S
Größenskalierung
M
L
Einsatzfertiges
Datenmanagement
Komplettpaket für die
OnPremise
selbständige
Entwicklung von
Big Data Use Cases
►
►
►
Bereitstellung
Data Loader for Hadoop
Access to Hadoop
Metadatenmanagement
Analytics
zum Fixpreis
Cloud
►
►
►
Visual Analytics
Visual Statistics
In-Memory Statistics
►
Installation
►
Konfiguration
►
Training
►
Umsetzung eines beispielhaften
Use Cases
Zusätzlich buchbare Dienstleistungen:
► Coaching und Bereitstellung von
Experten (Data Scientist, DatenManagement-Experte)
► Consulting
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
BIG DATA LAB IHRE VORTEILE
•
•
•
•
Sie starten schneller.
Sie minimieren das Risiko falscher
Investments.
Sie sparen Doppelarbeit und
Doppelinvestitionen.
Sie bezahlen genau das, was Sie
brauchen.
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SUMMARY SAS & HADOOP
VIELFÄLTIGE UNTERSTÜTZUNG, MORE TO COME!
1. Data Management: SAS optimiert
und erleichtert den Zugriff auf
Daten in Hadoop
2. In-Memory Analytics: SAS
erweitert und beschleunigt Analytik
auf Hadoop-Daten.
3. In-Database Processing: SAS
verlagert (analytische) SAS
Funktionalität in das Hadoop
Cluster.
C o p y r i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r e s e r ve d .
UNSER ANGEBOT
THINK BIG, START NOW!
•
BIG DATA LAB
•
Kommen Sie ins
Gespräch mit uns!
•
PRODUKTE TESTEN
•
•
C o p yr
y riigghht t ©© 2200112 2, ,S S
AA
S SInIsnt si ttui t e
u t In
e cI .n cA.l l Ar il g
l hr it g
s hr tess er e
r ve
s edr.ve d .
Auf www.sas.de/bigdatalab alle Infos zum Nachlesen
SAS Data Loader for Hadoop kostenlos herunterladen und 90 Tage
testen: www.sas.de/dataloader
SAS Visual Analytics (Demo) kostenlos ausprobieren:
www.sas.de/visualanalytics
INFORMATIONEN KONTAKT
SAS UND HADOOP INFORMATIONEN:
http://www.sas.com/de_de/software/sas-hadoop.html - http://www.sas.com/en_us/software/sas-hadoop.html
Interessante White papers:
http://www.sas.com/en_us/whitepapers/big-data-analytics-hadoop-107049.html
http://www.sas.com/en_us/whitepapers/bringing-power-of-sas-to-hadoop-105776.html
BARC: Big data analytics in der DACH region:
http://www.sas.com/de_de/whitepapers/ba-wp-barc-big-data-analytics-2014-2298353.html
Webinare: http://www.sas.com/de_at/webinars.html
• Big Data Analytics mit SAS & Hadoop
• Big data lab
Code Beispiele:http://support.sas.com/resources/papers/proceedings14/SAS033-2014.pdf
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
THANKS A LOT !!
FRAGEN - next steps ??
[email protected], [email protected] ,
[email protected]
DANKE !
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .