Eventbasiertes Monitoring am Flughafen München

Transcrição

Eventbasiertes Monitoring am Flughafen München
Eventbasiertes Monitoring
am Flughafen München
Hubert Bösl
21.10.2014
Terminals:
Länge:
Fläche:
Förderanlage:
Vorfelder:
Terminal 1
1081 m
198.000 m²
18 km
600.000 m²
Firmengelände:
Hangars:
Treibstoff:
Geschäfte:
Parkplätze:
90.300 m²
44.000.000 l
200
34.000
Einrichtungen:
2 Hotels
Tagungszentrum
Kirchlicher Dienst
Gebetsraum für Muslime
Ärztezentrum und Klinik
Kindergarten
Feuerwehr
Terminal 2
980 m
271.000 m²
40 km
760.000 m²
Flughafen IT
3
• PC‘s & Workstations
3.500
• LAN-Ports
18.000
• Phones
12.500
• FIDS Displays
1.850
• FIDS Accounts
2.800
• CCTV Cameras
2.150
• Server (in 2 Data Centers)
750
• SAN/NAS-Storage
1500 TB
• Applications
600
• Employes (IT)
200
• Customers
500
• External revenue
14 Mio Eur
Flughafen München / Hubert Bösl / 21.10.2014
FMG IT die Informationsdrehscheibe
Flight
Mgmt.
SITA
Msg.
Radar /
AIMS
SITA
Flight
Info
A/C
Fueling
Transfer
Mgmt.
General
Aviation
Flight
Docking
System
Building
Mgmt.
o
FIDS
Terminal
Mgmt.
…
Checkin
5
Flughafen München / Hubert Bösl / 21.10.2014
Fresh/
waste
Water
Traffic
control
Public
TV
Apron
Simulation
Noise
measurem.
Public
Radio
Baggage
Sortation
Info
Wireless
Access
CUTE
Lufthansa
Staff
Mgmt.
Freight
Handling
Location
Data
CCTV
Push
Back
Bus
Dispo
central
Data
base
SITA
Anaysis
ATC
Network
Mgmt.
Baggage
Mgmt.
Fluginformation
A/C
DeIcing
Weather
Service
Plan
Apron
Control
A/C
Guidance
A/C
Cleaning
Billing
Sequence
Planning
Baggage
Sorting
Internet
Gepäckinnendienst
Cargogate
Aerogate
Flight
Plan
Coord.
IT Leitstand Flughafen München
6
Flughafen München / Hubert Bösl / 21.10.2014
Anforderungen Systemmonitoring
• Alle wichtigen Systeme überwachen
• Ausfall möglichst schnell bemerken
• Wichtige Themen hervorheben
• Unwichtige Meldungen unterdrücken
• Zusatzinformationen
• Zeitliche Abläufe erkennen
7
Flughafen München / Hubert Bösl / 21.10.2014
Einhaltung der Service Level
8
Flughafen München / Hubert Bösl / 21.10.2014
Entwicklung Systemmonitoring am Flughafen München
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
INSAM
(Integrated Network,
System and
Applikation Monitoring)
9
Flughafen München / Hubert Bösl / 21.10.2014
Einführung
Nagios
(CA Eventkonsole)
Ablösung
Eventkonsole
(Einführung
check_mk)
Status orientiertes Monitoring
• Vorteile
• Aktive Abfragen jederzeit möglich
• Ausfall des Monitorings wird bemerkt
• Nachteile
• Zeitverlust
• Skaliert nur bedingt
A
b
f
r
a
g
e
10
Ausfall
Flughafen München / Hubert Bösl / 21.10.2014
Alarm
A
b
f
r
a
g
e
A
b
f
r
a
g
e
A
b
f
r
a
g
e
A
b
f
r
a
g
e
A
b
f
r
a
g
e
Event orientiertes Monitoring
• Nachteile
• Vorteile
• Bei vielen Produkten integriert
• Verlust von Meldungen möglich
• Oft keine OK Meldung vorgesehen
• Schelle Alarmierung
• Skaliert sehr gut
M
e
l
d
u
n
g
11
Alarm
Ausfall
Flughafen München / Hubert Bösl / 21.10.2014
M
e
l
d
u
n
g
Warum Eventbasiertes Monitoring
• Nicht alle Quellen können aktiv abgefragt werden
• Eine statusbasierte Überwachung kann nie alle Aspekte abdecken
• Auch OK Meldungen können interessant sein
Events
Regeln
Optimale Ergebnisse
durch Kombination
12
Flughafen München / Hubert Bösl / 21.10.2014
Status
Kombination
Die Kombination ist besser als
die Summer der Einzelteile
13
Flughafen München / Hubert Bösl / 21.10.2014
Richtig gut wird es, wenn
es aus einem Guss ist.
Der Weg zum Monitoring
Abfagemöglichkeiten System
Anforderungen Überwachung
Aktiv
Passiv
14
Erstellung / Definition
aktive Checks
Erstellung / Definition
Regel Eventkonsole
Status
Event
Flughafen München / Hubert Bösl / 21.10.2014
Statusänderung
Der Weg zur Eventkonsole
• Ende 2011 stand die Erneuerung der CA Unicenter Konsole an
• Vergleich zwischen kommerziellen Produkten und Open Source
• Es war keine Open Source Lösung verfügbar, die den Anforderungen genügte
• Einholung von kommerziellen Angeboten
• Erarbeitungen von Open Source Konzepten
• Das Konzept von Mathias Kettner überzeugte und war finanziell umsetzbar
• Ausschlaggebend war die einfache Bedienbarkeit und geringe
Ressourcenanforderungen
• Im Juni 2012 stand das Konzept und Pflichtenheft
• Im Oktober 2012 übernahm die check_mk Eventkonsole die Führungsrolle
15
Flughafen München / Hubert Bösl / 21.10.2014
Event - generieren und löschen
Events können beim auftreten der OK Meldung auch automatisch archiviert werden.
16
Flughafen München / Hubert Bösl / 21.10.2014
Event - Counting und Rewriting
In manchen Fällen ist es sinnvoll, Events nicht sofort, oder mit anderen Text anzuzeigen.
17
Flughafen München / Hubert Bösl / 21.10.2014
Übernahme der Statusänderungen aus check_mk
Fast alle Statusänderungen aus check_mk werden mit nur einer Regel bearbeitet
18
Flughafen München / Hubert Bösl / 21.10.2014
Actions – Call Rufbereitschaft
Bei sehr kritischen Events wird die Rufbereitschaft aus dem System heraus angerufen.
19
Flughafen München / Hubert Bösl / 21.10.2014
Eventkonsole - Aktionen
Bestimmte Aktionen können auch über die GUI angestoßen werden (für einen oder mehrere Events)
20
Flughafen München / Hubert Bösl / 21.10.2014
Kommunikation und Konfiguration
21
Flughafen München / Hubert Bösl / 21.10.2014
Monitoring Umgebung Flughafen München
22
Flughafen München / Hubert Bösl / 21.10.2014
Der Weg zum Event
Syslog
SNMP
Statusänderung
Meldung:
Zeitpunkt
Meldungstext
Statusinformation, SLA?
Regelwerk:
Bewertung von Facility, Priority,
Meldungstext, Zeitpunkt, Ursprung,
Statusinformation, SLA?
Event
Zeitpunkt, Statusinformation, SLA,
Aktion, Ansprechpartner
23
Flughafen München / Hubert Bösl / 21.10.2014
Mail
Script
Regelwerk - Verteilung
438
4
Millionen
pro Tag
24
Flughafen München / Hubert Bösl / 21.10.2014
Grundschema Regelwerk
Aktion auf häufige / wichtige Meldungen
Drop Meldungen verwerfen
Aktion auf wichtige Meldungen
Aktion für unbekannte Meldungen
25
Flughafen München / Hubert Bösl / 21.10.2014
Regeln durchlaufen
„Spam“ Meldungen verwerfen
Regeln durchlaufen
Grundschema Regelwerk
26
Flughafen München / Hubert Bösl / 21.10.2014
Bewertung einer Meldung
• Meldungstext
• Ursprung
• Severity/Facility (Nur Syslog)
• Servicelevel (Nur Statusmeldungen)
• Zeitpunkt
• Anzahl Meldungen in einem Intervall
27
Flughafen München / Hubert Bösl / 21.10.2014
Performance Eventkonsole
Bei passender Konfiguration sind 200 Meldungen pro Sekunde kein Problem
28
Flughafen München / Hubert Bösl / 21.10.2014
Performanceoptimierung
Durch Arbeiten an der Firewall wurde eine neue Fehlermeldung produziert. Diese wurde mehrfach pro
Sekunde geschickt und durchlief das ganze Regelwerk (900 Regeln)
29
Flughafen München / Hubert Bösl / 21.10.2014
Performanceoptimierung - Hashes
Cle ani ng u p e ve n t p ipe
Top 20 o f fac il i ty / pri or it y :
lo cal 1/ al ert - 194 579 6 (4 4.6 2% )
da emo n / no tic e - 18 207 03 ( 41. 75 % )
da emo n / er r - 2 4 455 0 ( 5. 61 %)
ke rn/ in fo - 66 9 58 (1. 54 %)
lo cal 7/ cr it - 6 276 3 ( 1. 44 %)
da emo n / wa rni ng - 5 661 6 (1 .30 %)
ma il / in fo - 37 9 98 (0. 87 %)
…
Compile d 438 act iv e rules (ign orin g 4 disab led r ules )
Rule ha sh: 4 38 r ul es - 42 3 has hed, 1 5 unspe cific
kern
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(20 ) de bu g(18)
user
: e me rg(19) alert (22) c rit(27) err( 113) w arning( 126) noti ce (24) in fo(20 ) de bu g(18)
mail
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (22) in fo(21 ) de bu g(18)
daemon
: e me rg(20) alert (23) c rit(33) err( 146) w arning( 141) noti ce (33) in fo(21 ) de bu g(19)
auth
: e me rg(18) alert (21) c rit(25) err( 105) w arning( 120) noti ce (21) in fo(20 ) de bu g(18)
syslog
: e me rg(18) alert (21) c rit(24) err( 106) w arning( 119) noti ce (21) in fo(21 ) de bu g(18)
lpr
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(20 ) de bu g(18)
news
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(20 ) de bu g(18)
uucp
: e me rg(22) alert (25) c rit(30) err( 109) w arning( 123) noti ce (22) in fo(21 ) de bu g(19)
cron
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(21 ) de bu g(18)
authpr iv
: e me rg(18) alert (22) c rit(25) err( 109) w arning( 120) noti ce (23) in fo(20 ) de bu g(18)
ftp
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce
(21)
fo(20 Aufteilung
) de bu g(18)über
Nur
beiineiner
local0
: e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (24) in fo(20 ) de bu g(18)
facility
/ priority
sinnvoll
local1
: e me rg(47) alert (116 ) crit(53 ) err (134 ) warning (148) not ic e(49)
i nfo(4
8) d eb
ug(46)
30
Flughafen München / Hubert Bösl / 21.10.2014
Eventkonsole am Leitstand
31
Flughafen München / Hubert Bösl / 21.10.2014
Aktionen in der Eventkonsole
Event
Zeitpunkt, Statusinformation, SLA,
Aktion, Ansprechpartner
Rewriting:
Meldungstext, Ursprung,
Statusinformation, SLA
Anzeige
Flughafen München / Hubert Bösl / 21.10.2014
Von Hand
Script
Mail
Anruf
32
Automatisiert
Mail
Ticket
Restart
Beispiel Statusänderung und SLA
Anruf und Mail UDS
Rufbereitschaft
Anruf und Mail
IT Service Desk
Rufbereitschaft
Darstellung des Events in der Eventkonsole
(Filterung auf Servicelevel)
Generierung eines Tickets (Über GUI)
33
Flughafen München / Hubert Bösl / 21.10.2014
Anforderungen und Implementierung
• Alle wichtigen Systeme überwachen
Möglich über verschiedenste Wege.
Agent, Syslog (auch WIN), SNMP, Mail
• Ausfall möglichst schnell bemerken
Schnell über passive Wege
Sicher über aktive Wege
• Wichtige Themen hervorheben
Einbindung von Servicelevel
Kumulieren von häufigen Meldungen
• Unwichtige Meldungen unterdrücken
• Zusatzinformationen
• Zeitliche Abläufe erkennen
34
Flughafen München / Hubert Bösl / 21.10.2014
99,6% der Meldungen verwerfen
Filterung auf Servicelevel
Rewriting des Meldungstextes
Kontaktperson als Information hinzufügen
Zeitstempel, Intervalle, Counting
Archivierung
Vielen Dank für Ihre
Aufmerksamkeit
Fragen ?
35
Flughafen München / Hubert Bösl / 21.10.2014