Eventbasiertes Monitoring am Flughafen München
Transcrição
Eventbasiertes Monitoring am Flughafen München
Eventbasiertes Monitoring am Flughafen München Hubert Bösl 21.10.2014 Terminals: Länge: Fläche: Förderanlage: Vorfelder: Terminal 1 1081 m 198.000 m² 18 km 600.000 m² Firmengelände: Hangars: Treibstoff: Geschäfte: Parkplätze: 90.300 m² 44.000.000 l 200 34.000 Einrichtungen: 2 Hotels Tagungszentrum Kirchlicher Dienst Gebetsraum für Muslime Ärztezentrum und Klinik Kindergarten Feuerwehr Terminal 2 980 m 271.000 m² 40 km 760.000 m² Flughafen IT 3 • PC‘s & Workstations 3.500 • LAN-Ports 18.000 • Phones 12.500 • FIDS Displays 1.850 • FIDS Accounts 2.800 • CCTV Cameras 2.150 • Server (in 2 Data Centers) 750 • SAN/NAS-Storage 1500 TB • Applications 600 • Employes (IT) 200 • Customers 500 • External revenue 14 Mio Eur Flughafen München / Hubert Bösl / 21.10.2014 FMG IT die Informationsdrehscheibe Flight Mgmt. SITA Msg. Radar / AIMS SITA Flight Info A/C Fueling Transfer Mgmt. General Aviation Flight Docking System Building Mgmt. o FIDS Terminal Mgmt. … Checkin 5 Flughafen München / Hubert Bösl / 21.10.2014 Fresh/ waste Water Traffic control Public TV Apron Simulation Noise measurem. Public Radio Baggage Sortation Info Wireless Access CUTE Lufthansa Staff Mgmt. Freight Handling Location Data CCTV Push Back Bus Dispo central Data base SITA Anaysis ATC Network Mgmt. Baggage Mgmt. Fluginformation A/C DeIcing Weather Service Plan Apron Control A/C Guidance A/C Cleaning Billing Sequence Planning Baggage Sorting Internet Gepäckinnendienst Cargogate Aerogate Flight Plan Coord. IT Leitstand Flughafen München 6 Flughafen München / Hubert Bösl / 21.10.2014 Anforderungen Systemmonitoring • Alle wichtigen Systeme überwachen • Ausfall möglichst schnell bemerken • Wichtige Themen hervorheben • Unwichtige Meldungen unterdrücken • Zusatzinformationen • Zeitliche Abläufe erkennen 7 Flughafen München / Hubert Bösl / 21.10.2014 Einhaltung der Service Level 8 Flughafen München / Hubert Bösl / 21.10.2014 Entwicklung Systemmonitoring am Flughafen München 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 INSAM (Integrated Network, System and Applikation Monitoring) 9 Flughafen München / Hubert Bösl / 21.10.2014 Einführung Nagios (CA Eventkonsole) Ablösung Eventkonsole (Einführung check_mk) Status orientiertes Monitoring • Vorteile • Aktive Abfragen jederzeit möglich • Ausfall des Monitorings wird bemerkt • Nachteile • Zeitverlust • Skaliert nur bedingt A b f r a g e 10 Ausfall Flughafen München / Hubert Bösl / 21.10.2014 Alarm A b f r a g e A b f r a g e A b f r a g e A b f r a g e A b f r a g e Event orientiertes Monitoring • Nachteile • Vorteile • Bei vielen Produkten integriert • Verlust von Meldungen möglich • Oft keine OK Meldung vorgesehen • Schelle Alarmierung • Skaliert sehr gut M e l d u n g 11 Alarm Ausfall Flughafen München / Hubert Bösl / 21.10.2014 M e l d u n g Warum Eventbasiertes Monitoring • Nicht alle Quellen können aktiv abgefragt werden • Eine statusbasierte Überwachung kann nie alle Aspekte abdecken • Auch OK Meldungen können interessant sein Events Regeln Optimale Ergebnisse durch Kombination 12 Flughafen München / Hubert Bösl / 21.10.2014 Status Kombination Die Kombination ist besser als die Summer der Einzelteile 13 Flughafen München / Hubert Bösl / 21.10.2014 Richtig gut wird es, wenn es aus einem Guss ist. Der Weg zum Monitoring Abfagemöglichkeiten System Anforderungen Überwachung Aktiv Passiv 14 Erstellung / Definition aktive Checks Erstellung / Definition Regel Eventkonsole Status Event Flughafen München / Hubert Bösl / 21.10.2014 Statusänderung Der Weg zur Eventkonsole • Ende 2011 stand die Erneuerung der CA Unicenter Konsole an • Vergleich zwischen kommerziellen Produkten und Open Source • Es war keine Open Source Lösung verfügbar, die den Anforderungen genügte • Einholung von kommerziellen Angeboten • Erarbeitungen von Open Source Konzepten • Das Konzept von Mathias Kettner überzeugte und war finanziell umsetzbar • Ausschlaggebend war die einfache Bedienbarkeit und geringe Ressourcenanforderungen • Im Juni 2012 stand das Konzept und Pflichtenheft • Im Oktober 2012 übernahm die check_mk Eventkonsole die Führungsrolle 15 Flughafen München / Hubert Bösl / 21.10.2014 Event - generieren und löschen Events können beim auftreten der OK Meldung auch automatisch archiviert werden. 16 Flughafen München / Hubert Bösl / 21.10.2014 Event - Counting und Rewriting In manchen Fällen ist es sinnvoll, Events nicht sofort, oder mit anderen Text anzuzeigen. 17 Flughafen München / Hubert Bösl / 21.10.2014 Übernahme der Statusänderungen aus check_mk Fast alle Statusänderungen aus check_mk werden mit nur einer Regel bearbeitet 18 Flughafen München / Hubert Bösl / 21.10.2014 Actions – Call Rufbereitschaft Bei sehr kritischen Events wird die Rufbereitschaft aus dem System heraus angerufen. 19 Flughafen München / Hubert Bösl / 21.10.2014 Eventkonsole - Aktionen Bestimmte Aktionen können auch über die GUI angestoßen werden (für einen oder mehrere Events) 20 Flughafen München / Hubert Bösl / 21.10.2014 Kommunikation und Konfiguration 21 Flughafen München / Hubert Bösl / 21.10.2014 Monitoring Umgebung Flughafen München 22 Flughafen München / Hubert Bösl / 21.10.2014 Der Weg zum Event Syslog SNMP Statusänderung Meldung: Zeitpunkt Meldungstext Statusinformation, SLA? Regelwerk: Bewertung von Facility, Priority, Meldungstext, Zeitpunkt, Ursprung, Statusinformation, SLA? Event Zeitpunkt, Statusinformation, SLA, Aktion, Ansprechpartner 23 Flughafen München / Hubert Bösl / 21.10.2014 Mail Script Regelwerk - Verteilung 438 4 Millionen pro Tag 24 Flughafen München / Hubert Bösl / 21.10.2014 Grundschema Regelwerk Aktion auf häufige / wichtige Meldungen Drop Meldungen verwerfen Aktion auf wichtige Meldungen Aktion für unbekannte Meldungen 25 Flughafen München / Hubert Bösl / 21.10.2014 Regeln durchlaufen „Spam“ Meldungen verwerfen Regeln durchlaufen Grundschema Regelwerk 26 Flughafen München / Hubert Bösl / 21.10.2014 Bewertung einer Meldung • Meldungstext • Ursprung • Severity/Facility (Nur Syslog) • Servicelevel (Nur Statusmeldungen) • Zeitpunkt • Anzahl Meldungen in einem Intervall 27 Flughafen München / Hubert Bösl / 21.10.2014 Performance Eventkonsole Bei passender Konfiguration sind 200 Meldungen pro Sekunde kein Problem 28 Flughafen München / Hubert Bösl / 21.10.2014 Performanceoptimierung Durch Arbeiten an der Firewall wurde eine neue Fehlermeldung produziert. Diese wurde mehrfach pro Sekunde geschickt und durchlief das ganze Regelwerk (900 Regeln) 29 Flughafen München / Hubert Bösl / 21.10.2014 Performanceoptimierung - Hashes Cle ani ng u p e ve n t p ipe Top 20 o f fac il i ty / pri or it y : lo cal 1/ al ert - 194 579 6 (4 4.6 2% ) da emo n / no tic e - 18 207 03 ( 41. 75 % ) da emo n / er r - 2 4 455 0 ( 5. 61 %) ke rn/ in fo - 66 9 58 (1. 54 %) lo cal 7/ cr it - 6 276 3 ( 1. 44 %) da emo n / wa rni ng - 5 661 6 (1 .30 %) ma il / in fo - 37 9 98 (0. 87 %) … Compile d 438 act iv e rules (ign orin g 4 disab led r ules ) Rule ha sh: 4 38 r ul es - 42 3 has hed, 1 5 unspe cific kern : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(20 ) de bu g(18) user : e me rg(19) alert (22) c rit(27) err( 113) w arning( 126) noti ce (24) in fo(20 ) de bu g(18) mail : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (22) in fo(21 ) de bu g(18) daemon : e me rg(20) alert (23) c rit(33) err( 146) w arning( 141) noti ce (33) in fo(21 ) de bu g(19) auth : e me rg(18) alert (21) c rit(25) err( 105) w arning( 120) noti ce (21) in fo(20 ) de bu g(18) syslog : e me rg(18) alert (21) c rit(24) err( 106) w arning( 119) noti ce (21) in fo(21 ) de bu g(18) lpr : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(20 ) de bu g(18) news : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(20 ) de bu g(18) uucp : e me rg(22) alert (25) c rit(30) err( 109) w arning( 123) noti ce (22) in fo(21 ) de bu g(19) cron : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) in fo(21 ) de bu g(18) authpr iv : e me rg(18) alert (22) c rit(25) err( 109) w arning( 120) noti ce (23) in fo(20 ) de bu g(18) ftp : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (21) fo(20 Aufteilung ) de bu g(18)über Nur beiineiner local0 : e me rg(18) alert (21) c rit(24) err( 105) w arning( 119) noti ce (24) in fo(20 ) de bu g(18) facility / priority sinnvoll local1 : e me rg(47) alert (116 ) crit(53 ) err (134 ) warning (148) not ic e(49) i nfo(4 8) d eb ug(46) 30 Flughafen München / Hubert Bösl / 21.10.2014 Eventkonsole am Leitstand 31 Flughafen München / Hubert Bösl / 21.10.2014 Aktionen in der Eventkonsole Event Zeitpunkt, Statusinformation, SLA, Aktion, Ansprechpartner Rewriting: Meldungstext, Ursprung, Statusinformation, SLA Anzeige Flughafen München / Hubert Bösl / 21.10.2014 Von Hand Script Mail Anruf 32 Automatisiert Mail Ticket Restart Beispiel Statusänderung und SLA Anruf und Mail UDS Rufbereitschaft Anruf und Mail IT Service Desk Rufbereitschaft Darstellung des Events in der Eventkonsole (Filterung auf Servicelevel) Generierung eines Tickets (Über GUI) 33 Flughafen München / Hubert Bösl / 21.10.2014 Anforderungen und Implementierung • Alle wichtigen Systeme überwachen Möglich über verschiedenste Wege. Agent, Syslog (auch WIN), SNMP, Mail • Ausfall möglichst schnell bemerken Schnell über passive Wege Sicher über aktive Wege • Wichtige Themen hervorheben Einbindung von Servicelevel Kumulieren von häufigen Meldungen • Unwichtige Meldungen unterdrücken • Zusatzinformationen • Zeitliche Abläufe erkennen 34 Flughafen München / Hubert Bösl / 21.10.2014 99,6% der Meldungen verwerfen Filterung auf Servicelevel Rewriting des Meldungstextes Kontaktperson als Information hinzufügen Zeitstempel, Intervalle, Counting Archivierung Vielen Dank für Ihre Aufmerksamkeit Fragen ? 35 Flughafen München / Hubert Bösl / 21.10.2014