eitieCloud - Wir betreiben Ihre IT
  • Ihre Branche
    • Immobilienbüros
    • Ingenieure
    • Kanzleien
    • Sozialwirtschaft
  • Produkte
    • Unser grünes Rechenzentrum
    • EDV-Betreuung
    • eitieCloud – Hosting Ihrer Programme
    • eitieCloud – für Softwarehersteller
    • eitieBox – Hybrid-Cloud als EDV-Lösung
    • eitieStorage – Mengendaten
    • eitieWLAN – Sicheres WLAN
    • eitiePrint – Druck und Mail automatisch
    • eitieSync – Daten-Synchronisation
    • eitieZeit – Zeiterfassung und Zutrittskontolle aus der eitieCloud
  • Partner
    • Partner der eitieCloud sein
  • Referenzen
    • Referenzen – Verbreitungsgebiet
    • eitieCloud – Diakonie im Landkreis Karlsruhe
    • eitieCloud – LEWIDA Leben wie daheim
    • eitieCloud – WDS Bad-Arolsen
    • eitieCloud – Senioreneinrichtungen Bochum
    • eitieBox – Staudt Heizung und Sanitär GmbH
    • Enterprise-Hosting – TUI Deutschland
    • eitieCloud – LICHTI – Patentanwälte
  • Support
  • Über die Firma
    • Unser Team
    • Unsere Philosophie
    • Kontakt
    • Karriere
    • AGB der CIS Geschäftsbereich Internet Providing
    • Netiquette
  • Newsblog
    • Timeline
    • EDV-Nachrichten
    • Jobs
    • Reisetagebuch
    • Events

TOM 7 – Rechenzentrumsausfall, Notfall, Wiederherstellung, Wiederanlauf

zurück zur AV-Vereinbarung

1.  Versionen

BearbeiterDatumVersionTätigkeit
Dieter Dunst04.04.2019v0.1Draft: Erstellung Strukturen
Dieter Dunst08.04.2019v0.2Draft: Überarbeitung bis Punkt 8
Dieter Dunst11.04.2019v0.3Draft: Überarbeitung Punkt 8
Dieter Dunst19.11.2019v0.4Draft: Überarbeitung Gesamtdokument
Patrik Scherer20.11.2019v1.0Prod: Überarbeitung und Veröffentlichung

2.  Notfallplan

2.1.            Stromausfall

Bei einem teilweisen Stromausfall bei den Stromkreisen der für die IT-Systeme zuständigen Bereichen ist nicht mit einer Beeinträchtigung der Umgebung zu rechnen, da alle Systeme redundant an der Stromversorgung angeschlossen sind. Dies betrifft sowohl das Rechenzentrim IPC, als auch das Rechenzentrum CIS.

Weiterhin ist die Stromversorgung durch USVs gesichert, welche dafür sorgen, dass der Ausfall einer Anbindung das zweite Netzteil zusätzlich duch den Batteriespeicher gestützt wird.

2.2.            Brand

Nach einem Brand im Gebäude, bei dem die komplette IT-Infrastruktur beeinträchtigt bzw. zerstört wurde, kann auf ein vollständiges Backup zurückgegriffen werden. Im Falle der Zerstörung des Gebäudes durch Brand und/oder Löschwasser besteht die Möglichkeit, die Umgebung auf neu zu installierenden Systemen wiederherzustellen. Dies ist aufgrund der Virtualisierung deutlich einfacher, als dies bei physikalischen Systemen der Fall wäre.

Der mögliche Datenverlust (RPO) beträgt 24 Stunden bei der Zerstörung der Infrastruktur im RZ CIS. Der Datenverlust bei der Zerstörung der Infrastruktur RZ ICP kann bis zu 3 Tage betragen, wenn die Replikation der Daten zum RZ CIS noch nicht abgeschlossen wurde.

2.3.            Hardwareausfall

Da alle Komponenten, die die geschäftskritischen Systeme beherbergen, redundant ausgelegt sind, ist bei Ausfall einer Hardwarekomponente (Server, Switch, Firewall, Storage-Controller,…) keine Beeinträchtigung der Umgebung im RZ IPC zu erwarten.

Die dedizierten Systeme im RZ CIS sind nur teilweise redundant: Die Server sind Standalone-Systeme, deren Komponenten redundant gehalten sind. Bei Ausfall von systemkritischen Hardwarekomponenten sind alle virtuellen Systeme auf der Virtualisierungsplattform von dem Ausfall betroffen. Sind die Speichersysteme nicht in Mitleidenschaft gezogen worden, ist ein Umbau in einen Ersatzserver möglich, so dass nur mit geringen Datenverlust zu rechnen ist. Sollte das Speichersystem defekt sein, so müssen die Daten aus dem Backup wiederhergestellt werden.

 

 

 

2.4.            Virus/Trojaner

Sollte es trotz der installierten Virenscanner, Proxys und Firewalls zu einer Infizierung mit einem Virus oder (Verschlüsselungs-)Trojaner kommen, so können die betroffenen Daten aus dem Backup wiederhergestellt werden.

Hierbei besteht eine maximaler Datenverlust von 24 Stunden.

Datenbanken können nur ganzheitlich zum entsprechenden Backup-Zeitpunkt wiederhergestellt werden. Transaktionsdaten können je nach Anwendung dabei helfen, die wiederhergestellten Daten näher an Verlustzeitpunkt heranzuführen.

 

 

 

3.  Wiederherstellungsplan

3.1.            Wiederherstellungsdauer virtuelle Systeme

Die Wiederherstellungsdauer der Umgebung bzw. Teilbereichen setzt die funktionsfähige, unter 5.1.3 – Wiederherstellungsbetrieb aufgelistete Umgebung voraus. Die folgende Formel stellt die Wiederherstellungszeit eines kompletten virtuellen Systems dar, wenn die Backupumgebung voll funktionsfähig ist:

t = a * (w/s + b + n)

Variablenbeschreibung:

  • t – Wiederherstellungszeit
  • a – Serveranzahl
  • w – Wiederherstellungsmenge pro Minute
    • Hochverfügbarkeitscluster: 5GB
    • Dedizierte Kundenumgebung: 2GB
  • s – Servergröße in GB
  • b – Backupbereitstellung
    • bei Verlustzeitpunkt < 4 Wochen
      • Hochverfügbarkeitscluster: 1h
      • Dedizierte Kundenumgebung: 2h
    • bei Verlustzeitpunkt > 4 Wochen
      • Hochverfügbarkeitscluster: 2h
      • Dedizierte Kundenumgebung: 3h
  • n Nacharbeiten am System
    • Hochverfügbarkeitscluster: 1h
    • Dedizierte Kundenumgebung: 2h

3.2.            Wiederherstellungsdauer physikalischer Systeme

Hier wird die aus 3.1. bekannte Rechnung angewandt und ergänzt. Für das erste physikalische System eines Kunden wird 1 Arbeitstag und für jeden weiteren Host 4 Stunden addiert.

3.3.            Stromausfall

Eine Wiederherstellung der Umgebung aus dem Backup ist bei einem Stromausfall nicht notwendig, da bei Ausfall einzelner Stromanbindungen die Umgebung durch die redundante Stromanbindung nicht beeinträchtigt wird.

Für die Wiederinbetriebnahme der Umgebung müssen die Systeme nach dem Wiederanlaufplan 5.1- Betrieb gestartet werden.

 

3.4.            Brand

Nach dem Ausfall der kompletten Umgebung aufgrund eines Brandes sind folgende Komponenten in der genannten Reihnfolge wiederherzustellen:

  • Netzstrukturen:
    • Aufbau von Switchen und Wiederherstellen der Konfiguration aus dem Backup
    • Aufbau der Firewalls und Wiederherstellen der Konfiguration aus dem Backup
    • Internetanbindung durch RZ-Anbieter
  • Serversysteme:
    • Aufbau von mindestens einem Virtualisierungs-Host
    • Installation der Virtualisierungssoftware (VMware)
    • Installation eines Systems als VM
    • Installation der Backupsoftware (Veeam)
    • Einbinden der Backup-Repositorys
    • Wiederherstellen der Serversysteme auf die Virtualisierungs-Hosts

 

3.5.            Hardwareausfall

3.5.1.              Rechenzentrum „IPC“

Bei einem Ausfall einer der redundant vorhandenen Komponenten ist ein Austausch dieser Komponente ohne Ausfallzeit der Umgebung im RZ IPC möglich. Zusätzlich kann die Unterstützung des Herstellers beauftragt werden, der die ausgefallene Komponente austauscht.

3.5.2.              Rechenzentrum „CISDS“

Im CIS-RZ ist bei Ausfall der Serverhardware mit einem Ausfall zu rechnen, bis die Hardware ersetzt wurde. Hierzu sind die Systeme zu berücksichtigen, die unter 3.3 – Brand aufgelistet sind. Die Wiederherstellung der Umgebung ist abhängig von der Verfügbarkeit der Hardware und der unter 3.1 – Wiederherstellungsdauer zu berechnenden Wiederherstellungszeit.

 

3.6.            Virus/Trojaner

Nach einer Infizierung eines oder mehrerer Systeme mit einem Virus oder Trojaner sind nach der Feststellung des Befalls die infizierten Systeme von der restlichen Umgebung zu isolieren. Das System bzw. die Systeme sind dann mit einer aktuellen Antivirenversion oder einer Bereinigungs-CD zu kontrollieren. Hierbei kann nicht auf die Daten zugegriffen werden. Sind die Daten verschlüsselt, so ist das System aus dem Backup wiederherzustellen und sicherzustellen, dass kein Viorus oder Trojaner mehr in der Umgebung vorhanden ist.

 

4.  Wiederanlaufzeit

4.1.            Teilausfall

Bei einem Teilausfall der Umgebung müssen Systeme, die nicht redundant vorhanden sind, aus dem Backup wiederhergestellt werden. Die Wiederherstellungszeit richtet sich hierbei nach der wiederherzustellenden Datenmenge und der gegebenenfalls nachträglich zu erbringenden Anpassung/Aktualisierung des Systems auf den aktuellen Stand.

Bei redundant vorhandenen Systemen ist abgesehen von eventuellen Performanceeinbußen nicht mit einer Beeinträchtigung der Umgebung zu rechnen.

4.2.            Komplettausfall

Nach einem Komplettausfall der Umgebung mit Zerstörung der vorhandenen Hardware ist die Wiederherstellungszeit abhängig von folgenden Punkten:

  • Ersatzbeschaffung der Hardware (Server, Netzkomponenten)
  • Wiederherstellung der Infrastrukturen (Firewall- und Switchkonfigurationen)
  • Wiederherstellen der virtuellen Infrastrukturen
  • Wiederherstellung der Backupstrukturen
  • Wiederherstellung der Umgebung aus dem Backup
  • Anpassung der wiederhergestellten Umgebung auf den letzten verfügbaren konsistenten Datenbestand

 

 

5.  Wiederherstellungspunkt & – ziel

5.1.            Betrieb

5.1.1.              Minimalbetrieb – Erreichbarkeit

Der Minimalbetrieb für die Erreichbarkeit der CIS besteht aus:

  1. Domänenstrukturen eitie & CIS-RZ
  2. Telefonanlage
  3. DHCP
  4. Mailserver
  5. Mailgateways
  6. Anwendungsserver CIS
  7. Supportserver

 

Für den Minimalbetrieb sind folgende Systeme notwendig:

  1. Netzwerkumgebung
  2. Virtualisierungssysteme
  3. Domaincontroller
  4. Telefonserver
  5. Mailserver
  6. Mailgateways
  7. Anwendungsserver CIS (Genesis World – Kundendaten)
  8. Supportserver

 

Die Wiederherstellung der Systeme für den Minimalbetrieb wird bei vollständig[1] wiederherzustellenden Systemen mehrere Stunden in Anspruch nehmen, in Abhängigkeit von der wiederherzustellenden Datenmenge. Dies setzt eine funktionierende Infrastruktur voraus (Netzwerkstrukturen, Virtualisierungsumgebung, Support-Server, Backup-Umgebung).

 

 

5.1.2.              Erweiterter Minimalbetrieb

Der erweiterte Minimalbetrieb umfasst neben der Erreichbarkeit der CIS zusätzlich den Zugang zu den Kundensystemen. Hierzu werden noch folgende zusätzliche Systeme benötigt:

  • Kunden-Anwendungsserver
  • Kunden-Terminalserver
  • Fileserver
  • Sessionbroker für mehrfache Kunden-Terminalserver
  • Profilserver für mehrfache Kunden-Terminalserver
  • Bei dedizierten Systemen:
  • Dedizierter Fileserver
    • Sessionbroker für mehrfache Kunden-Terminalserver
    • Printserver

5.1.3.              Wiederherstellungsbetrieb

Für den Wiederherstellungsbetrieb werden diejenigen Systeme benötigt, die zur Rücksicherung der Serverumgebung notwendig sind. Folgende Komponenten sind hierfür notwendig:

  • Netzwerkumgebung
  • Virtualisierungssysteme
  • Domaincontroller
  • Backupserver
  • Backupstorage

 

5.2.            Vollumfängliche Wiederherstellung

Die Wiederherstellung aller Systeme für die vollständige Wiederherstellung wird bei vollständig wiederherzustellenden Systemen einige Stunden in Anspruch nehmen, in Abhängigkeit von der wiederherzustellenden Datenmenge. Dies setzt eine funktionierende Infrastruktur voraus (Netzwerkstrukturen, Virtualisierungsumgebung, Support-Server, Backup-Umgebung), siehe auch 5.1.3.

Bei der kompletten Wiederherstellung aller Systeme wird nach der Wiederherstellung der für den Minimalbetrieb notwendigen Systeme ein Zwischenziel erreicht, mit dem die CIS-Mitarbeiter zum Teil wieder arbeitsfähig sind. Hierfür ist die Reihenfolge der wiederherzustellenden Systeme zu beachten.

Erst nach der kompletten Wiederherstellung der Kundensysteme sind die Kunden wieder arbeitsfähig. Bei der Reihenfolge ist zu beachten, dass die zentralen Ablagen oder Sessionbroker vorrangig wieder hergestellt werden. Sind die für einen Kunden notwendigen Systeme wiederhergestellt, ist der jeweilige Kunde arbeitsfähig. Hierbei kann nur ein Kunde nach dem Anderen wiederhergestellt werden, so dass es einige Zeit dauern wird bis zur vollen Arbeitsfähigkeit aller Kunden.

 

6.  Notfallsysteme

Für den Notfall ist eine separate VPN-Einwahl auf die Firewall für den Fernzugriff möglich, so dass auch remote Wartungsarbeiten und Notfallmaßnahmen getroffen werden können.

Die Zugriffsmöglichkeiten auf die Serverhardware beschränkt sich auf den physikalischen Zugang zum RZ IPC und RZ CIS und der verschlüsselte Zugriff auf IPMI-Karten in den Servern, über den auch direkt auf die Serversysteme zugegriffen werden kann.

 

7.  Kritische Systeme

Folgende physikalischen Systeme werden als geschäftskritisch eingestuft:

SystemAufgabe
CIS-IPC-ASA01
CIS-IPC-ASA02
Zentrale Firewalls
CIS-IPC-VPN01
CIS-IPC-VPN02
Zentrale Einwahl Kundensysteme
CISRZ-SW101
CISRZ-SW201
CISRZ-SW202
Zentrale Switchinfrastruktur
CIS-IPC-SW10Storage-Switch
CISRZ-DPV01
CISRZ-QNAS02
CISRZ-QNAS03
Storagesysteme
CISRZ-ESX0x

CISRZ-PVE0x

Virtualisierungs-Hosts
CISRZ-SUP01Support-Server
CISRZ-VBS01Backupserver
CISRZ-BNAS01
CISRZ-BNAS02
CISRZ-BNAS03
CISKA-BNAS01
Backup-Repositories

 

 

 

Folgende virtuellen Systeme werden als geschäftskritisch eingestuft:

SystemAufgabe
CISRZ-ADC01
CISRZ-ADC02
Domaincontroller CIS-RZ.net
EITIE-ADC03
EITIE-ADC04EITIE-ADC05
Domaincontroller eitie.de
EITIE-TK01Telefonserver
EITIE-MX01Mailserver Exchange
EITIE-DHCP01DHCP-Server
CISKA-APP01Genesis World
CIS-KAD-SGW01

CIS-KAD-SGW02

Mailgateway
CISRZ-SUP01Supportserver (RZ)
EITIE-SUP01Supportserver
CISRZ-ADC01

CISRZ-ADC02

Domaincontroller Verwaltungsumgebung

 

 

 

8.  Systembeschreibungen

8.1.            Systemarchitektur

Die Kunden der CIS arbeiten nach einer Terminalserver-Struktur. Die Server bilden die Grundlage zum Erbringen der Geschäftstätigkeiten.

 

8.2.            Netzwerkelemente

  • Internetanbindung:
    • Eine redundante 1GBit-Anbindung im RZ ICP
    • Eine 10GBit- Glasfaserverbindung zwischen RZ ICP und RZ CIS
  • Zentrale Switche:
    • Um die Redundanz zu gewährleisten, werden im RZ IPC zwei zentrale Switche eingesetzt.
    • Im RZ IPV wird ein Switche mit redundaten Komponenten eingesetzt.
  • Firewalls:
    • Als Firewalls kommen zwei Cisco ASA zum Einsatz, welche im Cluster für Ausfallsicherheit sorgen.
    • Alle Zugriffe zwischen den einzelnen Netzsegmenten wird über die Firewall gesteuert.
    • Änderungen an der Konfiguration werden beim Speichern auf einen Server gesichert, so dass diese Änderungen nachvollzogen werden können.
  • VPN-Einwahlen:
    • Auf einer Cisco ASA terminieren die VPN-Einwahlen für Benutzer.
  • Site-to-Site-Verbindungen:
    • Auf zwei zu einem Cluster geschaltete Cisco ASA terminieren die statischen VPN-Tunnel aller Kundensysteme.

 

8.3.            Backupumgebung

Das Backup erstellt jeden Tag eine Sicherung aller virtuellen Systeme. Hierbei wird einmal monatlich eine aktive Vollsicherung erstellt und jeden weiteren Tag eine inkrementelle Sicherung auf Blockebene. Die Backupsoftware ist in der Lage, aus einer Vollsicherung und der jeweiligen inkrementellen Sicherung ein vollständiges Image zur Wiederherstellung zu erstellen, so dass immer ein konsistenter Zustand wiederhergestellt werden kann. Die Backups aus dem RZ IPC werden im CISRZ gesichert, während die Backups der Systeme aus dem CISRZ auf Speichersystemen im IPC gesichert werden.

Zusätzlich werden Sicherungen einmal monatlich auf ein externes Storage repliziert, welches alle 2 Monate komplett vom Netz getrennt aufbewahrt wird.

Die Backupumgebung ist vom Produktiv- und Storagenetz durch VLANs getrennt.

 

8.4.            Betriebliche IT-Systeme

Die zum Betrieb notwendigen Systeme sind unter Punkt 5.1 – Betrieb aufgelistet.

 

8.5.            Sicherheit

Folgende Sicherheitsmaßnahmen für die Umgebung wurden getroffen:

  • Zugangsschutz Hardware:
    • Der Zugriff auf die Hardware kann nur auf zwei Wegen erfolgen:
      • Physikalischer Zugriff im jeweiligen RZ
      • Remotezugriff auf Verwaltungskarten/-konsolen mittels Login
    • Zugangsschutz Software:
      • Zugriff auf verwaltungstechnische oder betriebliche Anwendungen werden duch Logindaten geschützt. Die administrativen Zugriffe sind in einer verschlüsselten Kennwortdatenbank (KeePass) hinterlegt.
    • Logging:
      • Änderungen an der Firewall oder den zentralen Switchen werden bei jeder Speicherung auf einen Server gesichert, so dass Änderungen nachvollzogen werden können. Weiterhin werden Syslog-Daten von einzelnen Komponenten aufgezeichnet.
    • Authentifizierung:
      • Alle Zugriffe auf die Umgebung werden über das Active Directory der Domäne authentifiziert. Änderungsrechte innerhalb des AD haben nur namentliche Administratorbenutzer. Diese haben keine Domänenadminrechte.
      • Alle Authentifizierungen innerhalb des Verwaltungsnetztes werden über einen separaten Domänencontroller gesteuert und sind unabhängig von der Domäne der Kundensysteme.
    • Administratoren:
      • Administratoren in der Verwaltungsumgebung sind Mitglieder der Gruppe „Protected Users“, welche zusätzlichen Schutz vor Sicherheitsbedrohungen bietet.
      • Alle Administratoren sind namentlich erfasst und haben ein eigenes Login.
      • Kein namentlicher Administrator hat das Recht „Domänen-Administrator“.
    • Berechtigungsstufen:
      • Alle administrativen Berechtigungen werden über Gruppen des AD gesteuert. Jeder Benutzer hat die für ihn notwendigen Rechte, um seine Arbeit durchführen zu können.
      • Benutzer, die administrative Rechte für bestimmte Arbeiten benötigen, bekommen diese Berechtigungen durch entsprechenden Gruppen im AD.
      • Zugriffe auf Dateiebene werden über Berechtigungsgruppen im AD zugewiesen. Benutzer, die auf bestimmte Verzeichnisse keinen Zugriff besitzen, bekommen diese ausgeblendet.
    • Antivirus:
      • Alle Server- und Clientsysteme haben einen aktuellen Antivirus-Client installiert. Sollte der Client für einen Zeitraum von mehr als 7 Tagen keine aktuellen Updates laden, so wird eine Alarmierung an eine Verteilergruppe gesendet.
    • Windowsaktualisierung:
      • Alle Server- und Clientsysteme werden durch einen WSUS-Server mit aktuellen Updates von Microsoft versorgt. Die Freigabe der aktuellen Updates erfolgt teilweise automatisch. Für kritische Maschinen wird eine manuelle Freigabe von Updates vorausgesetzt. Diese Updates werden einmal monatlich kontrolliert und nach Kundenrücksprache installiert.
    • Sabotage:
      • Löschen/Überschreiben von Dateien:
        • Der Zugriff auf Dateien ist über Gruppen eingeschränkt.
        • Alle Dateien vom Dateiserver werden als Schattenkopie für einige Zeit aufbewahrt, unabhängig vom Backup.
        • Alle Serversysteme werden täglich auf ein per VLAN getrenntes System gesichert.
      • Netztrennung:
        • Alle Netze werden durch VLANs voneinander getrennt.
        • Zugriffe von einem Netz in ein anderes erfolgt ausschließlich über die Firewall.
        • Zugriff auf das Verwaltungsnetz (IPMI-Karten, Konsolen) haben nur ausgewählte Administratoren, welche namentlich erfasst sind.
        • Das Verwaltungsnetzt ist über eine eigene Struktur abgebildet.

[1] Ist das System vorhanden, so kann eine Wiederherstellung im Hochverfügbarkeitscluster auch auf Blockebene durchgeführt werden. Hierzu werden nur Blöcke wiederhergestellt, die sich vom Backup unterscheiden. Dies beschleunigt den Vorgang erheblich. Ist das System nicht mehr vorhanden, so sind die kompletten Daten wiederherzustellen.

 

IT-Betrieb für

  • Altenpflege
  • Immobilienbüros
  • Ingenieure
  • Kanzleien

Oliver Heneka – Vertriebsleiter

Auf dem Weg... gerne auch zu Ihnen.

Jetzt anfragen:

Mail: oliver.heneka@eitie.de

Telefon: +49721 4008-111

News aktuell

  • eitieCloud stellt sich der Altenpflege vor: Altenpflegekongress in Köln 30. März 2022
  • IT-Consultant gesucht (m/w/d) für Administration von Microsoft Active Directory, Exchange, DFS, RDS, M365 oder Azure 23. März 2022
  • Wir bilden Dich aus: Fachinformatikerin für Systemintegration (m/w/d) ab Anfang 2022 verfügbar 16. März 2022

Themenbereiche

  • Das Team (8)
  • EDV-Nachrichten (44)
  • Events (15)
  • Jobs (5)
  • Reisetagebuch (21)
  • Technik-Infos (11)
  • Timeline (100)

Rechtliche Infos

Impressum

Datenschutz und Netiquette

Rahmenvereinbarung eitie-Produkte

Downloads

TeamViewer

TeamViewer-Host (Dienst)

Social Media

 facebook 

 XING  von Patrik Scherer (GF)

 twitter 

Google

You Tube