Warum Big Data die IT Sicherheit verändert?

BigData und Logdaten

Große, aber auch kleine Netzwerke, erzeugen innerhalb kurzer Zeit große Mengen an Logdaten. Windows füllt fleißig das sogenannte Eventlog und Linux schreibt in jedem Fall das syslog voll. Kommen nun Anwendungen hinzu steigern sich die Datenmengen rapide. Ein Apache Webserver, wie beispielsweise der, der meine Webseite hostet, schreibt jeden Zugriff mit. Jeder Klick und jeder automatische Versuch eine URL aufzurufen erhält mindestens einen Eintrag im Logfile. Nur so konnte ich den Angriff auf meine Webseite an Ostern dieses Jahres erkennen. Hinzu kommt noch die MySQL Datenbank, die jeden Zugriff, erlaubt oder nicht, mitprotokolliert. Damit haben wir bereits drei Logquellen, die schnell wachsen, und es wurde nur eine Webseite betrachtet. In einem Unternehmen mit 100 virtuellen Servern steigt die Anzahl an Logdaten ungemein. Hängen die Systeme dazu noch zusammen, kann man aus den Logdaten das Zusammenspiel erkennen. Aber wie lassen sich so viele Daten verwalten und wer soll das alles auswerten?

Die Bedeutung von SIEM im BigData Umfeld

SIEMSecurity Information and Event Management, kurz SIEM sind Systeme, die Daten sammeln und korrelieren, aber leider nicht alle notwendigen. Vor allem im Netzwerkbereich sind solche Systeme sehr stark. Sie erhalten laufend Daten aus Firewalls und anderen Gatewayelementen. Diese Daten werden dann auf Grund von Regelwerken ausgewertet und eine passende Reaktion wird geschmiedet. SIEM bildet dadurch eine Teilmenge des BigData Ansatzes bei der IT Sicherheit.  Damit hätten wir innerhalb eines Netzwerkes den Zoll auf unserer Seite. Bleiben wir kurz bei der Analogie zur Landesgrenze. Der Zoll ist zwar da und wir haben innerhalb des Landes auch ein paar weitere Kontrollen, aber wenn nun eine gefährliche Person oder Ware von Stadt zu Stadt wandert, so merkt unser Zoll nichts davon. Es fehlen uns Informationen an Grenzpunkten, die wir noch setzen müssen.

Genau das ist momentan die Gefahr im Netzwerk. Die Grenzen sind schnell überwunden. Keine Firewall wird ausgehenden Traffic an Port 80 in einem Unternehmen blockieren, da sonst niemand mehr auf Webseiten gelangen kann. Also müssen wir für die scheinbar illegal Einwanderer (Trojaner etc.) interne Grenzen setzen, die feiner kontrollieren können.

Und plötzlich fällt es einem wie Schuppen von den Augen: Mit diesen Mitteln ließen sich ja Anomalien feststellen, denn wenn wir den Normalzustand festhalten und alles andere als Anomalie definieren, können wir sogar gezieltes Spearfishing erkennen. Genau hier lauern die meisten Gefahren, denn ein gezielter und gut vorbereiteter Angriff, wird meistens zum Erfolg und auch der BigData Ansatz wird ihn nicht immer verhindern können. Die Chancen ihn zu entdecken steigen dafür rasant an.

BigData hat Big Anforderungen

Nehmen wir den Fall an, dass ein Unternehmen sich für BigData Ansätze entscheidet und nun plant, welche Quellen angeschlossen werden:

  • Firewalls
  • Web Proxies
  • E-Mail Proxies
  • Switche
  • Hypervisors (VMware, Citrix etc.)
  • Alle Server
  • Alle Clients

Es sind nicht viele Kategorien hier aufgelistet, da ich nur von einer generischen Infrastruktur ausgehe, aber je höher die Zahl der Systeme in jeder Kategorie fällt, umso gewaltiger steigen die Datenmengen pro Tag, Woche und Monat. Es bedarf einiger großer und schneller Speicher, wie etwa eigens dafür ausgelegte SAN Systeme. Ebenso muss die Software, für die man sich entscheiden massiv parallele Ausführungen unterstützen, damit die passende Hardware dazu besorgt werden kann.

Blog aktiv unterstützen

BigData und Künstliche Intelligenz

BigData künstliche IntelligenzStatische Regelwerke sind im BigData Umfeld gut, aber nicht perfekt. Sie basieren darauf, dass sich an den Gegebenheiten nichts ändert. Das tun sie aber regelmäßig und deshalb müssen Menschen laufend die Regeln anpassen. Das was gestern noch eine Anomalie war, ist heute eventuell Normalzustand oder umgekehrt. False Positives gilt es zu vermeiden, da sie nur Kosten verursachen. Also bedarf es neuer Methoden, die den Lernprozess eines Systems ermöglichen. Mit den ungeheuren Datenmengen, die ein System sammelt kann es arbeiten und passende mathematische Modelle helfen dabei die Daten strukturiert zu evaluieren. Angefangen bei der Linearen Regression bis hin zu den Convolutional Neural Networks ist alles drin, was die Technologie heute hergibt.

Warum gerade künstliche Intelligenz?

  • Parameter und Strukturen ändern sich laufend, ein intelligentes System lernt und kann diese in der Zukunft richtig kategorisieren
  • Hardware ist sehr leistungsstark geworden und kann mit den Datenmengen umgehen
  • Erprobte Einsatzgebiete sind bereits vorhanden: Autonomes Fahren, Suchmaschinen oder die Video-on-Demand Seite, die lernt, was dem Nutzer gefällt

Ausblick

Lassen wir uns auf die technologischen Überraschungen der kommenden Jahre ein. Vielleicht haben wir ja die Fahnenstange erreicht, oder es kommt die nächste große Erfindung. Ich kann es nicht beurteilen. Manchmal ist es wie der Kurs einer Aktie. Ohne das nötige Wissen, was in Zukunft passiert, können wir nicht festlegen wie sich der Kurs verändert. Von daher bleibt nur noch die Vorfreude oder auch Angst, auf das nächste große Ereignis. Niemand hat Ransomware vorhergesehen und doch ist sie leider sehr präsent.

Momentan bleibt uns in Sachen BigData die Einsicht, dass sich Administratoren und Mitarbeiter in der IT wieder eine manuelle Tätigkeit sparen können und sich auf andere Dinge konzentrieren. Der User Help Desk beispielsweise scheint überall gefragt zu sein, auch wenn die Betreuung des ISO/OSI Layer 8 manchmal anstrengend sein kann.

Bücher zum Thema

 

Beitragsbild: Memory modules verändert, von Christiaan ColenCC BY-SA 2.0

Artikel teilen:

Kommentar verfassen