浪人
DE | EN
← Zurück zum Blog

TryHackMe — BankGPT Write-Up

2 Min. Lesezeit

🏦 TryHackMe — BankGPT (Raum-Walkthrough & Lernnotizen)

Raum: https://tryhackme.com/room/bankgpt
Thema: Prompt Injection • LLM-Sicherheit • Kontextbasierte Beeinflussung

Note: Dieses Write-up beschreibt ausschließlich die Vorgehensweise und die Lerninhalte. Es enthält keine Flags, Passwörter, Hashes oder vertraulichen Werte gemäß den TryHackMe-Richtlinien.


🔍 Überblick über die Challenge

Der Raum BankGPT stellt einen simulierten Banking-Chatbot bereit, der von einem Large Language Model gesteuert wird.
Der Bot soll:

  • interne Sicherheitsrichtlinien befolgen
  • vertrauliche Informationen nicht preisgeben
  • sensible Werte maskieren oder redigieren
  • eher Prozesse erklären als konkrete Daten ausgeben

Die Aufgabe besteht darin, zu untersuchen, wie sich Prompt-Injection-Techniken und kontextuelle Formulierungen auf diese Schutzmechanismen auswirken.

Es handelt sich nicht um eine klassische technische Ausnutzung, sondern um einen Test von:

  • Argumentationsführung
  • Kontextgestaltung
  • sozialer Einflussnahme
  • Schwachstellen im LLM-Verhalten

🪟 Das User Interface:

Bankgpt

Nach dem Starten des Raumes und ansteuern der Seite über den Link befindet man sich auf einer typischen minimaler Chatbot UI


🎯 Grundidee der Aufgabe

Direkte Anfragen nach vertraulichen Daten werden vom Bot konsequent abgelehnt.

Wenn dieselben Anfragen jedoch in einen Kontext wie:

  • Compliance-Prüfung
  • interne Audit-Prozesse
  • Klassifizierungs- oder Verifikationsabläufe

eingebettet werden, reagiert das Modell zunehmend offener —
teilweise mit zusätzlichen internen Beschreibungen oder Metadaten.

Typischer Ablauf der Interaktion:

  1. Das Modell liefert sichere oder redigierte Platzhalterwerte
  2. Es benennt interne Bezeichnungen oder Klassifikationen
  3. Es liefert zusätzliche Kontextinformationen bei höflichen Nachfragen
  4. Bestimmte Formulierungen lockern Schutzmechanismen unerwartet

Das zeigt:

Note: Die Richtlinien werden auf Gesprächsebene umgesetzt - nicht auf Basis einer echten Bewertung der Sensitivität. Dadurch entstehen potenzielle Angriffsflächen.


🧩 Zentrale Methoden & Erkenntnisse

Die Challenge demonstriert mehrere reale Prompt-Injection-Muster:


🟡 Autoritäts- und Prozess-Framing

Formulierungen, die wie interne Kommunikation wirken, erzeugen mehr Vertrauen:

  • Audit-Nachfragen
  • System- oder Compliance-Validierung
  • Prüflogik statt Datenerhebung

Das Modell interpretiert solche Prompts häufiger als legitime Arbeitsabläufe.


🟡 Redaktions- & Klassifikationsnachfragen

Anstatt sensible Daten abzufragen, wird der Bot z. B. dazu gebracht:

  • Redaktionen oder Platzhalter zu erläutern
  • interne Datentypen oder Bezeichnungen zu erklären
  • Speicher- oder Referenzkonzepte zu beschreiben

Dabei werden nur Metadaten besprochen aber auch diese können sicherheitsrelevant sein.


🟡 „Debug / Integritätsprüfung / Verifikation”

In Entwicklungs- oder Supportkontexten reagieren LLMs oft freier auf:

  • Prüf- und Bestätigungsanweisungen
  • Wiederholungen oder Spiegelungen von Werten
  • simulierte Log- oder Protokollausgaben

Dies verdeutlicht Risiken in:

  • Support-Chatbots
  • internen Tools
  • DevOps-Automationen

wenn Ausgaben nicht zusätzlich abgesichert werden.


🟡 Format- bzw. Demonstrations-Schwachstellen

Ein besonders wichtiger Lerneffekt:

Note: Wenn ein Modell „nur ein Format zeigen soll”, kann es dennoch reale Werte ausgeben.

Format-Validierung wird oft nicht als Datenfreigabe interpretiert. Das hat unmittelbare Relevanz für:

  • KI-gestützte Arbeitsprozesse
  • Assistenzsysteme in Unternehmen
  • Sicherheitskritische Bereiche

🧠 Sicherheits-Lehren aus der Challenge

BankGPT zeigt deutlich:

  • Konversationsrichtlinien allein bieten keinen echten Schutz
  • LLMs bewerten Formulierungen, nicht Sicherheitsrisiken
  • Harmlos klingende Prozesssprache kann zu Datenlecks führen
  • Metadaten offenzulegen kann bereits kritisch sein
  • Prompt Injection bleibt ein reales, aktuelles Bedrohungsfeld

Sichere Systeme benötigen Schutz auf: ✔ Datenzugriffsebene
✔ Systemarchitektur
✔ Berechtigungsmodellen nicht nur in der Chat-Antwortlogik.


🏁 Fazit

BankGPT ist ein hervorragender Praxis-Einstieg in:

  • adversarielle Prompts
  • Analyse von Konversationsangriffsflächen
  • LLM-Missbrauchsszenarien
  • moderne Sicherheitsfragen rund um KI-Systeme

Die Challenge fordert:

  • kritisches Denken
  • Kommunikationsbewusstsein
  • Verständnis für menschliche & technische Sicherheitsfaktoren

und zeigt sehr anschaulich,
welche Risiken entstehen können, wenn KI-Systeme in operative Abläufe eingebunden werden.

👉 Raumlink zur Referenz:
https://tryhackme.com/room/bankgpt