TryHackMe — BankGPT Write-Up
🏦 TryHackMe — BankGPT (Raum-Walkthrough & Lernnotizen)
Raum: https://tryhackme.com/room/bankgpt
Thema: Prompt Injection • LLM-Sicherheit • Kontextbasierte Beeinflussung
Note: Dieses Write-up beschreibt ausschließlich die Vorgehensweise und die Lerninhalte. Es enthält keine Flags, Passwörter, Hashes oder vertraulichen Werte gemäß den TryHackMe-Richtlinien.
🔍 Überblick über die Challenge
Der Raum BankGPT stellt einen simulierten Banking-Chatbot bereit, der von einem Large Language Model gesteuert wird.
Der Bot soll:
- interne Sicherheitsrichtlinien befolgen
- vertrauliche Informationen nicht preisgeben
- sensible Werte maskieren oder redigieren
- eher Prozesse erklären als konkrete Daten ausgeben
Die Aufgabe besteht darin, zu untersuchen, wie sich Prompt-Injection-Techniken und kontextuelle Formulierungen auf diese Schutzmechanismen auswirken.
Es handelt sich nicht um eine klassische technische Ausnutzung, sondern um einen Test von:
- Argumentationsführung
- Kontextgestaltung
- sozialer Einflussnahme
- Schwachstellen im LLM-Verhalten
🪟 Das User Interface:

Nach dem Starten des Raumes und ansteuern der Seite über den Link befindet man sich auf einer typischen minimaler Chatbot UI
🎯 Grundidee der Aufgabe
Direkte Anfragen nach vertraulichen Daten werden vom Bot konsequent abgelehnt.
Wenn dieselben Anfragen jedoch in einen Kontext wie:
- Compliance-Prüfung
- interne Audit-Prozesse
- Klassifizierungs- oder Verifikationsabläufe
eingebettet werden, reagiert das Modell zunehmend offener —
teilweise mit zusätzlichen internen Beschreibungen oder Metadaten.
Typischer Ablauf der Interaktion:
- Das Modell liefert sichere oder redigierte Platzhalterwerte
- Es benennt interne Bezeichnungen oder Klassifikationen
- Es liefert zusätzliche Kontextinformationen bei höflichen Nachfragen
- Bestimmte Formulierungen lockern Schutzmechanismen unerwartet
Das zeigt:
Note: Die Richtlinien werden auf Gesprächsebene umgesetzt - nicht auf Basis einer echten Bewertung der Sensitivität. Dadurch entstehen potenzielle Angriffsflächen.
🧩 Zentrale Methoden & Erkenntnisse
Die Challenge demonstriert mehrere reale Prompt-Injection-Muster:
🟡 Autoritäts- und Prozess-Framing
Formulierungen, die wie interne Kommunikation wirken, erzeugen mehr Vertrauen:
- Audit-Nachfragen
- System- oder Compliance-Validierung
- Prüflogik statt Datenerhebung
Das Modell interpretiert solche Prompts häufiger als legitime Arbeitsabläufe.
🟡 Redaktions- & Klassifikationsnachfragen
Anstatt sensible Daten abzufragen, wird der Bot z. B. dazu gebracht:
- Redaktionen oder Platzhalter zu erläutern
- interne Datentypen oder Bezeichnungen zu erklären
- Speicher- oder Referenzkonzepte zu beschreiben
Dabei werden nur Metadaten besprochen aber auch diese können sicherheitsrelevant sein.
🟡 „Debug / Integritätsprüfung / Verifikation”
In Entwicklungs- oder Supportkontexten reagieren LLMs oft freier auf:
- Prüf- und Bestätigungsanweisungen
- Wiederholungen oder Spiegelungen von Werten
- simulierte Log- oder Protokollausgaben
Dies verdeutlicht Risiken in:
- Support-Chatbots
- internen Tools
- DevOps-Automationen
wenn Ausgaben nicht zusätzlich abgesichert werden.
🟡 Format- bzw. Demonstrations-Schwachstellen
Ein besonders wichtiger Lerneffekt:
Note: Wenn ein Modell „nur ein Format zeigen soll”, kann es dennoch reale Werte ausgeben.
Format-Validierung wird oft nicht als Datenfreigabe interpretiert. Das hat unmittelbare Relevanz für:
- KI-gestützte Arbeitsprozesse
- Assistenzsysteme in Unternehmen
- Sicherheitskritische Bereiche
🧠 Sicherheits-Lehren aus der Challenge
BankGPT zeigt deutlich:
- Konversationsrichtlinien allein bieten keinen echten Schutz
- LLMs bewerten Formulierungen, nicht Sicherheitsrisiken
- Harmlos klingende Prozesssprache kann zu Datenlecks führen
- Metadaten offenzulegen kann bereits kritisch sein
- Prompt Injection bleibt ein reales, aktuelles Bedrohungsfeld
Sichere Systeme benötigen Schutz auf:
✔ Datenzugriffsebene
✔ Systemarchitektur
✔ Berechtigungsmodellen
nicht nur in der Chat-Antwortlogik.
🏁 Fazit
BankGPT ist ein hervorragender Praxis-Einstieg in:
- adversarielle Prompts
- Analyse von Konversationsangriffsflächen
- LLM-Missbrauchsszenarien
- moderne Sicherheitsfragen rund um KI-Systeme
Die Challenge fordert:
- kritisches Denken
- Kommunikationsbewusstsein
- Verständnis für menschliche & technische Sicherheitsfaktoren
und zeigt sehr anschaulich,
welche Risiken entstehen können, wenn KI-Systeme in operative Abläufe eingebunden werden.
👉 Raumlink zur Referenz:
https://tryhackme.com/room/bankgpt