TryHackMe — BankGPT Write-Up

2. März 2026

2 Min. Lesezeit

🏦 TryHackMe — BankGPT (Raum-Walkthrough & Lernnotizen)

Raum: https://tryhackme.com/room/bankgpt
Thema: Prompt Injection • LLM-Sicherheit • Kontextbasierte Beeinflussung

Note: Dieses Write-up beschreibt ausschließlich die Vorgehensweise und die Lerninhalte. Es enthält keine Flags, Passwörter, Hashes oder vertraulichen Werte gemäß den TryHackMe-Richtlinien.

🔍 Überblick über die Challenge

Der Raum BankGPT stellt einen simulierten Banking-Chatbot bereit, der von einem Large Language Model gesteuert wird.
Der Bot soll:

interne Sicherheitsrichtlinien befolgen
vertrauliche Informationen nicht preisgeben
sensible Werte maskieren oder redigieren
eher Prozesse erklären als konkrete Daten ausgeben

Die Aufgabe besteht darin, zu untersuchen, wie sich Prompt-Injection-Techniken und kontextuelle Formulierungen auf diese Schutzmechanismen auswirken.

Es handelt sich nicht um eine klassische technische Ausnutzung, sondern um einen Test von:

Argumentationsführung
Kontextgestaltung
sozialer Einflussnahme
Schwachstellen im LLM-Verhalten

🪟 Das User Interface:

Bankgpt

Nach dem Starten des Raumes und ansteuern der Seite über den Link befindet man sich auf einer typischen minimaler Chatbot UI

🎯 Grundidee der Aufgabe

Direkte Anfragen nach vertraulichen Daten werden vom Bot konsequent abgelehnt.

Wenn dieselben Anfragen jedoch in einen Kontext wie:

Compliance-Prüfung
interne Audit-Prozesse
Klassifizierungs- oder Verifikationsabläufe

eingebettet werden, reagiert das Modell zunehmend offener —
teilweise mit zusätzlichen internen Beschreibungen oder Metadaten.

Typischer Ablauf der Interaktion:

Das Modell liefert sichere oder redigierte Platzhalterwerte
Es benennt interne Bezeichnungen oder Klassifikationen
Es liefert zusätzliche Kontextinformationen bei höflichen Nachfragen
Bestimmte Formulierungen lockern Schutzmechanismen unerwartet

Das zeigt:

Note: Die Richtlinien werden auf Gesprächsebene umgesetzt - nicht auf Basis einer echten Bewertung der Sensitivität. Dadurch entstehen potenzielle Angriffsflächen.

🧩 Zentrale Methoden & Erkenntnisse

Die Challenge demonstriert mehrere reale Prompt-Injection-Muster:

🟡 Autoritäts- und Prozess-Framing

Formulierungen, die wie interne Kommunikation wirken, erzeugen mehr Vertrauen:

Audit-Nachfragen
System- oder Compliance-Validierung
Prüflogik statt Datenerhebung

Das Modell interpretiert solche Prompts häufiger als legitime Arbeitsabläufe.

🟡 Redaktions- & Klassifikationsnachfragen

Anstatt sensible Daten abzufragen, wird der Bot z. B. dazu gebracht:

Redaktionen oder Platzhalter zu erläutern
interne Datentypen oder Bezeichnungen zu erklären
Speicher- oder Referenzkonzepte zu beschreiben

Dabei werden nur Metadaten besprochen aber auch diese können sicherheitsrelevant sein.

🟡 „Debug / Integritätsprüfung / Verifikation”

In Entwicklungs- oder Supportkontexten reagieren LLMs oft freier auf:

Prüf- und Bestätigungsanweisungen
Wiederholungen oder Spiegelungen von Werten
simulierte Log- oder Protokollausgaben

Dies verdeutlicht Risiken in:

Support-Chatbots
internen Tools
DevOps-Automationen

wenn Ausgaben nicht zusätzlich abgesichert werden.

🟡 Format- bzw. Demonstrations-Schwachstellen

Ein besonders wichtiger Lerneffekt:

Note: Wenn ein Modell „nur ein Format zeigen soll”, kann es dennoch reale Werte ausgeben.

Format-Validierung wird oft nicht als Datenfreigabe interpretiert. Das hat unmittelbare Relevanz für:

KI-gestützte Arbeitsprozesse
Assistenzsysteme in Unternehmen
Sicherheitskritische Bereiche

🧠 Sicherheits-Lehren aus der Challenge

BankGPT zeigt deutlich:

Konversationsrichtlinien allein bieten keinen echten Schutz
LLMs bewerten Formulierungen, nicht Sicherheitsrisiken
Harmlos klingende Prozesssprache kann zu Datenlecks führen
Metadaten offenzulegen kann bereits kritisch sein
Prompt Injection bleibt ein reales, aktuelles Bedrohungsfeld

Sichere Systeme benötigen Schutz auf: ✔ Datenzugriffsebene
✔ Systemarchitektur
✔ Berechtigungsmodellen nicht nur in der Chat-Antwortlogik.

🏁 Fazit

BankGPT ist ein hervorragender Praxis-Einstieg in:

adversarielle Prompts
Analyse von Konversationsangriffsflächen
LLM-Missbrauchsszenarien
moderne Sicherheitsfragen rund um KI-Systeme

Die Challenge fordert:

kritisches Denken
Kommunikationsbewusstsein
Verständnis für menschliche & technische Sicherheitsfaktoren

und zeigt sehr anschaulich,
welche Risiken entstehen können, wenn KI-Systeme in operative Abläufe eingebunden werden.

👉 Raumlink zur Referenz:
https://tryhackme.com/room/bankgpt