Testdatengenerierung: KI simuliert hochsensible Testdaten

Beschreibung:

Banken und Versicherungen stehen vor der Herausforderung, Drittanbieter-Lösungen oder andere Software zu testen, ohne echte Kundendaten zu verwenden. Um dieses Problem zu lösen, wurde ein Datensatz mit synthetischen Dokumenten und Ausweisen erstellt. Diese Testdaten sind so gestaltet, dass sie erkennbar künstlich sind, aber dennoch verschiedene Eigenschaften für Systemtests abdecken. Dadurch können Unternehmen ihre Systeme und/oder Drittanbieter-Lösungen validieren, ohne Datenschutzrisiken einzugehen.

 

Einsatzbereich:

Alle Unternehmen, die Testdaten zur Überprüfung von Systemen benötigen, insbesondere Banken und Versicherungen.


Technologie:

Primär wurden statistische Methoden genutzt, um möglichst realistische Daten zu erzeugen. Durch diverse Computer Vision Methoden, werden die Dokumente (Formulare + Ausweise) befüllt, und mit realistischen Scan-Verzerrungen belegt.

 

Funktionsweise:

Es werden synthetische Testdaten generiert, die realistischen Dokumenten nachempfunden sind und durch echten Datensätze erlernt werden. Durch diverse Computer Vision Methoden, werden die Dokumente (Formulare + Ausweise) befüllt, und mit realistischen Scan-Verzerrungen belegt.

Bei Ausweisen wurden einige Details eingefügt, um diese für Menschen direkt als Unecht zu kennzeichnen, um keine Dokumentenfälschung zu riskieren. Die synthetischen Daten ermöglichen Systemtests ohne den Einsatz echter personenbezogener Informationen.

 

Herausforderungen & Bewältigung dieser:

Eine zentrale Herausforderung war es, sicherzustellen, dass die erstellten Dokumente möglichst realistisch sind und auch alle potenziellen Testfälle abdeckt. Außerdem mussten Ausweise angepasst werden, damit diese nicht als echte Urkunden missverstanden werden.

Ansprechpartner:

Eva Klamroth | 
CodeCamp:N

eva.klamroth@codecamp-n.com