Publiziert am:

20.5.2026

KI-Datenarchitektur im Vergabewesen erklärt | Leto

Inhaltsverzeichnis

Datenarchitektur und Training von KI-Systemen im öffentlichen Vergabewesen: Ein technischer Deep-Dive für Entscheider

Du stehst an einem Punkt, an dem du realisierst: Manuelle Recherche ist nicht mehr skalierbar. Die Flut an öffentlichen Ausschreibungen in Deutschland ist gewaltig, die Datenquellen sind fragmentiert, und die Zeitfenster für Entscheidungen werden immer kürzer. Wenn du aktuell KI-Lösungen evaluierst, um deine Akquise zu optimieren, stellst du dir sicher nicht nur die Frage, was die KI kann, sondern wie sie es tut. Ist die Datenbasis valide? Ist die Architektur sicher? Und vor allem: Versteht das Modell wirklich den Kontext einer komplexen Bauausschreibung?

In diesem Artikel öffnen wir die Motorhaube. Wir schauen uns die kritische Infrastruktur an, die notwendig ist, um aus einem Chaos von über 200 Vergabeplattformen und unzähligen PDF-Dokumenten präzise Geschäftschancen zu generieren. Wir sprechen über Datenarchitektur, Modell-Training und die Compliance-Hürden, die eine professionelle Lösung heute meistern muss.

Die Herausforderung: Fragmentierte Datenlandschaften in Deutschland

Bevor wir über Künstliche Intelligenz sprechen, müssen wir über Daten sprechen. Das öffentliche Vergabewesen in Deutschland ist föderalistisch geprägt. Das bedeutet für dich als Nutzer oft: Hunderte verschiedene Portale, veraltete Server-Strukturen und eine wilde Mischung aus Datenformaten.

Eine KI, die hier verlässliche Ergebnisse liefern soll, steht vor drei massiven Hürden:

Format-Diversität: Ausschreibungen kommen als strukturierte XML-Daten, als HTML-Webseiten, aber sehr oft auch als eingescannte PDFs („tote Daten“), die für herkömmliche Algorithmen unsichtbar sind.
Silo-Strukturen: Es gibt keine zentrale, saubere Datenbank ("Single Source of Truth"). Die Daten müssen mühsam aggregiert werden.
Vokabular: Das „Beamtendeutsch“ in Vergabeunterlagen ist hochspezifisch. Ein generisches Sprachmodell versteht den Unterschied zwischen einer „Planungsleistung“ und einer „Bauleistung“ im vergaberechtlichen Sinne oft nicht präzise genug.

Genau hier trennt sich die Spreu vom Weizen bei den Software-Anbietern. Eine exzellente Lösung wie Leto AI beginnt nicht beim Algorithmus, sondern bei der Daten-Ingestion.

Architektur-Blueprint: Von der Rohdaten-Gewinnung zur strukturierten Erkenntnis

Wie baut man eine Architektur, die diese Komplexität bewältigt? Es reicht nicht, einfach einen Crawler loszuschicken. Eine moderne Datenarchitektur für öffentliche Ausschreibungen muss wie eine Raffinerie funktionieren: Rohöl (Datenmüll) geht rein, hochoktaniger Treibstoff (relevante Leads) kommt raus.

Der Prozess der Datenveredelung

Der kritische erste Schritt ist die Normalisierung. Egal ob die Quelle ein XML-Feed aus Bayern oder ein PDF aus Nordrhein-Westfalen ist – das System muss diese Daten in ein einheitliches Schema überführen.

Diese Architektur, wie wir sie oben sehen, setzt auf mehrere Layer:

Ingestion Layer (Erfassung): Hier arbeiten spezialisierte Scraper, die robust gegen Ausfälle einzelner Vergabeplattformen sind. Sie müssen in der Lage sein, CAPTCHAs zu handhaben und sich an ändernde Webseiten-Strukturen anzupassen.
Processing Layer (Verarbeitung): Hier passiert die Magie. OCR (Optical Character Recognition) wandelt Bild-PDFs in Text um. NLP (Natural Language Processing) analysiert die Struktur: Wo steht die Frist? Wo sind die Eignungskriterien?
Integration Layer (Harmonisierung): Alle Daten fließen in einen "Data Lake", werden bereinigt und dedupliziert. Denn nichts ist ärgerlicher für dich, als dieselbe Ausschreibung dreimal in der Inbox zu haben.

Für dich als Entscheider bedeutet das: Frage Anbieter, wie sie mit nicht-maschinenlesbaren Formaten umgehen. Wenn die Antwort vage bleibt, riskierst du, bis zu 40% der relevanten Ausschreibungen zu übersehen.

Das Training der KI: Warum generische Modelle scheitern

Viele Unternehmen versuchen heute, einfach ChatGPT auf ihre Daten loszulassen. Im Kontext öffentlicher Ausschreibungen ist das riskant. Warum? Weil generische Modelle dazu neigen, plausibel klingende, aber faktisch falsche Antworten zu geben (Halluzinationen).

Für eine Anwendung wie Leto AI, die dir Entscheidungssicherheit geben muss, ist ein Domain-Specific Training unerlässlich. Das Modell muss nicht wissen, wie man ein Gedicht schreibt, aber es muss die VOB/A (Vergabe- und Vertragsordnung für Bauleistungen) im Schlaf beherrschen.

Trainingsmethodik und Datenqualität

Qualität schlägt Quantität. Es geht nicht darum, Terabytes an Text in das Modell zu kippen, sondern hochwertige, annotierte Datensätze zu verwenden.

Ein robuster Trainingsprozess umfasst:

Supervised Learning mit Experten: Fachexperten (Architekten, Ingenieure, Vergaberechtler) bewerten die Outputs der KI und korrigieren sie. Dieser "Human-in-the-Loop"-Ansatz sorgt dafür, dass die KI lernt, wie ein Branchenprofi zu denken.
Vektorisierung für semantische Suche: Anstatt nur nach Stichworten wie "Schulsanierung" zu suchen, versteht die KI den Kontext. Sie findet auch Ausschreibungen, die von "Bildungsbauten" oder "pädagogischen Einrichtungen" sprechen, selbst wenn dein Suchbegriff nicht exakt vorkommt.
Aktualisierungszyklen: Das Vergaberecht ändert sich. Ein Modell, das vor zwei Jahren trainiert wurde, ist heute veraltet. Kontinuierliches "Fine-Tuning" ist Pflicht.

Cloud-Infrastruktur vs. On-Premise: Die Frage der Skalierbarkeit

Wenn du eine SaaS-Lösung evaluierst, ist die zugrundeliegende Infrastruktur entscheidend für Performance und Sicherheit. Gerade im öffentlichen Sektor gibt es oft Vorbehalte gegenüber der Cloud. Doch moderne KI-Systeme benötigen enorme Rechenleistung (GPU-Cluster), die On-Premise kaum wirtschaftlich abzubilden ist.

‍

Die Grafik zeigt deutlich: Für die Analyse von Millionen Dokumenten in Echtzeit ist eine Cloud-Native Architektur überlegen. Sie skaliert automatisch. Wenn am Montagmorgen 5.000 neue Ausschreibungen gleichzeitig veröffentlicht werden, fährt das System die Ressourcen hoch, damit deine Analyse trotzdem in unter 5 Minuten fertig ist.

Sicherheit wird dabei durch Hybrid-Ansätze gewährleistet: Die Verarbeitung der öffentlichen Daten erfolgt in der Cloud (oft auf Servern in Frankfurt/Deutschland für DSGVO-Konformität), während deine sensiblen Nutzerprofile und internen Notizen streng isoliert und verschlüsselt gespeichert werden.

‍

Governance und der EU AI Act: Vertrauen ist gut, Kontrolle ist besser

Mit dem Inkrafttreten des EU AI Act werden die Anforderungen an KI-Systeme strenger. Für dich als Anwender bedeutet das: Du musst sicher sein, dass das Tool, das du nutzt, regelkonform ist. Transparenz ist hier keine Option, sondern Pflicht.

Explainable AI (XAI) im Vergabeprozess

Es reicht nicht mehr, dass die KI sagt: "Bewirb dich hier." Sie muss erklären können: "Ich empfehle diese Ausschreibung, weil die geforderten Referenzen zu 95% mit deinem Profil übereinstimmen und die Frist noch 14 Tage beträgt."

Diese Governance-Checkliste ist dein Werkzeug zur Anbieter-Prüfung. Achte auf:

Daten-Herkunft (Lineage): Kann der Anbieter nachweisen, woher die Trainingsdaten stammen?
Bias-Prüfung: Wurde das Modell darauf getestet, bestimmte Regionen oder Auftragsarten nicht systematisch zu benachteiligen?
DSGVO-Konformität: Werden personenbezogene Daten (z.B. Namen von Sachbearbeitern in den Vergabeunterlagen) korrekt verarbeitet?

Bei Leto AI ist diese Governance tief in die Produkt-DNA eingebrannt. Wir verstehen, dass unsere Kunden oft selbst im regulierten Umfeld arbeiten und Compliance-Sicherheit benötigen.

Häufig gestellte Fragen (FAQ)

1. Lernt die KI aus meinen Suchanfragen und gibt dieses Wissen an Konkurrenten weiter?Nein. In einer professionellen Enterprise-Architektur gibt es eine strikte Trennung (Mandantentrennung). Deine Suchprofile, Favoriten und Analysen werden nicht genutzt, um das globale Modell zu trainieren, das anderen zur Verfügung steht. Deine Strategie bleibt dein Geheimnis.

2. Wie aktuell sind die Daten wirklich?Durch moderne Scraper-Technologien und API-Anbindungen erreichen wir eine Latenzzeit nahe Null. Sobald eine Ausschreibung auf einer der 200+ Quell-Plattformen veröffentlicht wird, wird sie vom System erkannt, prozessiert und steht dir in der Regel innerhalb weniger Minuten zur Verfügung.

3. Kann die KI auch komplexe technische Anforderungen in PDFs lesen?Ja, das ist der entscheidende Unterschied zu einfachen Suchmaschinen. Durch den Einsatz von OCR und NLP können auch unstrukturierte Daten in Tabellen oder Fließtexten innerhalb von Scans ausgelesen und semantisch verstanden werden.

4. Ist die Nutzung cloud-basierter KI im öffentlichen Sektor erlaubt?Ja, sofern die Serverstandorte und Verarbeitungsrichtlinien der DSGVO entsprechen. Leto AI hostet beispielsweise in Deutschland und erfüllt höchste Sicherheitsstandards, was die Nutzung auch für öffentliche Auftraggeber und deren Partner sicher macht.

Fazit: Die Architektur entscheidet über deinen Wettbewerbsvorteil

Die Wahl der richtigen Software für das Ausschreibungsmanagement ist mehr als ein Feature-Vergleich. Es ist eine Entscheidung über die technologische Basis deines zukünftigen Geschäftserfolgs.

Eine robuste Datenarchitektur, wie wir sie bei Leto AI implementiert haben, garantiert dir drei Dinge:

Vollständigkeit: Du verpasst keine Chance, weil ein PDF nicht lesbar war.
Geschwindigkeit: Du bist der Erste, der von einer passenden Ausschreibung erfährt.
Sicherheit: Du agierst auf einer Plattform, die technisch und rechtlich auf dem neuesten Stand ist.

Wenn du bereit bist, deine Akquise von manueller Arbeit auf intelligente Automatisierung umzustellen, dann achte auf das Fundament. Denn KI ist nur so gut wie die Architektur, auf der sie läuft.