KI-gestützte automatische Quellcodedokumentation mit privaten LLMs

Ein privates KI-gestütztes System zur Dokumentationsgenerierung, das entwickelt wurde, um große proprietäre Codebasen automatisch zu dokumentieren.

Über unseren Kunden

Unser Kunde verfügte über ein Enterprise-Softwaresystem, das überwiegend in Java und JavaScript entwickelt wurde. Im Laufe der Zeit wuchs die Anzahl der Quellcodedateien auf mehrere Tausend an, ohne dass eine ausreichende technische Dokumentation erstellt wurde.

Das Fehlen einer standardisierten Dokumentation erschwerte die Einarbeitung neuer Mitarbeitender, die technische Wartung, Compliance-Anfragen sowie den langfristigen Support erheblich. Da die Codebasis proprietäre Geschäftslogik enthielt, konnte der Kunde keine externen cloudbasierten KI-Dienste nutzen und benötigte eine vollständig private Lösung innerhalb einer kontrollierten Infrastruktur.

Region: Europa
Branche: Enterprise-Softwareentwicklung
Projektlaufzeit: ca. 2 Monate

Herausforderung

Die Erstellung und Pflege technischer Dokumentation für komplexe Softwaresysteme ist bei manueller Umsetzung in der Regel mit erheblichem Zeit- und Kostenaufwand verbunden. Im Rahmen des Projekts mussten wir insbesondere folgende Herausforderungen bewältigen:

Große Anzahl nicht dokumentierter Quellcodedateien (ca. 3.100)
Hoher Engineering-Aufwand für die manuelle Erstellung der Dokumentation
Erforderliches präzises Verständnis der Geschäftslogik in Java- und JavaScript-Anwendungen
Strenge Vertraulichkeitsanforderungen für proprietären Quellcode
Notwendigkeit, Infrastruktur- und Inferenzkosten für KI möglichst gering zu halten
Bedarf an einer einheitlichen Dokumentationsstruktur über alle Repositories hinweg

Hauptziele

Um die Dokumentationsprozesse zu automatisieren und gleichzeitig Sicherheit sowie Kosteneffizienz sicherzustellen, definierten wir folgende Ziele:

Automatische Generierung technischer Dokumentation für Java- und JavaScript-Codebasen
Vollständig private und lokal gehostete KI-Verarbeitung ohne Nutzung externer Cloud-Dienste
Minimierung von Infrastruktur- und Inferenzkosten
Unterstützung skalierbarer Batch-Verarbeitung für Tausende von Dateien
Verbesserung von Wartbarkeit und Entwickler-Onboarding
Standardisierung von Dokumentationsqualität und Formatierung gemäß Best Practices wie Javadoc und JSDoc

Projektübersicht

Wir entwickelten eine KI-gestützte Plattform zur automatischen Dokumentationsgenerierung, die große proprietäre Code-Repositories analysieren und strukturierte technische Dokumentation automatisch erstellen kann.

Das System verarbeitete Java- (Spring Boot) und JavaScript-Code (React), extrahierte semantische und architektonische Informationen und erzeugte entwicklerorientierte Dokumentation mithilfe auf Quellcode spezialisierter LLM-Modelle.

Um vollständige Vertraulichkeit sicherzustellen, wurde die gesamte Lösung auf einer privaten GPU-Infrastruktur betrieben. Für die lokale Bereitstellung und Ausführung der Modelle kam Ollama zum Einsatz. Die Verarbeitungspipeline wurde für hochvolumige Inferenz optimiert, sodass große Mengen an Quellcodedateien effizient verarbeitet werden konnten, während die Betriebskosten unter Kontrolle blieben.

Lösung

Die entwickelte Lösung führte einen sicheren und skalierbaren Workflow zur automatischen Generierung von Quellcodedokumentation mithilfe privater LLMs ein.

Die Plattform verarbeitet Repositories im Batch-Verfahren, analysiert Klassen, Methoden, Abhängigkeiten und Geschäftslogik und erstellt daraus gut lesbare Dokumentationen für interne Wissensdatenbanken und Entwicklungsteams.

Hauptfunktionen der Plattform

Automatische Generierung technischer Dokumentation für Java- und JavaScript-Projekte
Lokale Bereitstellung privater LLMs ohne Abhängigkeit von Drittanbieter-APIs
Batch-Verarbeitung für Tausende von Quellcodedateien
Strukturierte und konsistente Ausgabe technischer Dokumentation
GPU-beschleunigte Inferenz mit Fokus auf Kosteneffizienz
Sichere Verarbeitung proprietärer Enterprise-Codebasen

Technologie-Stack

Für die sichere und skalierbare Dokumentationsgenerierung in privaten Repositories setzten wir eine KI-orientierte Infrastruktur ein:

Infrastruktur: Serverumgebung mit NVIDIA-H100-GPU
LLM-Laufzeitumgebung: Ollama für privates/lokales Model Serving
KI-Modelle: Qwen2.5 Coder für Quellcodeanalyse und Dokumentationsgenerierung
Verarbeitungspipeline: Automatisiertes Quellcode-Parsing und Batch-Workflows zur Dokumentationserstellung

Ergebnisse

Die KI-gestützte Dokumentationsplattform reduzierte den manuellen Aufwand erheblich und verbesserte die Wartbarkeit innerhalb des Engineering-Ökosystems des Kunden. Konkret erreichten wir:

● Automatische Dokumentationsgenerierung für mehr als 3.100 Quellcodedateien

● Weniger Engineering-Zeitaufwand für manuelle technische Dokumentation

● Vollständig privater KI-Workflow ohne externe Offenlegung proprietären Codes

● Kosteneffiziente Inferenz durch lokale GPU-Infrastruktur

● Verbessertes Onboarding und langfristig höhere Wartbarkeit der Enterprise-Systeme

Kernteam

Solution Architect: Entwarf die private KI-Infrastruktur und die Workflows zur Dokumentationsgenerierung.
AI Engineers: Integrierten codeorientierte LLMs und optimierten die Inferenz-Pipelines.
Backend Engineers: Implementierten Parsing- und Batch-Verarbeitungsservices.
DevOps Engineers: Konfigurierten die GPU-Infrastruktur und die lokale Modellbereitstellung.
QA Engineers: Validierten die Dokumentationsqualität und die Konsistenz der Verarbeitung.

Zugehörige Fallbeispiele

Entwicklung einer KI-gestützten News-Monitoring-Plattform

Entwicklung eines KI-gestützten CV-Bewertungssystems

Alle Projekte anzeigen

Benötigen sie unterstützung bei einem ähnlichen projekt?

Kontakt