KI-gestützte automatische Quellcodedokumentation mit privaten LLMs

Ein privates KI-gestütztes System zur Dokumentationsgenerierung, das entwickelt wurde, um große proprietäre Codebasen automatisch zu dokumentieren.

KI-gestützte automatische Quellcodedokumentation mit privaten LLMs hero background

Über unseren Kunden

Unser Kunde verfügte über ein Enterprise-Softwaresystem, das überwiegend in Java und JavaScript entwickelt wurde. Im Laufe der Zeit wuchs die Anzahl der Quellcodedateien auf mehrere Tausend an, ohne dass eine ausreichende technische Dokumentation erstellt wurde.

Das Fehlen einer standardisierten Dokumentation erschwerte die Einarbeitung neuer Mitarbeitender, die technische Wartung, Compliance-Anfragen sowie den langfristigen Support erheblich. Da die Codebasis proprietäre Geschäftslogik enthielt, konnte der Kunde keine externen cloudbasierten KI-Dienste nutzen und benötigte eine vollständig private Lösung innerhalb einer kontrollierten Infrastruktur.

  • Region: Europa
  • Branche: Enterprise-Softwareentwicklung
  • Projektlaufzeit: ca. 2 Monate
Über unseren Kunden

Herausforderung

Die Erstellung und Pflege technischer Dokumentation für komplexe Softwaresysteme ist bei manueller Umsetzung in der Regel mit erheblichem Zeit- und Kostenaufwand verbunden. Im Rahmen des Projekts mussten wir insbesondere folgende Herausforderungen bewältigen:

  • Große Anzahl nicht dokumentierter Quellcodedateien (ca. 3.100)
  • Hoher Engineering-Aufwand für die manuelle Erstellung der Dokumentation
  • Erforderliches präzises Verständnis der Geschäftslogik in Java- und JavaScript-Anwendungen
  • Strenge Vertraulichkeitsanforderungen für proprietären Quellcode
  • Notwendigkeit, Infrastruktur- und Inferenzkosten für KI möglichst gering zu halten
  • Bedarf an einer einheitlichen Dokumentationsstruktur über alle Repositories hinweg
Herausforderung

Hauptziele

Um die Dokumentationsprozesse zu automatisieren und gleichzeitig Sicherheit sowie Kosteneffizienz sicherzustellen, definierten wir folgende Ziele:

  • Automatische Generierung technischer Dokumentation für Java- und JavaScript-Codebasen
  • Vollständig private und lokal gehostete KI-Verarbeitung ohne Nutzung externer Cloud-Dienste
  • Minimierung von Infrastruktur- und Inferenzkosten
  • Unterstützung skalierbarer Batch-Verarbeitung für Tausende von Dateien
  • Verbesserung von Wartbarkeit und Entwickler-Onboarding
  • Standardisierung von Dokumentationsqualität und Formatierung gemäß Best Practices wie Javadoc und JSDoc
Hauptziele

Projektübersicht

Wir entwickelten eine KI-gestützte Plattform zur automatischen Dokumentationsgenerierung, die große proprietäre Code-Repositories analysieren und strukturierte technische Dokumentation automatisch erstellen kann.

Das System verarbeitete Java- (Spring Boot) und JavaScript-Code (React), extrahierte semantische und architektonische Informationen und erzeugte entwicklerorientierte Dokumentation mithilfe auf Quellcode spezialisierter LLM-Modelle.

Um vollständige Vertraulichkeit sicherzustellen, wurde die gesamte Lösung auf einer privaten GPU-Infrastruktur betrieben. Für die lokale Bereitstellung und Ausführung der Modelle kam Ollama zum Einsatz. Die Verarbeitungspipeline wurde für hochvolumige Inferenz optimiert, sodass große Mengen an Quellcodedateien effizient verarbeitet werden konnten, während die Betriebskosten unter Kontrolle blieben.

Projektübersicht

Lösung

Die entwickelte Lösung führte einen sicheren und skalierbaren Workflow zur automatischen Generierung von Quellcodedokumentation mithilfe privater LLMs ein.

Die Plattform verarbeitet Repositories im Batch-Verfahren, analysiert Klassen, Methoden, Abhängigkeiten und Geschäftslogik und erstellt daraus gut lesbare Dokumentationen für interne Wissensdatenbanken und Entwicklungsteams.

Hauptfunktionen der Plattform

  • Automatische Generierung technischer Dokumentation für Java- und JavaScript-Projekte
  • Lokale Bereitstellung privater LLMs ohne Abhängigkeit von Drittanbieter-APIs
  • Batch-Verarbeitung für Tausende von Quellcodedateien
  • Strukturierte und konsistente Ausgabe technischer Dokumentation
  • GPU-beschleunigte Inferenz mit Fokus auf Kosteneffizienz
  • Sichere Verarbeitung proprietärer Enterprise-Codebasen
Lösung

Technologie-Stack

Für die sichere und skalierbare Dokumentationsgenerierung in privaten Repositories setzten wir eine KI-orientierte Infrastruktur ein:

  • Infrastruktur: Serverumgebung mit NVIDIA-H100-GPU
  • LLM-Laufzeitumgebung: Ollama für privates/lokales Model Serving
  • KI-Modelle: Qwen2.5 Coder für Quellcodeanalyse und Dokumentationsgenerierung
  • Verarbeitungspipeline: Automatisiertes Quellcode-Parsing und Batch-Workflows zur Dokumentationserstellung
Technologie-Stack

Kernteam

  • Solution Architect: Entwarf die private KI-Infrastruktur und die Workflows zur Dokumentationsgenerierung.
  • AI Engineers: Integrierten codeorientierte LLMs und optimierten die Inferenz-Pipelines.
  • Backend Engineers: Implementierten Parsing- und Batch-Verarbeitungsservices.
  • DevOps Engineers: Konfigurierten die GPU-Infrastruktur und die lokale Modellbereitstellung.
  • QA Engineers: Validierten die Dokumentationsqualität und die Konsistenz der Verarbeitung.
Kernteam

Zugehörige Fallbeispiele