DokumentenmanagementKIOpen SourceLLMPython

AIDocSynth – Intelligente Dokumenten-Assistentin für Ordnung ohne Aufwand

AIDocSynth automatisiert die Dokumentenablage nach MIT-Standards. Lokale KI-Klassifizierung, Offline-fähig, open source. Entwickelt für Konsistenz und Datenschutz.

Ich habe AIDocSynth entwickelt, um ein alltägliches und nerviges Problem zu lösen: die manuelle Ablage von Dokumenten. Das Tool liest PDFs, gescannte Belege oder Office-Dateien ein, benennt sie nach klaren Regeln um und sortiert sie vollautomatisch in bestehende Ordnerstrukturen.

Die Logik basiert auf der Methode Data Management: File Organization der MIT Libraries. Diese Methode ist wissenschaftlich fundiert und wird von zahlreichen Universitäten eingesetzt. Mein Fokus lag darauf, das Tool so zu optimieren, dass es selbst mit ressourcensparenden, lokalen Sprachmodellen wie Mistral Nemo präzise und offline funktioniert.

„Ich schiebe nur noch die PDFs in das Feld. Sekunden später ist alles sortiert.“ (Feedback eines Beta-Testers)

Warum ich AIDocSynth gebaut habe

Dokumente sammeln sich unaufhaltsam an. Rechnungen, Verträge, Notizen, alles landet irgendwo digital verstreut. Die manuelle Ablage kostet Zeit und führt fast zwangsläufig zu Inkonsistenzen. Ich wollte ein Tool, das diese Aufgabe übernimmt, ohne dass sensible Daten zwangsläufig in die Cloud geschickt werden müssen.

AIDocSynth ist die Lösung:

  • Lokal: Läuft auf dem eigenen Rechner.
  • Plattformunabhängig: Windows, Mac, Linux.
  • Open Source: Transparenter Code.

Die MIT Libraries empfehlen eine hierarchische Ordnerstruktur mit klaren Benennungsregeln. Diese Prinzipien sind empirisch validiert und erleichtern das Wiederfinden von Daten enorm. AIDocSynth wendet genau diese Regeln an: Es erkennt Inhalte, kategorisiert sie (breite Kategorien oben, spezifische unten) und schreibt relevante Metadaten direkt in den Dateinamen.

Wie AIDocSynth funktioniert

Die Architektur ist modular aufgebaut und besteht aus drei Hauptkomponenten: einer Drag-and-Drop-Oberfläche (GUI), einer Verarbeitungs-Pipeline im Hintergrund und einer Abstraktionsschicht für die Anbindung verschiedener Sprachmodelle.

Ein modernes technisches Architekturdiagramm von AIDocSynth, das den Datenfluss von links nach rechts zeigt. Es beginnt bei der GUI-Eingabe (DropArea) und führt in einen zentralen asynchronen Worker-Thread. Dieser durchläuft fünf Pipeline-Schritte: Backup, OCR-Textextraktion, LLM-Klassifizierung (mit Abzweigung zu lokalen/Cloud-Providern), Datei-Operationen und Metadaten-Schreiben. Der Prozess endet rechts in einer hierarchischen Dateisystem-Ausgabe, während Status-Updates via Qt Signals an das JobTableModel zurückgemeldet werden.

Die Pipeline führt folgende Schritte vollautomatisch aus:

  1. Backup: Sicherung der Originaldatei vor jeder Änderung.
  2. Textextraktion: Nutzung von OCR (Optical Character Recognition), als ergänzung oder falls kein Textlayer vorhanden ist.
  3. Klassifizierung: Analyse des Inhalts durch ein Sprachmodell (LLM).
  4. Operation: Umbenennung und Verschiebung basierend auf dem Regelwerk.
  5. Metadaten: Schreibe von Tags unter weiteren Informationen in die Dateieigenschaften.

Entwickler können dank Pydantic-Modellen und strikter Datenvalidierung eigene Provider für Sprachmodelle einbinden. Die Benutzeroberfläche basiert auf Qt und reagiert in Echtzeit über asynchrone Signals, damit die UI während der Verarbeitung nicht einfriert.

Effizienz durch Prompt-Engineering: Warum kleine Modelle reichen

Ein weit verbreiteter Irrtum ist, dass man für gute Ergebnisse immer die größten und teuersten KI-Modelle benötigt. Zwar verfügen riesige Modelle über ein breiteres Weltwissen, doch für spezifische Aufgaben wie die Dokumentensortierung ist dies oft nicht notwendig.

Ich habe signifikante Arbeit in das Prompt-Engineering gesteckt, um AIDocSynth auch für kleinere Modelle zu optimieren.

  • Der Ansatz: Anstatt sich auf die rohe Rechenkraft riesiger Modelle zu verlassen, nutze ich präzise, kontextsensitive Prompts, die das Modell strikt anleiten.
  • Das Ergebnis: Kompakte Modelle wie Mistral Nemo oder Mistral Small 3.2 liefern exzellente Ergebnisse.
  • Der Vorteil: Diese Modelle benötigen deutlich weniger RAM und GPU-Ressourcen. Sie laufen auch auf durchschnittlichen Laptops flüssig und sind oft schneller als ihre großen “Geschwister”, da weniger Parameter berechnet werden müssen.

Die Abstraktionsschicht unterstützt dabei flexibel verschiedene Provider: OpenAI und Azure OpenAI für Cloud-Nutzer, sowie Ollama für die komplett lokale Offline-Nutzung.

Einrichtung und Nutzung

AIDocSynth ist so konzipiert, dass es auch ohne Programmierkenntnisse genutzt werden kann:

  1. Download des Installers oder Release-ZIPs von GitHub.
  2. Entpacken/Installieren.
  3. Anwendung starten und Dateien per Drag-and-Drop hineinziehen.

Für Entwickler (Setup)

Wer den Code anpassen möchte, kann das Repository klonen:

git clone [https://github.com/tobit0101/AIDocSynth.git](https://github.com/tobit0101/AIDocSynth.git) && cd AIDocSynth
python -m venv .venv && source .venv/bin/activate  # bzw. .venv\Scripts\activate unter Windows
pip install -r requirements.txt
python -m aidocsynth.app

Code: Tobias Müller, ispringen.dev

Die Codebasis enthält eine pytest-Testsuite, die Smoke-Tests, Feature-Tests und End-to-End-Tests (mit laufendem Ollama-Server) abdeckt. Die Struktur trennt sauber zwischen Anwendungslogik (aidocsynth/), Tests (tests/) und Build-Skripten (build/).

Architektur und Roadmap

Der technische Ablauf im Detail:

  1. Die DropArea nimmt Dateipfade entgegen und erstellt ein Job-Objekt.
  2. Ein Worker-Thread arbeitet die Pipeline asynchron ab, um die GUI nicht zu blockieren.
  3. Die Provider-Schicht normalisiert die Antworten verschiedener LLMs.
  4. Das JobTableModel aktualisiert den Status in der Tabelle via Qt Signals.

Aktueller Status & Pläne:

  • ✅ MVP mit OpenAI-Workflow und Basis-GUI
  • ✅ Job History (aktive und abgeschlossene Prozesse)
  • 🚧 Vollständige Testabdeckung (in Arbeit)
  • 📅 Wizard für die Ersteinrichtung (geplant)
  • 📅 “Watch Folder”-Funktion für automatische Überwachung (geplant)

Zudem ist ein Plugin-System geplant, damit Nutzer eigene Prompts und Metadaten-Schemas definieren können, sowie eine Mehrsprachigkeit der UI.

Sicherheit und Privatsphäre

In einer Zeit, in der Daten das neue Gold sind, ist AIDocSynth auf Datensparsamkeit ausgelegt.

  • Lokale OCR: Die Texterkennung erfolgt on-device mit doctr.
  • Kein Cloud-Zwang: Es sind keine Uploads nötig, wenn man einen lokalen LLM-Provider (via Ollama) nutzt.
  • Wahlfreiheit: Der Nutzer entscheidet selbst, ob er die Bequemlichkeit der Cloud oder die Sicherheit lokaler Modelle bevorzugt.

Quellen

So zitierst du mich

Tobias Müller (2026): AIDocSynth – Intelligente Dokumenten-Assistentin für Ordnung ohne Aufwand. https://ispringen.dev – Bitte mit Namensnennung „Tobias Müller, ispringen.dev“.

Kontakt und Community

Ich stehe gerne für Fragen und Diskussionen zur Verfügung. Die beste Anlaufstelle ist das GitHub-Repository, wo Issues und Diskussionen geführt werden.