AIDocSynth – Intelligente Dokumenten-Assistentin für Ordnung ohne Aufwand
AIDocSynth automatisiert die Dokumentenablage nach MIT-Standards. Lokale KI-Klassifizierung, Offline-fähig, open source. Entwickelt für Konsistenz und Datenschutz.
AIDocSynth automatisiert die Dokumentenablage nach MIT-Standards. Lokale KI-Klassifizierung, Offline-fähig, open source. Entwickelt für Konsistenz und Datenschutz.
Ich habe AIDocSynth entwickelt, um ein alltägliches und nerviges Problem zu lösen: die manuelle Ablage von Dokumenten. Das Tool liest PDFs, gescannte Belege oder Office-Dateien ein, benennt sie nach klaren Regeln um und sortiert sie vollautomatisch in bestehende Ordnerstrukturen.
Die Logik basiert auf der Methode Data Management: File Organization der MIT Libraries. Diese Methode ist wissenschaftlich fundiert und wird von zahlreichen Universitäten eingesetzt. Mein Fokus lag darauf, das Tool so zu optimieren, dass es selbst mit ressourcensparenden, lokalen Sprachmodellen wie Mistral Nemo präzise und offline funktioniert.
„Ich schiebe nur noch die PDFs in das Feld. Sekunden später ist alles sortiert.“ (Feedback eines Beta-Testers)
Dokumente sammeln sich unaufhaltsam an. Rechnungen, Verträge, Notizen, alles landet irgendwo digital verstreut. Die manuelle Ablage kostet Zeit und führt fast zwangsläufig zu Inkonsistenzen. Ich wollte ein Tool, das diese Aufgabe übernimmt, ohne dass sensible Daten zwangsläufig in die Cloud geschickt werden müssen.
AIDocSynth ist die Lösung:
Die MIT Libraries empfehlen eine hierarchische Ordnerstruktur mit klaren Benennungsregeln. Diese Prinzipien sind empirisch validiert und erleichtern das Wiederfinden von Daten enorm. AIDocSynth wendet genau diese Regeln an: Es erkennt Inhalte, kategorisiert sie (breite Kategorien oben, spezifische unten) und schreibt relevante Metadaten direkt in den Dateinamen.
Die Architektur ist modular aufgebaut und besteht aus drei Hauptkomponenten: einer Drag-and-Drop-Oberfläche (GUI), einer Verarbeitungs-Pipeline im Hintergrund und einer Abstraktionsschicht für die Anbindung verschiedener Sprachmodelle.

Die Pipeline führt folgende Schritte vollautomatisch aus:
Entwickler können dank Pydantic-Modellen und strikter Datenvalidierung eigene Provider für Sprachmodelle einbinden. Die Benutzeroberfläche basiert auf Qt und reagiert in Echtzeit über asynchrone Signals, damit die UI während der Verarbeitung nicht einfriert.
Ein weit verbreiteter Irrtum ist, dass man für gute Ergebnisse immer die größten und teuersten KI-Modelle benötigt. Zwar verfügen riesige Modelle über ein breiteres Weltwissen, doch für spezifische Aufgaben wie die Dokumentensortierung ist dies oft nicht notwendig.
Ich habe signifikante Arbeit in das Prompt-Engineering gesteckt, um AIDocSynth auch für kleinere Modelle zu optimieren.
Die Abstraktionsschicht unterstützt dabei flexibel verschiedene Provider: OpenAI und Azure OpenAI für Cloud-Nutzer, sowie Ollama für die komplett lokale Offline-Nutzung.
AIDocSynth ist so konzipiert, dass es auch ohne Programmierkenntnisse genutzt werden kann:
Wer den Code anpassen möchte, kann das Repository klonen:
git clone [https://github.com/tobit0101/AIDocSynth.git](https://github.com/tobit0101/AIDocSynth.git) && cd AIDocSynth
python -m venv .venv && source .venv/bin/activate # bzw. .venv\Scripts\activate unter Windows
pip install -r requirements.txt
python -m aidocsynth.app
Code: Tobias Müller, ispringen.dev
Die Codebasis enthält eine pytest-Testsuite, die Smoke-Tests, Feature-Tests und End-to-End-Tests (mit laufendem Ollama-Server) abdeckt. Die Struktur trennt sauber zwischen Anwendungslogik (aidocsynth/), Tests (tests/) und Build-Skripten (build/).
Der technische Ablauf im Detail:
DropArea nimmt Dateipfade entgegen und erstellt ein Job-Objekt.Worker-Thread arbeitet die Pipeline asynchron ab, um die GUI nicht zu blockieren.Provider-Schicht normalisiert die Antworten verschiedener LLMs.JobTableModel aktualisiert den Status in der Tabelle via Qt Signals.Aktueller Status & Pläne:
Zudem ist ein Plugin-System geplant, damit Nutzer eigene Prompts und Metadaten-Schemas definieren können, sowie eine Mehrsprachigkeit der UI.
In einer Zeit, in der Daten das neue Gold sind, ist AIDocSynth auf Datensparsamkeit ausgelegt.
doctr.Tobias Müller (2026): AIDocSynth – Intelligente Dokumenten-Assistentin für Ordnung ohne Aufwand. https://ispringen.dev – Bitte mit Namensnennung „Tobias Müller, ispringen.dev“.
Ich stehe gerne für Fragen und Diskussionen zur Verfügung. Die beste Anlaufstelle ist das GitHub-Repository, wo Issues und Diskussionen geführt werden.