In diesem Beitrag erkläre ich die Installation und Einrichtung von der Dokumentenverwaltung-Software Paperless-ngx mithilfe von Docker unter Windows.
In der heutigen digitalen Welt wird die Verwaltung und Archivierung von Dokumenten immer wichtiger. Hier kommt Paperless-ngx ins Spiel, eine leistungsstarke Open-Source-Software, die entwickelt wurde, um die Aufbewahrung und Suche nach Dokumenten zu vereinfachen. Sie ist der Nachfolger von "Paperless" und "Paperless-ng", welche beide nicht mehr weiterentwickelt werden. Paperless-ngx wird aktiv weiterentwickelt und biete die Möglichkeit Dokumente einfach zu digitalisieren, zu organisieren und leicht zugänglich zu machen. Es bietet eine benutzerfreundliche Weboberfläche und leistungsstarke Funktionen zur Verwaltung von Dokumenten aller Art. Egal, ob du Rechnungen, Verträge, Notizen oder andere wichtige Papiere speichern möchtest.
Docker installieren
Zunächst musst du, falls noch nicht geschehen, unter Windows Docker installieren. Mithilfe von Docker werden Anwendungen in so genannten Containern bereitgestellt, sodass diese einfach installiert und auf jedem beliebigen System weiterverwendet werden können.
Wenn du Windows als Betriebssystem verwendest, ist die Integration von Windows Subsystem for Linux (WSL) notwendig, um Docker nahtlos auszuführen. WSL ermöglicht die Ausführung von Linux-Befehlen direkt auf deinem Windows-Rechner, was besonders wichtig ist, wenn Docker-Container auf Linux-Plattformen entwickelt und getestet werden.
WSL wird mit einem einzigen Befehl in der Eingabeaufforderung installiert. Starte dazu eine Eingabeaufforderung als Administrator. Öffne dazu das Startmenü von Windows und gib in der Suche cmd ein. Mache einen Rechtsklick auf den Suchtreffer und wähle im Kontextmenü Als Administrator ausführen aus und bestätige die kommende Meldung mit Ja.
Setze hier folgenden Befehl ab:
wsl --install
Beantworte die folgenden Hinweise alle positiv und warte dann ab, bis die Installation abgeschlossen ist.
Nun kann Docker installiert werden. Lade dir dazu das Installationspaket über folgenden Link herunter: desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe
Führe das Setup aus und lasse die Einstellungen unberührt. Warte ab, bis Docker installiert wurde.
Der Computer muss jetzt noch einmal neu gestartet werden, um die Installation abzuschließen. Danach kann Paperless-ngx mithilfe von Docker installiert werden.
Vorbereitung für die Paperless-ngx Installation
Erstelle zunächst auf einem beliebigen Datenträger einen Ordner, auf welchem sich die Dateien für Paperless-ngx befinden sollen. Nenne diesen beispielsweise Paperless.
Lade dir jetzt folgende drei Konfigurationsdateien herunter und verschiebe sie in den eben angelegten Paperless-Ordner:
github.com/paperless-ngx/paperless-ngx/blob/main/docker/compose/docker-compose.sqlite-tika.yml
github.com/paperless-ngx/paperless-ngx/blob/main/docker/compose/docker-compose.env
github.com/paperless-ngx/paperless-ngx/blob/main/docker/compose/.env
Den jeweiligen Download-Button findest du rechts oben auf der Seite:
Benenne die Datei docker-compose.sqlite-tika.yml zu docker-compose.yml um.
Öffne die docker-compose.yml in einem beliebigen Editor. Etwa ab Zeile 56 beginnen Konfigurationen für environment.
Zunächst sollte ein Session-Token festgelegt werden. Verwenden einfach eine beliebige Folge von Zeichen. Je mehr, desto besser. Du musst dir diese Zeichenfolge nicht merken.
PAPERLESS_SECRET_KEY: HierZufälligeZeichenVerwenden
Damit die Texterkennung der hochgeladenen Dokumente ordnungsgemäß funktioniert, sollte du hier unbedingt die Sprache für OCR festlegen. Empfehlenswert ist Deutsch und Englisch:
PAPERLESS_OCR_LANGUAGE: deu+eng
Bei manchen Geräten wird die Sitzung beim Beenden vom Browser automatisch abgemeldet und du musst dich erneut in Paperless-ngx anmelden. Um die Sitzung beizubehalten, kannst du ebenfalls folgende Zeile hinzufügen:
PAPERLESS_ACCOUNT_SESSION_REMEMBER: "True"
Digital signierte PDF-Dokumente, z.B. von Banken, können Probleme mit der OCR-Erkennung machen. Daher sollte mit folgender Konfiguration festgelegt werden, dass digitale Signaturen in den hochgeladenen Dokumenten ungültig gemacht werden. Das bedeutet, dass Paperless-ngx bewusst die digitalen Signaturen entfernt oder unbrauchbar macht, um den Inhalt problemlos auslesen zu können.
PAPERLESS_OCR_USER_ARGS: '{"invalidate_digital_signatures": true}'
Standardmäßig werden die hochgeladenen Dokumente unter media/documents/archive/ gespeichert. Wenn du hier aber eine gewisse Ordnung bewahren möchtest, kannst du die Art der Speicherung anpassen. Beispielsweise so, dass die Dokumente in einem Ordner des jeweiligen Jahres abgelegt werden und sich der Name der Datei ändert zu "EindeutigeIDVonPaperless_NameDesDokuments":
PAPERLESS_FILENAME_FORMAT: '{{ created_year }}/{{ doc_pk }}_{{ title }}'
Weitere mögliche Variablen findest du hier in der Doku: docs.paperless-ngx.com/advanced_usage/#file-name-handling
Weitere Konfigurationsmöglichkeiten findest du in der Dokumentation: docs.paperless-ngx.com/configuration/
Paperless-ngx installieren
Öffne erneut die docker-compose.yml in einem beliebigen Editor. Ungefähr in Zeile 50 beginnen jetzt 4 Pfade für Volumes. Passe diese für den Pfad deines Laufwerkes, in welchem sich der Paperless-Ordner befindet, an:
- X:/Pfad/zu/Paperless/data:/usr/src/paperless/data - X:/Pfad/zu/Paperless/media:/usr/src/paperless/media - X:/Pfad/zu/Paperless/export:/usr/src/paperless/export - X:/Pfad/zu/Paperless/consume:/usr/src/paperless/consume
Speichere die Datei ab.
Starte jetzt ein PowerShell-Fenster als Administrator. Öffne dazu das Startmenü von Windows und gib in der Suche PowerShell ein. Mache einen Rechtsklick auf Windows PowerShell und wähle im Kontextmenü Als Administrator ausführen aus und bestätige die kommende Meldung mit Ja.
Navigiere nun in den Paperless-Ordner und führe den Befehl aus, um die in der docker-compose.yml-Datei definierten Images für Paperless-ngx herunterzuladen:
cd X:\Pfad\zu\Paperless\
docker-compose pull
Der Vorgang kann einige Minuten Zeit in Anspruch nehmen. Anschließend verwendest du folgenden Befehl, um einen Paperless-ngx Benutzer anzulegen:
docker-compose run --rm webserver createsuperuser
In dieser Konfiguration musst du einen Benutzernamen, ein Kennwort sowie eine E-Mail-Adresse angeben, wobei die E-Mail-Adresse aufgrund der lokalen Installation irrelevant ist.
Anschließend kannst du den Paperless-ngx-Container mit folgendem Befehl starten:
docker-compose up -d
Wenn du jetzt in deinem Browser folgende URL mit Port 8000 aufrufst, öffnest du die Weboberfläche von Paperless-ngx:
http://localhost:8000
Kurze Einführung in Paperless-ngx
In Paperless-ngx angemeldet empfehle ich als erstes die Einstellungen durchzugehen und nach eigenem Empfinden einzustellen.
Unter Konfiguration OCR-Einstellungen empfehle ich noch, Ausgabetyp zu pdfa umzustellen, in das Feld Sprache den Wert deu+eng einzutragen und die Schräglagenkorrektur zu aktivieren.
Außerdem sollten unter Verwalten Tags eigene Tags erstellt werden, damit gescannten Dokumente und Briefe später einfacher zugeordnet und gefunden werden können. Die Tour erklärt dir ebenfalls die Grundfunktionen.
Unter Verwalten lassen sich auch Dokumenttypen erstellen. Ich persönlich nutze als Typ Brief, Dokument und Sonstiges.
Über die Startseite kannst du einen Scan auswählen und hochladen. Anschließend findest du das Dokument unter Dokumente. Über das Stift-Symbol kannst du Details und weiterer Optionen dieses Dokuments ändern. Ein Titel, das Datum und die entsprechenden Tags sollten als minimum gesetzt werden.
Die Software erkennt anhand der OCR-Texterkennung das Datum der Dokumente in der Regel automatisch, oder es wird das Erstelldatum verwendet, und trägt dieses Datum entsprechend ein, außerdem lernt eine KI die verschiedenen Arten der Dokumente und vergibt dann automatisch nach dem Hochladen den passenden Tag, wie beispielsweise Versicherung, Gesundheit oder Steuerunterlagen. Diesen automatische Zuweisungsalgorithmus kannst du unter Tags im entsprechenden Tag auch deaktivieren oder festlegen, dass der Tag bei bestimmten vorkommenden Worten automatisch gesetzt wird.
Docker-Container stoppen
Um Paperless-ngx, also den Container, zu beenden, verwendest du folgenden Befehl in PowerShell. Beachte, dass du dich dazu im Verzeichnis von Paperless-ngx befinden musst.
docker-compose down
Alternativ kannst du den Container auch über die GUI beenden und starten. Gehe dazu in den Bereich Containers im Programm Docker Desktop.
Paperless-ngx aktualisieren
Paperless-ngx erhält regelmäßig Aktualisierungen mit Fehlerbehebungen, weiteren Features und Behebungen von Sicherheitslücken. Daher sollte die Software regelmäßig aktualisiert werden.
Fahre den Container zunächst herunter. Begib dich dazu zunächst über eine PowerShell in das Verzeichnis von Paperless-ngx:
cd X:\Pfad\zu\Paperless\
Verwende diese Befehl, um den Container zu stoppen:
docker-compose down
Lade dir jetzt per pull das neueste Docker-Image von Paperless-ngx herunter:
docker-compose pull
Anschließend kann der Container wieder gestartet werden. Er fährt jetzt mit der neuesten Version hoch.
docker-compose up -d
Paperless-ngx mithilfe von Docker unter Debian installieren
Bei Fragen oder Anregungen freue ich mich natürlich über eure Kommentare.
Über mich
Ich bin Janis (aka. EurenikZ), 25 Jahre alt und komme aus der Nähe von Frankfurt am Main. Ich habe eine abgeschlossene IHK-Ausbildung zum Fachinformatiker für Systemintegration und arbeite als Junior IT-Administrator in einem IT-Systemhaus. Neben meinem IT-Blog beschäftige ich mich viel mit diversen IT-Themen und meinen Webseiten sowie Telegram Bots und biete IT-Dienstleistungen an.