Eigenentwicklung

Aus einem überquellenden Newsletter-Postfach entsteht automatisch eine durchsuchbare, getaggte und bei Bedarf übersetzte Wissensbasis in Obsidian — mit dem eigentlichen Inhalt, ohne Tracking-Pixel, Werbe-Banner und Footer-Geschachtel.

Pattern E-Mail- & Newsletter-Workflows

Python 3.11
litellm (OpenAI / Anthropic / Azure / Ollama)
BeautifulSoup

DIE AUSGANGSLAGE

Die Ausgangslage

Wer fachlich am Ball bleiben will, abonniert Newsletter. Wer es ernst meint, mehrere — Branchen-News, Produkt-Updates, technische Deep-Dives, Tools-of-the-Week. Schon nach wenigen Wochen ist das Postfach ein Friedhof: ungelesen, unsortiert, irgendwann gelöscht. Der Inhalt war wertvoll, die Form macht ihn unbrauchbar. Tabellen-Layouts, Tracking-Pixel, „Hier klicken"-Buttons, dreifach geschachtelte Footer mit Abmelde-Links — und mittendrin der Absatz, der eigentlich gemeint war.

Hand aufs Herz: Wer durchsucht in zwei Jahren wirklich noch sein Newsletter-Archiv im Mail-Programm?

WAS WIR GEBAUT HABEN

Was wir gebaut haben

Ein Kommandozeilen-Werkzeug, das Newsletter-E-Mails einsammelt, vom HTML-Ballast befreit, mit Hilfe einer KI auf das Wesentliche zusammenfasst, optional übersetzt und als saubere Obsidian-Notizen in der eigenen Wissensbasis ablegt — versehen mit Tags, Kurzzusammenfassung und Quell-Verweis.

Der Ablauf

Newsletter abholen — Die Anwendung verbindet sich mit dem Mail-Server (IMAP, POP3 oder Exchange On-Premises) und liest neue E-Mails ab. Welche Absender überhaupt in Frage kommen, steuert die Konfiguration; bereits verarbeitete E-Mails werden zuverlässig übersprungen.
Spreu vom Weizen trennen — Nicht jede Mail vom Newsletter-Absender ist auch Inhalt. Eine zweistufige Klassifizierung — zuerst regelbasiert, dann ein günstiges KI-Modell — erkennt Werbung, Versandbestätigungen und Bestell-Benachrichtigungen und sortiert sie aus, bevor teure Verarbeitungsschritte starten.
HTML aufräumen — Eine fünflagige Pipeline entfernt Tracking-Pixel, Werbe-Banner, Layout-Tabellen und Footer-Reste. Sie erkennt die Versand-Plattform (Mailchimp, Substack, beehiiv und Verwandte) und extrahiert den eigentlichen Inhalt — Datentabellen werden bewusst behalten, Layout-Tabellen aufgelöst.
Bilder mitnehmen — Eingebettete Grafiken und extern referenzierte Bilder werden parallel heruntergeladen, in einen Tagesordner abgelegt und im Markdown korrekt verlinkt. Auch wenn der Versender in zwei Jahren sein Bild-CDN abschaltet — die Notiz bleibt vollständig.
Aus HTML wird Markdown — Eine angepasste Konvertierung erzeugt Obsidian-konformes Markdown mit ATX-Überschriften, korrekt formatierten Datentabellen und sauberen Links — ohne HTML-Reste, ohne kaputte Listen.
Inhalt verstehen — Ein KI-Modell liest den Newsletter und liefert Kurzzusammenfassung (TLDR), passende Tags und einen aussagekräftigen Titel zurück — strukturiert, nicht als Freitext.
Bei Bedarf übersetzen — Englischsprachige Newsletter werden ins Deutsche übertragen. Ein Platzhalter-Mechanismus schützt URLs, Bildverweise und Code-Blöcke verlässlich davor, von der Übersetzung „mit-übersetzt" zu werden.
In Obsidian ablegen — Jede Notiz erhält strukturierte Metadaten (YAML-Frontmatter), eine TLDR-Box als Einstieg, den aufbereiteten Inhalt und einen Verweis auf die Quell-E-Mail. Dateinamen folgen einem konfigurierbaren Muster; deutsche Übersetzungen liegen mit _de-Suffix neben dem Original.

Mehrere Modelle, ein Code

Welches KI-Modell die Arbeit macht, ist eine Konfigurationsfrage — OpenAI, Anthropic, Azure OpenAI, OpenRouter oder ein lokal laufendes Modell über Ollama. Für die günstige Klassifizierung und die anspruchsvollere Inhalts-Analyse können unterschiedliche Modelle gewählt werden; pro Lauf wird mitprotokolliert, welches Modell wann genutzt wurde.

Auslieferung als eigenständige Anwendung

Das Werkzeug wird als ein eigenständiges Programm ausgeliefert (Windows oder macOS), das ohne separate Python-Installation startet. Konfiguration und Zugangsdaten liegen in zwei Dateien daneben — was vor Ort gewartet werden kann, kann auch vor Ort gewartet werden.

WAS WIR DAMIT ERREICHEN

Was wir damit erreichen

Aus Postfach-Müll wird Wissensbasis. Was vorher im Posteingang verstaubte und irgendwann gelöscht wurde, ist jetzt durchsuchbar, verlinkbar und Teil der eigenen Recherche.
Tracking-Pixel und Werbe-Footer landen, wo sie hingehören — im Papierkorb. Übrig bleibt der Inhalt.
Englisch ist kein Hindernis mehr. Wer Englisch lesen will, behält das Original. Wer lieber Deutsch liest, hat die Übersetzung daneben — auf Knopfdruck.
Bilder bleiben offline verfügbar. Inhalte sind auch in zwei Jahren noch vollständig lesbar — unabhängig davon, ob der Versender den Newsletter noch hostet.
Tags entstehen automatisch und konsistent. Was sonst mühsam von Hand vergeben würde, sortiert sich von selbst — und macht das Archiv tatsächlich navigierbar.

WAS BEWUSST NICHT AUTOMATISIERT WURDE

Was bewusst nicht automatisiert wurde

Die Auswahl der Quellen. Welche Absender überhaupt verarbeitet werden, entscheidet der Mensch — einmal, in der Konfiguration. Damit wandert nicht der ganze Posteingang ins Wissens-Archiv, sondern nur das, was hingehört.
Das Lesen, Verknüpfen, Kommentieren. Das Werkzeug bereitet vor — gelesen, mit eigenen Notizen verbunden und zu Querverweisen verdichtet wird in Obsidian, wie bisher.
Der Posteingang. Es entstehen lokale Markdown-Dateien. Keine Cloud-Sync der E-Mail-Inhalte, keine zusätzlichen Datenflüsse — der Posteingang bleibt der Posteingang.

WARUM DIESES MUSTER ÜBERTRAGBAR IST

Warum dieses Muster übertragbar ist

Der Aufbau funktioniert überall dort, wo regelmäßig HTML-, PDF- oder Web-Inhalte aus E-Mails oder Feeds in eine strukturierte Wissens- oder Dokumentenbasis überführt werden müssen — und der inhaltliche Umgang beim Menschen bleibt: Ausschreibungs-Mailings, Lieferanten- und Produkt-Updates, Compliance- und Regulatorik-Bulletins, Marktforschungs-Briefings, Fach-Pressespiegel, Wettbewerbs-Beobachtung.

Das Muster: Quelle → automatisches Aufräumen → KI-Verstehen → strukturierte Ablage in der eigenen Wissensbasis.

Die KI macht aus Rauschen Inhalt. Die Ablage-Struktur und der Lese-Workflow bleiben dort, wo sie hingehören — beim Menschen, der die Inhalte tatsächlich nutzt.