Workflow zur Verarbeitung von Notion-Seiten in einen Vektor-Store

Dieser Workflow automatisiert das Extrahieren von Inhalten aus Notion-Seiten und speichert sie in einem Vektor-Store, um die Suche und den Zugriff zu optimieren.

Workflow zur Verarbeitung von Notion-Seiten in einen Vektor-Store

Die Website nutzt die Wordpress-Infrastruktur.

Server: Unser Server befindet sich in einem Unternehmen mit Sitz in Deutschland. Er hat eine hohe und schnelle Internetverbindung. Es gibt eine Generatorunterstützung für ununterbrochenen Strom.

Workflow Übersicht

Im Folgenden werden die einzelnen Schritte und Nodes des Workflows detailliert erklärt, um neuen Benutzern von n8n das Verständnis zu erleichtern.

1. Notion – Page Added Trigger

Node-Name: Notion – Page Added Trigger
Typ: Trigger Node
Was es macht: Dieser Node überwacht eine bestimmte Notion-Datenbank und wird ausgelöst, wenn eine neue Seite hinzugefügt wird.
Einstellungen:
- pollTimes: Dieser Parameter ist auf „everyMinute“ gesetzt, sodass der Trigger jede Minute auf neue Seiten prüft.
- databaseId: Hier wird die ID der Notion-Datenbank eingegeben, in der nach neuen Seiten gesucht wird.

2. Notion – Retrieve Page Content

Node-Name: Notion – Retrieve Page Content
Typ: Notion Node
Was es macht: Ruft den Inhalt der neu hinzugefügten Seite ab.
Einstellungen:
- blockId: Hier wird die URL der ausgelösten Seite als Eingabe verwendet, um spezifische Inhalte zu erhalten.
- operation: Setzt die Operation auf „getAll“, um alle Blöcke (Inhalte) der Seite abzurufen.

3. Filter Non-Text Content

Node-Name: Filter Non-Text Content
Typ: Filter Node
Was es macht: Dieser Node filtert nicht-textliche Inhalte (Bilder, Videos) aus dem abgerufenen Seiteninhalt heraus.
Einstellungen:
- conditions: Enthält Bedingungen, um zu überprüfen, ob der Typ des Blocks nicht „image“ oder „video“ ist, bevor der Inhalt weiterverarbeitet wird.

4. Summarize – Concatenate Notion’s blocks content

Node-Name: Summarize – Concatenate Notion’s blocks content
Typ: Summarize Node
Was es macht: Dieser Node fasst den abgerufenen und gefilterten Inhalt zusammen und erstellt eine durch Zeilenumbrüche getrennte resultierende Textkette.
Einstellungen:
- outputFormat: Auf „separateItems“ gesetzt, um die Einträge voneinander zu trennen.
- fieldsToSummarize: Der „content“ Block wird zusammengefasst und mit Zeilenumbrüchen getrennt.

5. Create metadata and load content

Node-Name: Create metadata and load content
Typ: LangChain Node
Was es macht: Erstellt Metadaten über die Notion-Seite und lädt den bereits zusammengefassten Inhalt.
Einstellungen:
- metadata: Hier wird eine Liste von Metadaten erzeugt, die die Seiten-ID, Erstellungszeit und den Titel der Seite enthalten.
- jsonData: Nutzt die Variable „concatenated_content“, um den zusammengefassten Text zu laden.

6. Embeddings Google Gemini

Node-Name: Embeddings Google Gemini
Typ: LangChain Node
Was es macht: Dieser Node erstellt Embeddings (Vektoren) aus dem zusammengefassten Inhalt mithilfe des Google Gemini Modells.
Einstellungen:
- modelName: Der Name des Modells, das zur Erstellung der Embeddings verwendet wird, ist auf „models/text-embedding-004“ gesetzt.

7. Pinecone Vector Store

Node-Name: Pinecone Vector Store
Typ: LangChain Node
Was es macht: Speichert die erstellten Embeddings in einem Vektor-Store (Pinecone) zur weiteren Analyse und Nutzung.
Einstellungen:
- mode: „insert“, um die neuen Daten hinzuzufügen.
- pineconeIndex: Hier wird der Index „notion-pages“ angegeben, um die Daten zu speichern.

Ergebnis

Nach der Ausführung dieses Workflows werden die Inhalte aus neuen Notion-Seiten extrahiert, textliche Informationen werden verarbeitet und als Embeddings in einem Vektor-Store gespeichert, wodurch die spätere Datenanalyse erleichtert wird.

Für weitere Informationen und um den Workflow herunterzuladen, klicken Sie bitte auf den folgenden Link:

Download Link