Workflow zum Scrapen von Paul Graham Essays

Dieser Workflow automatisiert das Abrufen und Zusammenfassen von Essays von Paul Graham.

Workflow zum Scrapen von Paul Graham Essays

Die Website nutzt die Wordpress-Infrastruktur.

Server: Unser Server befindet sich in einem Unternehmen mit Sitz in Deutschland. Er hat eine hohe und schnelle Internetverbindung. Es gibt eine Generatorunterstützung für ununterbrochenen Strom.

1. Wenn der Workflow ausgeführt wird

Node-Name: When clicking „Execute Workflow“

Typ: Manual Trigger

Beschreibung: Dieser Node fungiert als manueller Auslöser. Wenn der Benutzer auf „Workflow ausführen“ klickt, wird der Workflow gestartet.

2. Abrufen der Essay-Liste

Node-Name: Fetch essay list

Typ: HTTP Request

Beschreibung: Dieser Node sendet eine HTTP-Anfrage an die URL von Paul Grahams Essays, um die Liste der verfügbaren Essays abzurufen.

Einstellungen:
URL: http://www.paulgraham.com/articles.html

3. Extrahieren der Essay-Namen

Node-Name: Extract essay names

Typ: HTML

Beschreibung: Hier werden die Namen (Links) der Essays aus der abgerufenen HTML-Seite extrahiert.

Einstellungen:

  • Operation: extractHtmlContent
  • CSS-Selektor: table table a
  • Rückgabewert: attribute

4. Abrufen der Essay-Texte

Node-Name: Fetch essay texts

Typ: HTTP Request

Beschreibung: Dieser Node sendet eine an die vorherigen Ergebnisse angepasste HTTP-Anfrage, um den Text des jeweiligen Essays abzurufen.

Einstellungen:
URL: =http://www.paulgraham.com/{{ $json.essay }}

5. Extrahieren des Titels

Node-Name: Extract title

Typ: HTML

Beschreibung: Der Titel jedes Essays wird aus dem abgerufenen HTML-Inhalt extrahiert.

Einstellungen:

  • Operation: extractHtmlContent
  • CSS-Selektor: title

6. Aufräumen

Node-Name: Clean up

Typ: Set

Beschreibung: Hier werden die relevanten Informationen in einem strukturierten Format gespeichert, einschließlich Titel, Zusammenfassung und URL.

Einstellungen:

  • Felder: title, summary, url

7. Sticky Notes

Node-Name: Sticky Note

Typ: Sticky Note

Beschreibung: Diese Notizen dienen der Dokumentation und der Benutzerführung innerhalb des Workflows.

8. Aufteilen in Elemente

Node-Name: Split out into items

Typ: Split Out

Beschreibung: Der Workflow wird auf die einzelnen Essays aufgeteilt, sodass jeder Essay individuell bearbeitet werden kann.

Einstellungen:
Feld zum Aufteilen: essay

9. Limit auf die ersten 3

Node-Name: Limit to first 3

Typ: Limit

Beschreibung: Diese Node begrenzt den Workflow auf die ersten drei Essays, um die Verarbeitung zu vereinfachen.

Einstellungen:
Maximale Elemente: 3

10. Standarddaten-Ladegerät

Node-Name: Default Data Loader

Typ: Document Default Data Loader

Beschreibung: Dieser Node lädt die Dokumente für die Verarbeitung im nächsten Schritt entsprechend vor.

11. Rekursiver Textzerleger

Node-Name: Recursive Character Text Splitter

Typ: Text Splitter

Beschreibung: Diese Node zerlegt die Texte in kleinere Abschnitte, um eine einfachere Verarbeitung zu ermöglichen.

12. OpenAI Chat Modell

Node-Name: OpenAI Chat Model1

Typ: OpenAI Language Model

Beschreibung: Hier wird das GPT-Modell verwendet, um die Zusammenfassungen zu generieren.

Einstellungen:
Modell: gpt-4o-mini

13. Zusammenführen

Node-Name: Merge

Typ: Merge

Beschreibung: Diese Node verbindet alle berechneten Daten und Ergebnisse in einem einzigen Output.

Einstellungen:
Modus: combine

14. Zusammenfassungs-Kette

Node-Name: Summarization Chain

Typ: Summarization Chain

Beschreibung: Dieser Node führt die vorhergehenden Schritte zusammen, um die endgültigen Zusammenfassungen zu erstellen.

Einstellungen:
Operation Mode: documentLoader

Ergebnis

Dieser Workflow ermöglicht es, die neuesten Essays von Paul Graham zu scrapen, deren Titel und Texte zu extrahieren und sie mithilfe von AI zu analysieren und zusammenzufassen.

Download Link

Facebook
Twitter
LinkedIn

Andere Projekte