Selenium Ultimate Scraper Workflow: Daten von Webseiten extrahieren

Dieser Workflow verwendet Selenium, um Daten von Webseiten zu extrahieren, auch wenn diese eine Anmeldung erfordern. Dabei wird OpenAI zum Analysieren der Inhalte eingesetzt.

Selenium Ultimate Scraper Workflow: Daten von Webseiten extrahieren

Die Website nutzt die Wordpress-Infrastruktur.

Server: Unser Server befindet sich in einem Unternehmen mit Sitz in Deutschland. Er hat eine hohe und schnelle Internetverbindung. Es gibt eine Generatorunterstützung für ununterbrochenen Strom.

Überblick über den Workflow

Der „Selenium Ultimate Scraper Workflow“ ist ein n8n-Workflow, der darauf abzielt, Daten von Webseiten zu sammeln, unabhängig davon, ob eine Anmeldung erforderlich ist oder nicht. In diesem Workflow werden verschiedene Schritte durchlaufen, um die gewünschten Informationen effizient zu extrahieren.

Node-Beschreibungen

1. Extract First Url Match

Typ: HTML
Funktion: Extraktion der ersten passenden URL aus dem HTML-Inhalt.
Einstellungen: Der CSS-Selektor sucht nach Links, die zu einer angegebenen Domain gehören.

2. OpenAI Chat Model

Typ: OpenAI Chat
Funktion: Interagiert mit dem OpenAI GPT-4o Modell für die Verarbeitung natürlicher Sprache.
Einstellungen: Standard-Konfiguration ohne spezielle Optionen.

3. Clean Webdriver

Typ: HTTP Request
Funktion: Entfernt Selenium-Spuren im Browser, um die Erkennung als Automatisierung zu vermeiden.
Einstellungen: Führt ein Skript über die Selenium-API aus.

4. Delete Session

Typ: HTTP Request
Funktion: Löscht die aktuelle Selenium-Sitzung.
Einstellungen: Verwendet die Sitzung ID für den DELETE-Befehl.

5. If Block1

Typ: If
Funktion: Überprüft, ob der Inhalt „BLOCK“ enthält.
Einstellungen: Wenn der Inhalt gleich „BLOCK“ ist, wird der zuständige Pfad ausgeführt.

6. Limit

Typ: Limit
Funktion: Begrenzt die Anzahl der Ausgaben, die im Workflow verarbeitet werden.
Einstellungen: Keine speziellen Einstellungen.

7. Inject Cookie

Typ: HTTP Request
Funktion: Injiziert gesammelte Cookies in die Selenium-Sitzung.
Einstellungen: Verwendet die Cookie-Daten in JSON-Format.

8. Generate Screenshot

Typ: HTTP Request
Funktion: Macht einen Screenshot der aktuellen Webseite.
Einstellungen: Führt einen POST-Befehl an die Selenium-API aus.

Ergebnis

Durch die Verwendung dieses Workflows können Benutzer Daten von verschiedenen Webseiten extrahieren, einschließlich solcher, die eine Benutzeranmeldung erfordern. Die Mischung aus Selenium und OpenAI ermöglicht eine flexible und effektive Datenextraktion, die sowohl für private als auch für kommerzielle Anwendungen nützlich sein kann.

Für Fortschritte in der n8n-Automatisierung wird empfohlen, den Code regelmäßig zu überprüfen und zu optimieren.

Download Link: Hier herunterladen