Selenium Ultimate Scraper Workflow: Daten von Webseiten extrahieren

Dieser Workflow verwendet Selenium, um Daten von Webseiten zu extrahieren, auch wenn diese eine Anmeldung erfordern. Dabei wird OpenAI zum Analysieren der Inhalte eingesetzt.

Selenium Ultimate Scraper Workflow: Daten von Webseiten extrahieren

Die Website nutzt die Wordpress-Infrastruktur.

Server: Unser Server befindet sich in einem Unternehmen mit Sitz in Deutschland. Er hat eine hohe und schnelle Internetverbindung. Es gibt eine Generatorunterstützung für ununterbrochenen Strom.

Überblick über den Workflow

Der „Selenium Ultimate Scraper Workflow“ ist ein n8n-Workflow, der darauf abzielt, Daten von Webseiten zu sammeln, unabhängig davon, ob eine Anmeldung erforderlich ist oder nicht. In diesem Workflow werden verschiedene Schritte durchlaufen, um die gewünschten Informationen effizient zu extrahieren.

Node-Beschreibungen

1. Extract First Url Match

  • Typ: HTML
  • Funktion: Extraktion der ersten passenden URL aus dem HTML-Inhalt.
  • Einstellungen: Der CSS-Selektor sucht nach Links, die zu einer angegebenen Domain gehören.

2. OpenAI Chat Model

  • Typ: OpenAI Chat
  • Funktion: Interagiert mit dem OpenAI GPT-4o Modell für die Verarbeitung natürlicher Sprache.
  • Einstellungen: Standard-Konfiguration ohne spezielle Optionen.

3. Clean Webdriver

  • Typ: HTTP Request
  • Funktion: Entfernt Selenium-Spuren im Browser, um die Erkennung als Automatisierung zu vermeiden.
  • Einstellungen: Führt ein Skript über die Selenium-API aus.

4. Delete Session

  • Typ: HTTP Request
  • Funktion: Löscht die aktuelle Selenium-Sitzung.
  • Einstellungen: Verwendet die Sitzung ID für den DELETE-Befehl.

5. If Block1

  • Typ: If
  • Funktion: Überprüft, ob der Inhalt „BLOCK“ enthält.
  • Einstellungen: Wenn der Inhalt gleich „BLOCK“ ist, wird der zuständige Pfad ausgeführt.

6. Limit

  • Typ: Limit
  • Funktion: Begrenzt die Anzahl der Ausgaben, die im Workflow verarbeitet werden.
  • Einstellungen: Keine speziellen Einstellungen.

7. Inject Cookie

  • Typ: HTTP Request
  • Funktion: Injiziert gesammelte Cookies in die Selenium-Sitzung.
  • Einstellungen: Verwendet die Cookie-Daten in JSON-Format.

8. Generate Screenshot

  • Typ: HTTP Request
  • Funktion: Macht einen Screenshot der aktuellen Webseite.
  • Einstellungen: Führt einen POST-Befehl an die Selenium-API aus.

Ergebnis

Durch die Verwendung dieses Workflows können Benutzer Daten von verschiedenen Webseiten extrahieren, einschließlich solcher, die eine Benutzeranmeldung erfordern. Die Mischung aus Selenium und OpenAI ermöglicht eine flexible und effektive Datenextraktion, die sowohl für private als auch für kommerzielle Anwendungen nützlich sein kann.

Für Fortschritte in der n8n-Automatisierung wird empfohlen, den Code regelmäßig zu überprüfen und zu optimieren.

Download Link: Hier herunterladen

Facebook
Twitter
LinkedIn

Andere Projekte