Workflow zur Umwandlung von Webseiteninhalt in Markdown

Dieser Workflow ermöglicht es Ihnen, Webseiteninhalte mithilfe der Firecrawl.dev API in ein markdown-kompatibles Format umzuwandeln und Links zu extrahieren.

Workflow zur Umwandlung von Webseiteninhalt in Markdown

Die Website nutzt die Wordpress-Infrastruktur.

Server: Unser Server befindet sich in einem Unternehmen mit Sitz in Deutschland. Er hat eine hohe und schnelle Internetverbindung. Es gibt eine Generatorunterstützung für ununterbrochenen Strom.

Einführung

Dieser n8n-Workflow verwendet die Firecrawl.dev API, um Webseiteninhalte in ein bearbeitbares Markdown-Format zu transformieren. Die Arbeitsweise ist klar strukturiert und ermöglicht es, die Inhalte effizient zu extrahieren.

Workflow-Details

1. When clicking ‘Test workflow’

  • Typ: Manual Trigger
  • Funktionsweise: Dieser Node fungiert als Startpunkt für den Workflow. Sie können den Workflow manuell testen und auslösen, indem Sie auf den entsprechenden Button klicken.

2. Get urls from own data source

  • Typ: No Operation
  • Funktionsweise: Dieser Node wird verwendet, um eine Verbindung zur Datenquelle herzustellen, aus der die URLs abgerufen werden sollen.

3. Example fields from data source

  • Typ: Set
  • Funktionsweise: Hier definieren wir Feldzuweisungen, um die URLs abzuholen. In unserem Beispiel legen wir die URLs als Array im `Page`-Feld fest.
  • Einstellungen:
    {
        "assign": [
            {
                "name": "Page",
                "value": "[\"https://www.automake.io/\", \"https://www.n8n.io/\"]"
            }
        ]
    }

4. Split out page URLs

  • Typ: Split Out
  • Funktionsweise: Dieser Node wird verwendet, um die URLs aus dem `Page`-Feld zu extrahieren und sie für weitere Verarbeitungsschritte vorzubereiten.

5. 10 at a time

  • Typ: Split in Batches
  • Funktionsweise: Dieser Node teilt die URL-Liste in Chargen von 10 ein, um die API-Anforderungen besser zu steuern und die Verarbeitungslast zu reduzieren.

6. Wait

  • Typ: Wait
  • Funktionsweise: Dieser Node ermöglicht eine Verzögerung von 45 Sekunden zwischen den Anforderungen, um die API-Limits nicht zu überschreiten.

7. Retrieve Page Markdown and Links

  • Typ: HTTP Request
  • Funktionsweise: Hier wird die Firecrawl.dev API aufgerufen, um Markdown-Daten und Links von der aktuellen URL abzurufen.
  • Einstellungen:
    {
        "url": "https://api.firecrawl.dev/v1/scrape",
        "method": "POST",
        "jsonBody": "{\n \"url\": \"{{ $json.Page }}\",\n \"formats\" : [\"markdown\", \"links\"]\n}"
    }

8. Markdown data and Links

  • Typ: Set
  • Funktionsweise: In diesem Node speichern wir die abgerufenen Daten als Struktur, die Titel, Beschreibung und Inhalte aus der Markdown-API-Antwort enthält.

9. Connect to your own data source

  • Typ: No Operation
  • Funktionsweise: Ein platzhalter Node zur Verbindung mit Ihrer eigenen Datenquelle, um beispielsweise die abgefragten Daten zu speichern.

Ergebnis

Mit diesem Workflow können Sie effizient Webseiten Inhalte in ein Markdown-Format umwandeln und die Links extrahieren. Achten Sie darauf, Ihre API-Parameter entsprechend Ihrer eigenen Firecrawl.dev API zu konfigurieren und die URL-Datenquelle richtig anzuschließen.

Download Link: Hier herunterladen

Facebook
Twitter
LinkedIn

Andere Projekte