Workflow zur Umwandlung von Webseiteninhalt in Markdown

Dieser Workflow ermöglicht es Ihnen, Webseiteninhalte mithilfe der Firecrawl.dev API in ein markdown-kompatibles Format umzuwandeln und Links zu extrahieren.

Workflow zur Umwandlung von Webseiteninhalt in Markdown

Die Website nutzt die Wordpress-Infrastruktur.

Server: Unser Server befindet sich in einem Unternehmen mit Sitz in Deutschland. Er hat eine hohe und schnelle Internetverbindung. Es gibt eine Generatorunterstützung für ununterbrochenen Strom.

Einführung

Dieser n8n-Workflow verwendet die Firecrawl.dev API, um Webseiteninhalte in ein bearbeitbares Markdown-Format zu transformieren. Die Arbeitsweise ist klar strukturiert und ermöglicht es, die Inhalte effizient zu extrahieren.

Workflow-Details

1. When clicking ‘Test workflow’

Typ: Manual Trigger
Funktionsweise: Dieser Node fungiert als Startpunkt für den Workflow. Sie können den Workflow manuell testen und auslösen, indem Sie auf den entsprechenden Button klicken.

2. Get urls from own data source

Typ: No Operation
Funktionsweise: Dieser Node wird verwendet, um eine Verbindung zur Datenquelle herzustellen, aus der die URLs abgerufen werden sollen.

3. Example fields from data source

Typ: Set
Funktionsweise: Hier definieren wir Feldzuweisungen, um die URLs abzuholen. In unserem Beispiel legen wir die URLs als Array im `Page`-Feld fest.

Einstellungen:

{
    "assign": [
        {
            "name": "Page",
            "value": "[\"https://www.automake.io/\", \"https://www.n8n.io/\"]"
        }
    ]
}

4. Split out page URLs

Typ: Split Out
Funktionsweise: Dieser Node wird verwendet, um die URLs aus dem `Page`-Feld zu extrahieren und sie für weitere Verarbeitungsschritte vorzubereiten.

5. 10 at a time

Typ: Split in Batches
Funktionsweise: Dieser Node teilt die URL-Liste in Chargen von 10 ein, um die API-Anforderungen besser zu steuern und die Verarbeitungslast zu reduzieren.

6. Wait

Typ: Wait
Funktionsweise: Dieser Node ermöglicht eine Verzögerung von 45 Sekunden zwischen den Anforderungen, um die API-Limits nicht zu überschreiten.

7. Retrieve Page Markdown and Links

Typ: HTTP Request
Funktionsweise: Hier wird die Firecrawl.dev API aufgerufen, um Markdown-Daten und Links von der aktuellen URL abzurufen.

Einstellungen:

{
    "url": "https://api.firecrawl.dev/v1/scrape",
    "method": "POST",
    "jsonBody": "{\n \"url\": \"{{ $json.Page }}\",\n \"formats\" : [\"markdown\", \"links\"]\n}"
}

8. Markdown data and Links

Typ: Set
Funktionsweise: In diesem Node speichern wir die abgerufenen Daten als Struktur, die Titel, Beschreibung und Inhalte aus der Markdown-API-Antwort enthält.

9. Connect to your own data source

Typ: No Operation
Funktionsweise: Ein platzhalter Node zur Verbindung mit Ihrer eigenen Datenquelle, um beispielsweise die abgefragten Daten zu speichern.

Ergebnis

Mit diesem Workflow können Sie effizient Webseiten Inhalte in ein Markdown-Format umwandeln und die Links extrahieren. Achten Sie darauf, Ihre API-Parameter entsprechend Ihrer eigenen Firecrawl.dev API zu konfigurieren und die URL-Datenquelle richtig anzuschließen.

Download Link: Hier herunterladen