Einführung
Dieser n8n-Workflow verwendet die Firecrawl.dev API, um Webseiteninhalte in ein bearbeitbares Markdown-Format zu transformieren. Die Arbeitsweise ist klar strukturiert und ermöglicht es, die Inhalte effizient zu extrahieren.
Workflow-Details
1. When clicking ‘Test workflow’
- Typ: Manual Trigger
- Funktionsweise: Dieser Node fungiert als Startpunkt für den Workflow. Sie können den Workflow manuell testen und auslösen, indem Sie auf den entsprechenden Button klicken.
2. Get urls from own data source
- Typ: No Operation
- Funktionsweise: Dieser Node wird verwendet, um eine Verbindung zur Datenquelle herzustellen, aus der die URLs abgerufen werden sollen.
3. Example fields from data source
- Typ: Set
- Funktionsweise: Hier definieren wir Feldzuweisungen, um die URLs abzuholen. In unserem Beispiel legen wir die URLs als Array im `Page`-Feld fest.
- Einstellungen:
{ "assign": [ { "name": "Page", "value": "[\"https://www.automake.io/\", \"https://www.n8n.io/\"]" } ] }
4. Split out page URLs
- Typ: Split Out
- Funktionsweise: Dieser Node wird verwendet, um die URLs aus dem `Page`-Feld zu extrahieren und sie für weitere Verarbeitungsschritte vorzubereiten.
5. 10 at a time
- Typ: Split in Batches
- Funktionsweise: Dieser Node teilt die URL-Liste in Chargen von 10 ein, um die API-Anforderungen besser zu steuern und die Verarbeitungslast zu reduzieren.
6. Wait
- Typ: Wait
- Funktionsweise: Dieser Node ermöglicht eine Verzögerung von 45 Sekunden zwischen den Anforderungen, um die API-Limits nicht zu überschreiten.
7. Retrieve Page Markdown and Links
- Typ: HTTP Request
- Funktionsweise: Hier wird die Firecrawl.dev API aufgerufen, um Markdown-Daten und Links von der aktuellen URL abzurufen.
- Einstellungen:
{ "url": "https://api.firecrawl.dev/v1/scrape", "method": "POST", "jsonBody": "{\n \"url\": \"{{ $json.Page }}\",\n \"formats\" : [\"markdown\", \"links\"]\n}" }
8. Markdown data and Links
- Typ: Set
- Funktionsweise: In diesem Node speichern wir die abgerufenen Daten als Struktur, die Titel, Beschreibung und Inhalte aus der Markdown-API-Antwort enthält.
9. Connect to your own data source
- Typ: No Operation
- Funktionsweise: Ein platzhalter Node zur Verbindung mit Ihrer eigenen Datenquelle, um beispielsweise die abgefragten Daten zu speichern.
Ergebnis
Mit diesem Workflow können Sie effizient Webseiten Inhalte in ein Markdown-Format umwandeln und die Links extrahieren. Achten Sie darauf, Ihre API-Parameter entsprechend Ihrer eigenen Firecrawl.dev API zu konfigurieren und die URL-Datenquelle richtig anzuschließen.
Download Link: Hier herunterladen