Web Scraper Node
Inhalte von beliebigen Webseiten extrahieren.
Überblick
Der Web Scraper Node ruft Webseiten ab und extrahiert deren Inhalte. Er unterstützt CSS-Selektoren, mehrere Ausgabeformate und die Extraktion von Metadaten.
Konfiguration
| Feld | Beschreibung | Erforderlich |
|---|---|---|
URL |
Die URL der zu scrapenden Webseite (unterstützt Variablen) | Ja |
Output Format |
Plain Text, HTML, Markdown oder JSON | Ja |
Max Words |
Ausgabelänge begrenzen (nur für Text/Markdown) | Nein |
Output Variable |
Variablenname zum Speichern des extrahierten Inhalts | Ja |
Ausgabeformate
| Format | Beschreibung |
|---|---|
Plain Text |
Bereinigter Textinhalt, ohne HTML |
HTML |
Roher HTML-Inhalt |
Markdown |
In Markdown-Format konvertierter Inhalt |
JSON (Structured) |
Strukturierte Daten mit Metadaten |
Erweiterte Optionen
| Feld | Beschreibung | Standard |
|---|---|---|
CSS Selector |
Bestimmte Elemente ansprechen (z.B. .content, #main) |
Keiner |
Extract Metadata |
Seitentitel, Beschreibung usw. einbeziehen | Aus |
Extract Links |
Alle Links der Seite sammeln | Aus |
Extract Images |
Alle Bild-URLs sammeln | Aus |
Timeout |
Anfrage-Zeitlimit in Millisekunden | 30000 |
User Agent |
Benutzerdefinierter User-Agent-String | Standard |
CSS-Selektoren
Bestimmte Seitenelemente ansprechen:
.article-content → Elemente mit der Klasse "article-content"
#main-content → Element mit der ID "main-content"
article p → Alle Absätze innerhalb von Article-Tags
[data-type="post"] → Elemente mit bestimmtem Data-Attribut
Variablen in der URL verwenden
https://example.com/page/{{page_number}}
https://api.site.com/search?q={{search_term}}
Beispielausgabe (JSON-Format)
{
"content": "Page content here...",
"title": "Page Title",
"description": "Meta description",
"links": ["https://...", "https://..."],
"images": ["https://...", "https://..."]
}