Documentation is being updated. Some sections may not reflect the latest features.

Web Scraper Node

Inhalte von beliebigen Webseiten extrahieren.

Überblick

Der Web Scraper Node ruft Webseiten ab und extrahiert deren Inhalte. Er unterstützt CSS-Selektoren, mehrere Ausgabeformate und die Extraktion von Metadaten.

Konfiguration

Feld Beschreibung Erforderlich
URL Die URL der zu scrapenden Webseite (unterstützt Variablen) Ja
Output Format Plain Text, HTML, Markdown oder JSON Ja
Max Words Ausgabelänge begrenzen (nur für Text/Markdown) Nein
Output Variable Variablenname zum Speichern des extrahierten Inhalts Ja

Ausgabeformate

Format Beschreibung
Plain Text Bereinigter Textinhalt, ohne HTML
HTML Roher HTML-Inhalt
Markdown In Markdown-Format konvertierter Inhalt
JSON (Structured) Strukturierte Daten mit Metadaten

Erweiterte Optionen

Feld Beschreibung Standard
CSS Selector Bestimmte Elemente ansprechen (z.B. .content, #main) Keiner
Extract Metadata Seitentitel, Beschreibung usw. einbeziehen Aus
Extract Links Alle Links der Seite sammeln Aus
Extract Images Alle Bild-URLs sammeln Aus
Timeout Anfrage-Zeitlimit in Millisekunden 30000
User Agent Benutzerdefinierter User-Agent-String Standard

CSS-Selektoren

Bestimmte Seitenelemente ansprechen:

.article-content    → Elemente mit der Klasse "article-content"
#main-content       → Element mit der ID "main-content"
article p           → Alle Absätze innerhalb von Article-Tags
[data-type="post"]  → Elemente mit bestimmtem Data-Attribut

Variablen in der URL verwenden

https://example.com/page/{{page_number}}
https://api.site.com/search?q={{search_term}}

Beispielausgabe (JSON-Format)

{
  "content": "Page content here...",
  "title": "Page Title",
  "description": "Meta description",
  "links": ["https://...", "https://..."],
  "images": ["https://...", "https://..."]
}
AI AssistantPowered by Ubex
Beta
Ask me anything about Ubex workflows, nodes, or the API.
~/

Hallo 👋

Wie können wir Ihnen heute helfen?