Documentation is being updated. Some sections may not reflect the latest features.

Web Scraper Node

Extrageți conținut de pe orice pagină web.

Prezentare generală

Nodul Web Scraper preia și extrage conținut din paginile web. Suportă selectori CSS, mai multe formate de ieșire și extragerea metadatelor.

Configurare

Câmp Descriere Obligatoriu
URL URL-ul paginii web de scrapuit (suportă variabile) Da
Output Format Plain Text, HTML, Markdown sau JSON Da
Max Words Limitarea lungimii ieșirii (doar pentru text/markdown) Nu
Output Variable Numele variabilei pentru stocarea conținutului extras Da

Formate de ieșire

Format Descriere
Plain Text Conținut text curat, fără HTML
HTML Conținut HTML brut
Markdown Conținut convertit în format Markdown
JSON (Structured) Date structurate cu metadate

Opțiuni avansate

Câmp Descriere Implicit
CSS Selector Vizarea elementelor specifice (ex. .content, #main) Niciunul
Extract Metadata Includerea titlului paginii, descrierii etc. Dezactivat
Extract Links Colectarea tuturor linkurilor din pagină Dezactivat
Extract Images Colectarea tuturor URL-urilor de imagini Dezactivat
Timeout Limita de timp a cererii în milisecunde 30000
User Agent String User Agent personalizat Implicit

Selectori CSS

Vizarea elementelor specifice ale paginii:

.article-content    → Elemente cu clasa "article-content"
#main-content       → Element cu ID-ul "main-content"
article p           → Toate paragrafele din interiorul tagurilor article
[data-type="post"]  → Elemente cu un atribut data specific

Utilizarea variabilelor în URL

https://example.com/page/{{page_number}}
https://api.site.com/search?q={{search_term}}

Exemplu de ieșire (format JSON)

{
  "content": "Page content here...",
  "title": "Page Title",
  "description": "Meta description",
  "links": ["https://...", "https://..."],
  "images": ["https://...", "https://..."]
}
AI AssistantPowered by Ubex
Beta
Ask me anything about Ubex workflows, nodes, or the API.
~/

Salut 👋

Cu ce te putem ajuta astăzi?