Web Scraper Node
Extrageți conținut de pe orice pagină web.
Prezentare generală
Nodul Web Scraper preia și extrage conținut din paginile web. Suportă selectori CSS, mai multe formate de ieșire și extragerea metadatelor.
Configurare
| Câmp | Descriere | Obligatoriu |
|---|---|---|
URL |
URL-ul paginii web de scrapuit (suportă variabile) | Da |
Output Format |
Plain Text, HTML, Markdown sau JSON | Da |
Max Words |
Limitarea lungimii ieșirii (doar pentru text/markdown) | Nu |
Output Variable |
Numele variabilei pentru stocarea conținutului extras | Da |
Formate de ieșire
| Format | Descriere |
|---|---|
Plain Text |
Conținut text curat, fără HTML |
HTML |
Conținut HTML brut |
Markdown |
Conținut convertit în format Markdown |
JSON (Structured) |
Date structurate cu metadate |
Opțiuni avansate
| Câmp | Descriere | Implicit |
|---|---|---|
CSS Selector |
Vizarea elementelor specifice (ex. .content, #main) |
Niciunul |
Extract Metadata |
Includerea titlului paginii, descrierii etc. | Dezactivat |
Extract Links |
Colectarea tuturor linkurilor din pagină | Dezactivat |
Extract Images |
Colectarea tuturor URL-urilor de imagini | Dezactivat |
Timeout |
Limita de timp a cererii în milisecunde | 30000 |
User Agent |
String User Agent personalizat | Implicit |
Selectori CSS
Vizarea elementelor specifice ale paginii:
.article-content → Elemente cu clasa "article-content"
#main-content → Element cu ID-ul "main-content"
article p → Toate paragrafele din interiorul tagurilor article
[data-type="post"] → Elemente cu un atribut data specific
Utilizarea variabilelor în URL
https://example.com/page/{{page_number}}
https://api.site.com/search?q={{search_term}}
Exemplu de ieșire (format JSON)
{
"content": "Page content here...",
"title": "Page Title",
"description": "Meta description",
"links": ["https://...", "https://..."],
"images": ["https://...", "https://..."]
}