Web Scraper Node
Extraer contenido de cualquier página web.
Descripción general
El Web Scraper Node obtiene y extrae contenido de páginas web. Admite selectores CSS, múltiples formatos de salida y extracción de metadatos.
Configuración
| Campo | Descripción | Obligatorio |
|---|---|---|
URL |
La URL de la página web a scrapear (admite variables) | Sí |
Output Format |
Plain Text, HTML, Markdown o JSON | Sí |
Max Words |
Limitar la longitud de la salida (solo para texto/markdown) | No |
Output Variable |
Nombre de la variable para almacenar el contenido extraído | Sí |
Formatos de salida
| Formato | Descripción |
|---|---|
Plain Text |
Contenido de texto limpio, sin HTML |
HTML |
Contenido HTML sin procesar |
Markdown |
Contenido convertido a formato Markdown |
JSON (Structured) |
Datos estructurados con metadatos |
Opciones avanzadas
| Campo | Descripción | Predeterminado |
|---|---|---|
CSS Selector |
Apuntar a elementos específicos (ej. .content, #main) |
Ninguno |
Extract Metadata |
Incluir título de página, descripción, etc. | Desactivado |
Extract Links |
Recopilar todos los enlaces de la página | Desactivado |
Extract Images |
Recopilar todas las URLs de imágenes | Desactivado |
Timeout |
Tiempo límite de solicitud en milisegundos | 30000 |
User Agent |
Cadena de User Agent personalizada | Predeterminado |
Selectores CSS
Apuntar a elementos específicos de la página:
.article-content → Elementos con la clase "article-content"
#main-content → Elemento con el ID "main-content"
article p → Todos los párrafos dentro de etiquetas article
[data-type="post"] → Elementos con un atributo data específico
Uso de variables en la URL
https://example.com/page/{{page_number}}
https://api.site.com/search?q={{search_term}}
Ejemplo de salida (formato JSON)
{
"content": "Page content here...",
"title": "Page Title",
"description": "Meta description",
"links": ["https://...", "https://..."],
"images": ["https://...", "https://..."]
}