Extract from File Node
Textinhalte aus Dokumenten und Dateien extrahieren.
Überblick
Der Extract from File Node liest und extrahiert Textinhalte aus verschiedenen Dateitypen, darunter PDFs, Word-Dokumente, Textdateien und mehr. Er wandelt Dokumentinhalte in Text um, der von anderen Nodes verarbeitet werden kann.
Konfiguration
| Feld | Beschreibung | Erforderlich |
|---|---|---|
Files Path |
Pfad oder URL zu den zu extrahierenden Datei(en) | Ja |
Output Variable |
Variablenname zum Speichern des extrahierten Textes | Ja |
Unterstützte Dateitypen
- PDF-Dokumente (.pdf)
- Word-Dokumente (.docx, .doc)
- Textdateien (.txt)
- Markdown-Dateien (.md)
- CSV-Dateien (.csv)
- Und mehr...
Variablen verwenden
Dateipfade aus vorherigen Nodes übergeben:
{{uploaded_file.url}}
{{attachment_path}}
{{document_url}}
Anwendungsbeispiele
Hochgeladene Dokumente verarbeiten
Files Path: {{user_upload.file_url}}
Output Variable: document_content
Aus mehreren Dateien extrahieren
In Kombination mit einer For-Schleife mehrere Dateien verarbeiten:
Files Path: {{current_file.path}}
Output Variable: file_text
Dokumentinhalte analysieren
Mit einem LLM Node verketten:
- Extract from File →
document_content - LLM Node →
{{document_content}}analysieren
Ausgabe
Der extrahierte Text wird in Ihrer Ausgabevariable gespeichert:
{{document_content}}
Unterschiede zum OCR Node
| Merkmal | Extract from File | OCR Node |
|---|---|---|
| Eingabe | Digitale Dokumente | Bilder, gescannte Dokumente |
| Methode | Textextraktion | Optische Zeichenerkennung |
| Anwendungsfall | PDFs, Word-Dokumente | Screenshots, Fotos |
| Geschwindigkeit | Schneller | Langsamer |
Best Practices
- Verwenden Sie ihn für digitale Dokumente mit eingebettetem Text
- Für gescannte Dokumente oder Bilder verwenden Sie stattdessen den OCR Node
- Behandeln Sie große Dokumente bei Bedarf durch Aufteilung in Abschnitte
- Kombinieren Sie ihn mit LLM Nodes für die Dokumentenanalyse