PDFlib TET / TET IFilter
PDFlib Text Extraction Toolkit (TET) è uno strumento per l'estrazione del testo dai documenti PDF.
E' disponibile sia come libreria che come command line. TET estrae il testo come stringa Unicode o come struttura XML, inoltre estra simboli ed informazioni sui font. Con TET è possibile estrarre un determinato carattere corrispondente ad un valore Unicode e conoscerne la posizione all'interno del documento.
Con PDFlib TET, ad esempio, è possibile:
- Estrarre testo da un documento PDF da salvare in un database.
- Realizzare un motore di ricerca.
- Convertire il testo contenuto nel PDF in formato XML per l'elaborazione con altri strumenti.
- Elaborare i PDF in base al loro contenuto.