1. Home
  2. Prodotti
  3. TET / TET IFilter
Product

PDFlib TET / TET IFilter

PDFlib Text Extraction Toolkit (TET) è uno strumento per l'estrazione del testo dai documenti PDF.

E' disponibile sia come libreria che come command line. TET estrae il testo come stringa Unicode o come struttura XML, inoltre estra simboli ed informazioni sui font. Con TET è possibile estrarre un determinato carattere corrispondente ad un valore Unicode e conoscerne la posizione all'interno del documento.

Con PDFlib TET, ad esempio, è possibile:

  • Estrarre testo da un documento PDF da salvare in un database.
  • Realizzare un motore di ricerca.
  • Convertire il testo contenuto nel PDF in formato XML per l'elaborazione con altri strumenti.
  • Elaborare i PDF in base al loro contenuto.

Ulteriori informazioni su TET.

Ulteriori informazioni su TET IFilter.