1. Home
  2. Prodotti
  3. TET / TET IFilter
Product

PDFlib TET

PDFlib Text Extraction Toolkit (TET) versione 5 è ora disponibile. Visita la pagina dedicata per scoprire tutte le nuove funzionalità incluse in questa nuova versione.

PDFlib Text Extraction Toolkit (TET) è uno strumento per l'estrazione del testo dai documenti PDF.

E' disponibile sia come libreria che come command line. TET estrae il testo come stringa Unicode o come struttura XML, inoltre estra simboli ed informazioni sui font. Con TET è possibile estrarre un determinato carattere corrispondente ad un valore Unicode e conoscerne la posizione all'interno del documento.

Oltre all'estrazione a basso livello, TET permette l'analisi dei contenuti attraverso l'utilizzo di avanzati algoritmi per identificare i limiti delle parole, i duplicati (come ombre e grassetto artificiale), ecc. In parallelo con pCOS, TET permette di estrarre qualsiasi informazione dal documento.

La versione dimostrativa di TET per varie piattaforme è disponibile nell'area download insieme a documentazione ed esempi. Con l'acquisto della licenza, è sufficiente applicare la chiave alla versione dimostrativa per abilitare tutte le funzionalità.

Con PDFlib TET è possibile

  • Estrarre testo da un documento PDF da salvare in un database.
  • Realizzare un motore di ricerca.
  • Convertire il testo contenuto nel PDF in formato XML per l'elaborazione con altri strumenti.
  • Elaborare i PDF in base al loro contenuto.

Formati supportati

  • Tutte le versioni di PDF dalla 1.0 alla 1.7 extension level 8 e PDF 2.0, corrispondenti a Acrobat 1-XI.
  • Tutti i font e gli encoding: Base 14, TrueType, PostScript, OpenType, CID.
  • PDF crittografati a 40 e 128 bit (password richiesta)

Unicode

Sebbene il testo nei PDF di norma non sia in formato Unicode, PDFlib TET permette la conversione in tale formato Unicode:

  • TET converte il testo in Unicode. In C il testo sarà estratto in UTF-8 o UTF-16.
  • Legature ed altri simboli verranno tradotti nei corrispondenti caratteri Unicode.
  • I caratteri speciali (Private Use Area, PUA) saranno identificati e, possibilmente, convertiti nel carattere standard corrispondente.
  • E' possibile configurare un'appropriata conversione per i simboli.

Supporto CJK

TET supporta l'estrazione di testo in Cinese, Giapponese e Coreano. Tutte le CMaps CJK standard sono riconosciute, così come le modalità di scrittura in orizzontale ed in verticale.

Analisi dei contenuti ed identificazione delle parole

TET include strumenti per l'analisi del testo con cui:

  • Identificare i limiti delle parole evitando l'estrazione di caratteri orfani.
  • Ricombinare parole suddivise in più righe.
  • Rimuove i duplicati, come le ombre ed il grassetto artificiale.
  • Ricombinare i paragrafi.
  • Riordinare il testo suddiviso nelle pagine.
  • Ricostruire righe di testo.

Geometria

TET permette la misurazione precisa del testo, così come la posizione nella pagina, le dimensioni dei simboli e la direzione di scrittura. Aree particolari possono essere incluse o escluse dall'estrazione, come i margini, gli header e i footer.

Interfaccia pCOS

TET include l'interfaccia pCOS (PDFlib Comprehensive Object System) per l'estrazione di oggetti dal documento.Con pCOS è possibile estrarre metadati, ipertesti e qualsiasi altra informazione invisibile attraverso una semplice interfaccia e senza la necessità di programmazione a basso livello.

Programmazione e performance

TET è stato sviluppato pensando alla portabilità, alle performance ed alla robustezza. TET è thread-safe negli ambienti multi-thread. Il motore è scritto in C completamente ottimizzato per ottenere grandi prestazioni con il minimo carico. TET è disponibile per COM, C, C++, Java e .NET.

Libreria e command line TET

TET è disponibile come libreria o come command line per operazioni batch. Entrambe offrono le medesime funzionalità ma sono adatte ad operaioni diverse.

  • La libreria TET è indicata per applicazioni desktop/server integrate ed è disponibile per numerosi linguaggi di programmazione
  • La command line TET è indicata per operazioni di batch, per l'utilizzo locale o per workflow.

Plugin TET

Il plugin PDFlib TET è un plugin gratuito per l'estrazione del testo. Attraverso il plugin TET è possibile utilizzare il PDFlib Text Extraction Toolkit. Sebbene il plugin TET debba essere utilizzato con Acrobat, l'estrazione non utilizza funzionalità del programma, ma esclusivamente proprie tecnologie. Il plugin TET è una semplice dimostrazione tecnologica delle potenzialità di PDFlib TET.