PDFlib TET
產(chǎn)品編號(hào):1636
當(dāng)前版本:v2.3
開 發(fā) 商:PDFlib
產(chǎn)品類型:獨(dú)立控件
產(chǎn)品功能:PDF處理
運(yùn)行平臺(tái):
開發(fā)語言:Web Form / Windows Form
產(chǎn)品源碼:不提供源碼
PDFlib TET(文本內(nèi)容提取工具包)是一款可以從任意PDF文檔格式中可靠地提取文本信息的軟件。它不僅可以作為一種庫/控:,還可以一種命令行工具。該工具包可以使得PDF格式的文本內(nèi)容轉(zhuǎn)換成Unicode(統(tǒng)一的字符編碼標(biāo)準(zhǔn))字符串,并附加詳細(xì)的字形和字體信息。一旦擁有了TET,你就可以從PDF文檔中的文本獲取相應(yīng)的Unicode字符值,以及它在頁面的位置。
PDFlib TET 特征:
除了低水平的文字獲取功能外,TET還包含有文本內(nèi)容分析算法——鑒 單詞邊界,去除冗余和重復(fù)文本(比如文字陰影和字體加粗)。使用輔助的PCOS接口,你就可以從PDF格式文本獲取任意格式的對(duì)象,比如元數(shù)據(jù),超文本等。