读取PDF文档中的文本可以读取整篇文本内容,也可以只读取某部分指定文本内容。以下经验内容将分享如何通过java程序来读取指定矩形区域内的文本。
工具/原料
FreeSpire.PDFforJava(免费版)
IntelliJIDEA
jar文件获取及导入:
1、方法1:通过e-iceblue官网下载。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入到java程序。如下图:
2、方法2:可通过maven仓库安装导入,配置路径及导入傲艟茏慕方法可参考链接里的步骤:https://www.e-iceblue.cn/licensing/i荏鱿胫协nstall-spirepdf-for-java-from-maven-repository.html。
3、测试文档如下,读取红色矩形框内的文本内容:
Java代码示例
1、importcom饱终柯肢.spire.pdf.*;importjava.awt.*;importjava.io.FileWriter;importjava.io.IOException;p锇栀劐箨ublicclassGetText{publicstaticvoidmain(String[]args){//加载PDF文档PdfDocumentpdf=newPdfDocument();pdf.loadFromFile("sample.pdf");//获取第一页PdfPageBasepage=pdf.getPages().get(0);//提取指定矩形区域的文本,写入到txt文档Stringtext=page.extractText(newRectangle(60,60,500,100));StringBuildersb=newStringBuilder();sb.append(text);FileWriterwriter;try{writer=newFileWriter("GetSpecifiedText.txt");writer.write(sb.toString());writer.flush();}catch(IOExceptione){e.printStackTrace();}pdf.dispose();}}
2、文本读取结果: