用於python 3 庫的python pdfminer2 或 pdfminer3k / pdfminer.six可以從pdf中提取文本包含文本的文件(請注意,以pdf格式存儲的掃描文檔將不包含文本或嘗試進行OCR)。
它包含命令行 pdf2txt.py
實用程序,以方便使用在終端中使用。
在python中管理pdf的最簡單方法是 PyPDF2,您還可以提取文本和其他信息,例如頁面,作者,創建者...
您說您嘗試過 pypdf
,但這是一個過時的版本,可以解決此問題。也許您的問題出在特定文件上。如果 PyPDF2
無法解決您的問題,您是否看到unix命令 pdftotext
?它會為您提供正確的輸出嗎?
唯一適用於UTF-8內容的解決方案: Apache Tika
from tika import parserparsed = parser.from_file('/ path / to / file.pdf')print(parsed [“ content”])
我使用了兩個PDF模塊: PyPDF2
和 pdfminer.six
PDFminer.six比PyPDF2更可靠,但速度要慢6倍(
這是PDFminer.six的工作代碼示例,文檔有點稀疏: https://stackoverflow.com/a/61857301/7483211 >
您可以使用 GroupDocs.Conversion Cloud SDK for Python將PDF轉換為文本。它也可以將其他常用文件格式轉換為文本。它的免費套餐計劃每月提供50個免費積分。
我是Aspose的開發人員。
https://github.com/kermitt2/grobid + https://github.com/kermitt2/grobid-client-python:
從PDF文章中全文提取和結構化,包括一個模型整體的文檔分割和文本主體結構的模型(段落,節標題,參考標註,圖形,表格等)。
https://github.com/allenai/science-parse:
Science Parse解析科學論文(PDF格式)並以結構化形式返回它們。到目前為止,它支持以下字段:[…]節(每個節都有標題和正文)。