用於將PDF轉換為文本的Python模塊

題:

Franck Dernoncourt

2017-04-28 07:46:45 UTC

view on stackexchange narkive permalink

是否有任何Python模塊可將PDF文件轉換為文本？我嘗試了在Activestate中找到的一段代碼（ mirror），該代碼使用pypdf，但是生成的文本之間沒有空格，也沒有用。

此問題最初由 cnu 發佈在堆棧溢出上，但已被關閉。

八答案:

Steve Barnes

2017-04-28 10:59:02 UTC

view on stackexchange narkive permalink

用於python 3 庫的python pdfminer2 或 pdfminer3k / pdfminer.six可以從pdf中提取文本包含文本的文件（請注意，以pdf格式存儲的掃描文檔將不包含文本或嘗試進行OCR）。

它包含命令行 pdf2txt.py 實用程序，以方便使用在終端中使用。

Rutrus

2017-06-24 18:47:32 UTC

view on stackexchange narkive permalink

在python中管理pdf的最簡單方法是 PyPDF2，您還可以提取文本和其他信息，例如頁面，作者，創建者...

您說您嘗試過 pypdf ，但這是一個過時的版本，可以解決此問題。也許您的問題出在特定文件上。如果 PyPDF2 無法解決您的問題，您是否看到unix命令 pdftotext ？它會為您提供正確的輸出嗎？

Shoham

2018-03-05 02:40:36 UTC

view on stackexchange narkive permalink

唯一適用於UTF-8內容的解決方案： Apache Tika

from tika import parserparsed = parser.from_file（'/ path / to / file.pdf'）print（parsed [“ content”]）

Cornelius Roemer

2020-05-18 00:18:29 UTC

view on stackexchange narkive permalink

我使用了兩個PDF模塊： PyPDF2 和 pdfminer.six

PDFminer.six比PyPDF2更可靠，但速度要慢6倍（

這是PDFminer.six的工作代碼示例，文檔有點稀疏： https://stackoverflow.com/a/61857301/7483211 >

感謝您分享您的體驗！

Tilal Ahmad

2019-10-25 19:08:57 UTC

view on stackexchange narkive permalink

您可以使用 GroupDocs.Conversion Cloud SDK for Python將PDF轉換為文本。它也可以將其他常用文件格式轉換為文本。它的免費套餐計劃每月提供50個免費積分。

我是Aspose的開發人員。

Franck Dernoncourt

2020-05-18 09:35:29 UTC

view on stackexchange narkive permalink

https://github.com/kermitt2/grobid + https://github.com/kermitt2/grobid-client-python：

從學術文獻中提取信息
兩個倉庫是Apache-2.0
從PDF文章中全文提取和結構化，包括一個模型整體的文檔分割和文本主體結構的模型（段落，節標題，參考標註，圖形，表格等）。
grobid在Java和可以通過 https://github.com/kermitt2/grobid-client-python

通過Python稱為服務

Franck Dernoncourt

2020-05-18 09:39:56 UTC

view on stackexchange narkive permalink

https://github.com/allenai/spv2：

不再維護
無許可證
專注於學術文章

Franck Dernoncourt

2020-05-18 09:50:07 UTC

view on stackexchange narkive permalink

https://github.com/allenai/science-parse：

Science Parse解析科學論文（PDF格式）並以結構化形式返回它們。到目前為止，它支持以下字段：[…]節（每個節都有標題和正文）。
Apache License 2.0
用Java編寫。要將其與Python一起使用，請參見 https://github.com/allenai/science-parse/issues/133#issuecomment-629943735

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律