題:
用於將PDF轉換為文本的Python模塊
Franck Dernoncourt
2017-04-28 07:46:45 UTC
view on stackexchange narkive permalink

是否有任何Python模塊可將PDF文件轉換為文本?我嘗試了在Activestate中找到的一段代碼 mirror),該代碼使用pypdf,但是生成的文本之間沒有空格,也沒有用。


此問題最初由 cnu 發佈在堆棧溢出上,但已被關閉。

八 答案:
Steve Barnes
2017-04-28 10:59:02 UTC
view on stackexchange narkive permalink

用於python 3 庫的python pdfminer2 pdfminer3k / pdfminer.six可以從pdf中提取文本包含文本的文件(請注意,以pdf格式存儲的掃描文檔將不包含文本或嘗試進行OCR)。

它包含命令行 pdf2txt.py 實用程序,以方便使用在終端中使用。

Rutrus
2017-06-24 18:47:32 UTC
view on stackexchange narkive permalink

在python中管理pdf的最簡單方法是 PyPDF2,您還可以提取文本和其他信息,例如頁面,作者,創建者...

您說您嘗試過 pypdf ,但這是一個過時的版本,可以解決此問題。也許您的問題出在特定文件上。如果 PyPDF2 無法解決您的問題,您是否看到unix命令 pdftotext ?它會為您提供正確的輸出嗎?

Shoham
2018-03-05 02:40:36 UTC
view on stackexchange narkive permalink

唯一適用於UTF-8內容的解決方案: Apache Tika

from tika import parserparsed = parser.from_file('/ path / to / file.pdf')print(parsed [“ content”])
Cornelius Roemer
2020-05-18 00:18:29 UTC
view on stackexchange narkive permalink

我使用了兩個PDF模塊: PyPDF2 pdfminer.six

PDFminer.six比PyPDF2更可靠,但速度要慢6倍(

這是PDFminer.six的工作代碼示例,文檔有點稀疏: https://stackoverflow.com/a/61857301/7483211 >

感謝您分享您的體驗!
Tilal Ahmad
2019-10-25 19:08:57 UTC
view on stackexchange narkive permalink

您可以使用 GroupDocs.Conversion Cloud SDK for Python將PDF轉換為文本。它也可以將其他常用文件格式轉換為文本。它的免費套餐計劃每月提供50個免費積分。

我是Aspose的開發人員。

Franck Dernoncourt
2020-05-18 09:35:29 UTC
view on stackexchange narkive permalink

https://github.com/kermitt2/grobid + https://github.com/kermitt2/grobid-client-python

  • 從學術文獻中提取信息
  • 兩個倉庫是Apache-2.0
  • 從PDF文章中全文提取和結構化,包括一個模型整體的文檔分割和文本主體結構的模型(段落,節標題,參考標註,圖形,表格等)。

  • grobid在Java和可以通過 https://github.com/kermitt2/grobid-client-python
通過Python稱為服務
Franck Dernoncourt
2020-05-18 09:39:56 UTC
view on stackexchange narkive permalink

https://github.com/allenai/spv2

  • 不再維護
  • 無許可證
  • 專注於學術文章
Franck Dernoncourt
2020-05-18 09:50:07 UTC
view on stackexchange narkive permalink

https://github.com/allenai/science-parse



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...