免費的OCR軟件，可搜索PDF（在正確的位置帶有可搜索的文本）

題:

免費的OCR軟件，可搜索PDF（在正確的位置帶有可搜索的文本）

Cornelius

2014-04-20 16:30:51 UTC

view on stackexchange narkive permalink

是否有任何免費軟件OCR軟件（適用於Linux和/或Windows）可以將PDF掃描的文檔作為輸入，並像Adobe Acrobat一樣輸出可搜索的PDF？

對於可搜索的PDF我是說OCRed文本在原始文本上不可見，可以用鼠標選擇並複制。

我知道Linux上的 gscan2pdf可以執行類似的操作，但是該文本被放置在頁面的左上角，它太小，根本與後台掃描頁面上的文本不同步。這是因為gscan2pdf將整個頁面饋送到OCR引擎。它應該將圖像分解為帶有單行文本或小段文字的小圖像，然後發送給OCR軟件。

您想使用哪種語言進行OCR？英語？法國人？日本？

羅馬尼亞語和英語。 Tesseract可以做到這一點，但我無法將文本嵌入PDF。

[Lios]（http://linux-intelligent-ocr-solution.googlecode.com/）應該做到這一點，但是我對軟件沒有任何個人經驗。

-1

@Cornelius是FLOSS，您可能需要報告遇到的錯誤。

看看AskUbuntu上的這個問題：http：//askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution

十一答案:

Guido Domenici

2014-06-30 21:03:06 UTC

view on stackexchange narkive permalink

PDF-XChange Viewer是允許您執行此操作的工具。免費版本可讓您以多種語言對文檔進行OCR（您可以免費下載其他語言包），並將OCR文本添加為覆蓋文本層，可從中進行複制並使用CTRL + F搜索。

具有許多功能的快速PDF查看器
快速OCR引擎（除非您選擇最佳精度）
許多選項具有 PRO 圖標（僅在Pro版本上可用），但是您可以隱藏它們
顏色管理和自定義屏幕DPI設置
僅Windows應用程序，似乎無法在葡萄酒上工作（查看器可以工作，但是OCR功能會使其崩潰）

不起作用的地方：

OCR不利用多個核心
OCR無法檢測到字符樣式（粗體，斜體）或複制功能會丟失它們
它不使用正確的羅馬尼亞語變音符號，但是如果您在編輯器中復製文本並進行搜索和替換，則可以解決以下問題：

enter image description here

enter image description here

好的軟件。到目前為止，我已經用我的經驗更新了您的答案。

它實際上可以與Wine 1.5.28一起使用...不適用於其他版本。幸運的是，PlayOnLinux允許您使用多個Wine版本。

對我來說，@AndreaLazzarotto在Wine 1.8中完美運行。

@Cornelius,，您是對的。我最近在Wine 1.9上嘗試了新版本的PDF Xchange Viewer，現在似乎可以使用了。但這不是過去的事，我想他們也更新了該程序，這不僅是因為Wine更好。

查看器已停產，但仍可以通過https://www.tracker-software.com/product/pdf-xchange-viewer/download?fileid=446下載

似乎可以使用便攜式版本2.5.0322.7和wine 2.0.3。 OCR路徑C：\ Program Files \ Tracker Software \ PDF Viewer \ ocrdats

student

2014-12-16 01:57:53 UTC

view on stackexchange narkive permalink

嘗試 pdfsandwich 。從手冊頁：

pdfsandwich生成“三明治” OCR pdf文件，即僅包含圖像（無文本）的pdf文件將通過光學字符識別（OCR）處理，並且文本將會被不可見地添加到圖像的每個頁面之後。

pdfsandwich是一個命令行實用程序。如果您有掃描的pdf文件，例如以下文件： alice.pdf （這是您可能聽說過的小說的第一章），請像這樣調用pdfsandwich：
  pdfsandwich alice.pdf  
這將生成一個看起來像原始文件的文件 alice_ocr.pdf ，但是可識別的文本將放置在掃描圖像。您可以立即進行全文搜索，也可以選擇文本區域。

另一個選項可能是 OCRmyPDF 。

Cornelius

2014-07-22 21:11:52 UTC

view on stackexchange narkive permalink

Tesseract 的較新版本（在撰寫本文時為3.03 RC）可以做到：

免費，開源和跨平台
從3.03版開始提供PDF輸出
CLI軟件
支持多種語言
不幸的是，單圖像輸入，因此，要製作完整的文檔，必須創建一個批處理腳本，以將每個頁面圖像轉換為可搜索的PDF。之後，應使用 pdftk 之類的工具將PDF頁面合併為一個PDF。

這是命令：

  tesseract -l <lang> input.tif輸出pdf

請注意，為了使用此方法，必須首先將輸入PDF柵格化，因為tesseract不會將PDF作為輸入。

Zaroth

2015-06-26 15:22:26 UTC

view on stackexchange narkive permalink

pypdfocr 對我有用。這是一個Python腳本，可簡化整個Tesseract的用法。安裝依賴項後（在Linux上這是一個簡單得多的過程），就像鍵入以下內容一樣簡單：

pypdfocr myfile.pdf

並打開 myfile_ocr .pdf 過一會兒。

BarathVutukuri

2015-07-23 16:18:51 UTC

view on stackexchange narkive permalink

我將Microsoft OneNote用作OCR工具。右鍵單擊圖像，它可以復製圖像中的整個文本，還可以搜索圖像中的文本。它是免費且準確的，並且可以在Windows上運行，並且支持幾乎所有圖像格式。

它還可以搜索PDF文件以及PDF文件中的圖像。多種語言：）英語，法語，西班牙語也

James Polley

2016-08-21 10:14:06 UTC

view on stackexchange narkive permalink

https://www.microsoft.com/zh-cn/store/p/leadtools-ocr/9wzdncrdr0d5是一個小型的簡單WinRT應用程序（在Win10上也可以正常運行），什麼也不做不僅僅是拍攝圖像或pdf並輸出三明治PDF或文本。它有點醜陋，而且絕對沒有任何配置，但是可以完美地完成這一小任務。

aparente001

2016-09-07 19:18:34 UTC

view on stackexchange narkive permalink

您可以使用Google雲端硬盤獲取可搜索的文本。

首先，選擇一個密鑰設置。在Google雲端硬盤設置的“常規”下，選中“轉換上傳：將上傳的文件轉換為Google文檔編輯器格式”旁邊的框。

現在將pdf上傳到您的Google雲端硬盤（點擊“新建”，然後“上傳文件”）。上傳完成後（可能需要一兩分鐘），右鍵單擊它。（如果您找不到它，請嘗試單擊左側邊欄中的“最近”。）正如我所說，右鍵單擊您上傳的pdf，然後選擇“使用...打開Google文檔”。現在您將擁有可搜索的文本。

Leo Cardoso

2017-03-07 17:55:31 UTC

view on stackexchange narkive permalink

另一個選項是pdf2pdfocr（ https://github.com/LeoFCardoso/pdf2pdfocr），它基於Tesseract-OCR，可以在Windows，MacOS和Linux操作系統上本地運行。

免責聲明：我是pdf2pdfocr開發人員。

calvinyoung

2015-12-16 03:59:53 UTC

view on stackexchange narkive permalink

儘管此主題的其他答案都集中在台式機軟件上，但我已經通過以下Web服務取得了很多成功： http://www.searchablepdfs.org/

它允許您上傳掃描文檔的PDF，並生成帶有嵌入式OCR文本的“三明治PDF”，您可以復制/粘貼。

優點：

快速
高質量的OCR文本識別（我得到的結果至少與使用 tesseract 所獲得的結果一樣好，這是Cornelius提到的）
跨平台（這是一個Web應用程序，因此您無需自己安裝任何軟件）
免費

缺點：

僅支持英文文檔 li>
每個文件最多只能處理10頁

kpk

2017-10-05 11:03:57 UTC

view on stackexchange narkive permalink

另外兩個選項：

1）在線：www.sandwichpdf.com

2）台式機（多種操作系統）：NAPS2- https：//www.naps2 .com /

CodingLove

2019-12-06 01:15:17 UTC

view on stackexchange narkive permalink

看看 OCRvision。 OCRvision是一種可搜索的PDF軟件。它可以將文件夾中的所有掃描文檔自動轉換為可搜索的PDF。它支持多語言OCR。可以為掃描的PDF和圖像文件進行配置，然後轉換為可搜索的pdf

免責聲明：-我作為開發人員與OCRvision關聯

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律

Loading...