題:
免費的OCR軟件,可搜索PDF(在正確的位置帶有可搜索的文本)
Cornelius
2014-04-20 16:30:51 UTC
view on stackexchange narkive permalink

是否有任何免費軟件OCR軟件(適用於Linux和/或Windows)可以將PDF掃描的文檔作為輸入,並像Adobe Acrobat一樣輸出可搜索的PDF?

對於可搜索的PDF我是說OCRed文本在原始文本上不可見,可以用鼠標選擇並複制。

我知道Linux上的 gscan2pdf可以執行類似的操作,但是該文本被放置在頁面的左上角,它太小,根本與後台掃描頁面上的文本不同步。這是因為gscan2pdf將整個頁面饋送到OCR引擎。它應該將圖像分解為帶有單行文本或小段文字的小圖像,然後發送給OCR軟件。

您想使用哪種語言進行OCR?英語?法國人?日本?
羅馬尼亞語和英語。 Tesseract可以做到這一點,但我無法將文本嵌入PDF。
[Lios](http://linux-intelligent-ocr-solution.googlecode.com/)應該做到這一點,但是我對軟件沒有任何個人經驗。
-1
@Cornelius是FLOSS,您可能需要報告遇到的錯誤。
看看AskUbuntu上的這個問題:http://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
十一 答案:
Guido Domenici
2014-06-30 21:03:06 UTC
view on stackexchange narkive permalink

PDF-XChange Viewer是允許您執行此操作的工具。免費版本可讓您以多種語言對文檔進行OCR(您可以免費下載其他語言包),並將OCR文本添加為覆蓋文本層,可從中進行複制並使用CTRL + F搜索。

  • 具有許多功能的快速PDF查看器
  • 快速OCR引擎(除非您選擇最佳精度)
  • 許多選項具有 PRO 圖標(僅在Pro版本上可用),但是您可以隱藏它們
  • 顏色管理和自定義屏幕DPI設置
  • 僅Windows應用程序,似乎無法在葡萄酒上工作(查看器可以工作,但是OCR功能會使其崩潰)

不起作用的地方:

  • OCR不利用多個核心
  • OCR無法檢測到字符樣式(粗體,斜體)或複制功能會丟失它們
  • 它不使用正確的羅馬尼亞語 變音符號,但是如果您在編輯器中復製文本並進行搜索和替換,則可以解決以下問題:

enter image description here

enter image description here

好的軟件。到目前為止,我已經用我的經驗更新了您的答案。
它實際上可以與Wine 1.5.28一起使用...不適用於其他版本。幸運的是,PlayOnLinux允許您使用多個Wine版本。
對我來說,@AndreaLazzarotto在Wine 1.8中完美運行。
@Cornelius,,您是對的。我最近在Wine 1.9上嘗試了新版本的PDF Xchange Viewer,現在似乎可以使用了。但這不是過去的事,我想他們也更新了該程序,這不僅是因為Wine更好。
查看器已停產,但仍可以通過https://www.tracker-software.com/product/pdf-xchange-viewer/download?fileid=446下載
似乎可以使用便攜式版本2.5.0322.7和wine 2.0.3。 OCR路徑C:\ Program Files \ Tracker Software \ PDF Viewer \ ocrdats
student
2014-12-16 01:57:53 UTC
view on stackexchange narkive permalink

嘗試 pdfsandwich 。從手冊頁:

pdfsandwich生成“三明治” OCR pdf文件,即僅包含圖像(無文本)的pdf文件將通過光學字符識別(OCR)處理,並且文本將會被不可見地添加到圖像的每個頁面之後。

pdfsandwich是一個命令行實用程序。如果您有掃描的pdf文件,例如以下文件: alice.pdf (這是您可能聽說過的小說的第一章),請像這樣調用pdfsandwich:

  pdfsandwich alice.pdf  

這將生成一個看起來像原始文件的文件 alice_ocr.pdf ,但是可識別的文本將放置在掃描圖像。您可以立即進行全文搜索,也可以選擇文本區域。

另一個選項可能是 OCRmyPDF

Cornelius
2014-07-22 21:11:52 UTC
view on stackexchange narkive permalink

Tesseract 的較新版本(在撰寫本文時為3.03 RC)可以做到:

  • 免費,開源和跨平台
  • 從3.03版開始提供PDF輸出
  • CLI軟件
  • 支持多種語言
  • 不幸的是,單圖像輸入,因此,要製作完整的文檔,必須創建一個批處理腳本,以將每個頁面圖像轉換為可搜索的PDF。之後,應使用 pdftk 之類的工具將PDF頁面合併為一個PDF。

這是命令:

  tesseract -l <lang> input.tif輸出pdf  
請注意,為了使用此方法,必須首先將輸入PDF柵格化,因為tesseract不會將PDF作為輸入。
Zaroth
2015-06-26 15:22:26 UTC
view on stackexchange narkive permalink

pypdfocr 對我有用。這是一個Python腳本,可簡化整個Tesseract的用法。安裝依賴項後(在Linux上這是一個簡單得多的過程),就像鍵入以下內容一樣簡單:

pypdfocr myfile.pdf

並打開 myfile_ocr .pdf 過一會兒。

BarathVutukuri
2015-07-23 16:18:51 UTC
view on stackexchange narkive permalink

我將Microsoft OneNote用作OCR工具。右鍵單擊圖像,它可以復製圖像中的整個文本,還可以搜索圖像中的文本。它是免費且準確的,並且可以在Windows上運行,並且支持幾乎所有圖像格式。

它還可以搜索PDF文件以及PDF文件中的圖像。多種語言:)英語,法語,西班牙語也

James Polley
2016-08-21 10:14:06 UTC
view on stackexchange narkive permalink

https://www.microsoft.com/zh-cn/store/p/leadtools-ocr/9wzdncrdr0d5是一個小型的簡單WinRT應用程序(在Win10上也可以正常運行),什麼也不做不僅僅是拍攝圖像或pdf並輸出三明治PDF或文本。它有點醜陋,而且絕對沒有任何配置,但是可以完美地完成這一小任務。

aparente001
2016-09-07 19:18:34 UTC
view on stackexchange narkive permalink

您可以使用Google雲端硬盤獲取可搜索的文本。

首先,選擇一個密鑰設置。在Google雲端硬盤設置的“常規”下,選中“轉換上傳:將上傳的文件轉換為Google文檔編輯器格式”旁邊的框。

現在將pdf上傳到您的Google雲端硬盤(點擊“新建”,然後“上傳文件”)。上傳完成後(可能需要一兩分鐘),右鍵單擊它。 (如果您找不到它,請嘗試單擊左側邊欄中的“最近”。)正如我所說,右鍵單擊您上傳的pdf,然後選擇“使用...打開Google文檔”。現在您將擁有可搜索的文本。

Leo Cardoso
2017-03-07 17:55:31 UTC
view on stackexchange narkive permalink

另一個選項是pdf2pdfocr( https://github.com/LeoFCardoso/pdf2pdfocr),它基於Tesseract-OCR,可以在Windows,MacOS和Linux操作系統上本地運行。

免責聲明:我是pdf2pdfocr開發人員。

calvinyoung
2015-12-16 03:59:53 UTC
view on stackexchange narkive permalink

儘管此主題的其他答案都集中在台式機軟件上,但我已經通過以下Web服務取得了很多成功: http://www.searchablepdfs.org/

它允許您上傳掃描文檔的PDF,並生成帶有嵌入式OCR文本的“三明治PDF”,您可以復制/粘貼。

優點:

  • 快速
  • 高質量的OCR文本識別(我得到的結果至少與使用 tesseract 所獲得的結果一樣好,這是Cornelius提到的)
  • 跨平台(這是一個Web應用程序,因此您無需自己安裝任何軟件)
  • 免費

缺點:

  • 僅支持英文文檔 ​​li>
  • 每個文件最多只能處理10頁
kpk
2017-10-05 11:03:57 UTC
view on stackexchange narkive permalink

另外兩個選項:

1)在線:www.sandwichpdf.com

2)台式機(多種操作系統):NAPS2- https://www.naps2 .com /

CodingLove
2019-12-06 01:15:17 UTC
view on stackexchange narkive permalink

看看 OCRvision。 OCRvision是一種可搜索的PDF軟件。它可以將文件夾中的所有掃描文檔自動轉換為可搜索的PDF。它支持多語言OCR。可以為掃描的PDF和圖像文件進行配置,然後轉換為可搜索的pdf

免責聲明:-我作為開發人員與OCRvision關聯

Screenshot1 screenshot2



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...