題:
用於索引,處理和一般管理數字化文檔的工具
Tobias Würth
2018-03-27 00:05:45 UTC
view on stackexchange narkive permalink

我目前正試圖從以物理形式存檔和存儲文檔到將其數字化。

我已經掃描了所有文檔。掃描本身存儲為300dpi JPG圖像文件。

我正在尋找一種可以處理這些圖像以識別其上的文本的工具。此外,它應該提供某種“搜索”功能,以便於文檔查找。

我認為以下內容“很不錯”:

  • 上下文分析(可識別)多部分文檔)
  • 自動分組(例如,如果文檔上打印有日期,則按日期排列)
  • 圖像校正(例如,如果圖像上下顛倒)
  • 能夠掃描更多類型的文檔(例如pdf,png,..)

我計劃在Windows 2016 Server或Windows 10 Pro系統上運行此文件。對我來說,是否可以通過Web界面或客戶端應用程序訪問應用程序本身並不重要。能夠通過提供要連接的端點來訪問移動設備上的文件也是很不錯的獎勵。

我願意一次性支付高達100美元的價格,...免費是更好的選擇。

有什麼建議嗎?有經驗嗎?

一 回答:
#1
+3
Nicolas Raoul
2018-03-27 08:52:03 UTC
view on stackexchange narkive permalink

Alfresco可以做到這一點,實際上我幾年前就為類似的用例配置了它。

  1. 安裝Alfresco2運行並稍微使用一下即可獲得了解它的作用。基本上,它使您可以根據需要使用文件夾/類別/標籤/方面/元數據上傳和組織文檔(您不必全部使用這些文件,例如,可以僅使用文件夾和標籤)。
  2. 通過遵循 https://community.alfresco.com/blogs/alfresco-premier-services/2017/10/11/indexing-image-in-alfresco-with-tesseract-ocr設置OCR
  3. 您現在可以按其OCRed文本內容搜索文檔(PNG,BMP,JPEG,GIF,TIFF,PDF)。
  4. ol>

    Alfresco search popup

  • 免費和開源
  • Web界面
  • 服務器在Windows / Linux / Mac上運行
  • 不幸的是,您沒有提到“很不錯”的功能。
謝謝!我敢肯定,請嘗試一下並回复您,儘管看起來很有希望
tbh,在嘗試使用它幾個小時而沒有取得進展之後,我對此並沒有很好的印象。創建用戶可以正常工作,但顯示其詳細信息卻無法。另外,創建的用戶無法使用Web界面(權限問題?),嘗試刪除提供的示例文件也無法正常工作,並且上傳文件也失敗-我不敢相信。也許有些“清潔” /微光?
您是說用戶無法登錄?還是他們無法輸入您創建的“站點”?您可以設置“站點”的權限,以便每個人都可以在登錄後看到它。如果您以admin身份登錄,則可以刪除示例。您可以將Alfresco問題發佈到superuser.com :-)
沒有登錄本身有效,但是在屏幕顯示“出問題了”之後立即顯示。無法從那裡執行進一步的操作。我必須刪除本地緩存,然後使用管理員帳戶重新登錄。另外,使用管理員帳戶刪除示例數據無效


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...