題:
程序從包含表格的圖像生成CSV文件
Franck Dernoncourt
2016-07-03 23:17:47 UTC
view on stackexchange narkive permalink

我正在尋找一個可以從包含表的掃描圖像或PDF生成CSV文件的程序

例如如果輸入為

a table with three columns

,則輸出將是相應的CSV文件:

  AIDS Behav,9712133,2016AIDS Care,8915313, 2016AIDS Educ Prev,9002873,2016 ...  

並且如果可能的話:

  • 免費
  • 可在Windows 7上運行
  • >
  • 採用不同的圖像格式以及PDF作為輸入
弗蘭克(Frank),您在S.O方面的代表很高,而您的最高標記是Python。對Python腳本進行編碼以對其進行OCR,將每一行分成單詞,最後兩個單詞是NimId,並添加年份;之前的所有內容均為“期刊縮寫”。對我來說似乎微不足道。我知道時間很短,並且您希望使用現成的解決方案,但是我懷疑您將不得不自己動手:-/
三 答案:
myusuf3
2017-07-03 22:45:48 UTC
view on stackexchange narkive permalink

我發現了一些很棒的東西 http://tabula.technology/這是我們擁有的最好的工具!它也是免費的。它對於PDF文件確實非常有效,但對於像上面這樣的格式良好的表(甚至是圖像)也可以很好地工作。

很棒的界面,很好用。

它是開放源代碼(MIT許可證),可從 https://github.com/tabulapdf/tabula

獲得源代碼。
@mysusuf3您對它們的準確性有任何結果嗎?
@TedTaylorofLife如果將數據和文本編碼為pdf超高精度。
andselisk
2017-07-05 18:17:04 UTC
view on stackexchange narkive permalink

ABBYY FineReader在光學識別方面做得很好。可能是市場上最好的。它也可以導出為* .csv等多種格式。缺點是,它不是免費的,並且該特定版本僅在Windows上有效

存在一個用於macOS的不同版本,但是它缺少許多功能,並且總體上(主觀上)比Windows版本慢。眾所周知,FineReader的早期版本也可以通過Wine在 Linux上運行,儘管它相當不穩定。

以下是程序截圖,其中包含您的數據:

enter image description here

這是結果:

 期刊縮寫,NmlD,Y耳已添加到MTIFL AIDS Behav,9712133,2016 AIDS Care ,8915313,2016 AIDS Educ Prev,9002873,2016 AIDS Patient Care STDS,9607225,2016 AJNR Am J Neuroradiol,8003708,2015 ASAIO J,9204109,2016 Acad Emerg Med,9418450,2014 Acad Radiol,9440159,2016 Accid Anal Prev, 1254476,2015 Acta Chir Iugosl,0372631,2015 Acta Clin Croat,9425483,2015 Acta Diabetol,9200299,2016 Acta Med Croatica,9208249,2015 Acta Med Iran,14540050R,2015 Acta Neurochir(Wien),0 151000,2014 Acta Neurol Scand,0370336,2015 Acta Odontol Scand,0370344,2015 Acta Psychol(Amst),0370366,2013 Acta Trop,0370374,2015 Adv Ther,8611864,2015 Aging Res Rev,101128963,2016 Aging Clin Exp Res, 101132995,2015 Aliment Pharmacol Ther,8707234,2014 Am J Addict,9208821,2015 Am J Sports Med,7609541,2014  

OCR本身在舊的Thinkpad筆記本電腦上花費了大約5秒鐘。

存在用於MacOS的@TedTaylorofLife版本,但是它缺少Windows對應版本的許多功能,包括用戶的模式學習和字典支持。它還曾經在Sierra上掛起和凍結,並且在macOS上顯示總體性能較差。如果您在使用FR的macOS上有其他經驗,我真的很高興,但是只要不是我這種情況,我就決定不聲稱它在macOS上可以完全正常工作。
@TedTaylorofLife我明確地告訴您這是兩種不同的產品,從外觀上您都不使用它們(富士通掃描儀的一個過時的版本除外)做出正確的判斷。另外,我認為您在錯誤的網站上。這不是人們使用大寫鎖互相攻擊的4chan。您剛剛標記了您的評論。
如果存在在MacOS上運行的版本,則僅在Windows上運行的聲明為false。如果要說明MacOS版本的功能較弱,請說出來。但是,您用粗體顯示了不正確的語句。依靠評論來修正您的答案是不夠的。
我為兩位先生添加了有關macOS和Linux支持的相關信息。而且沒有錯誤的陳述。我使用了僅在Windows平台上存在的版本。希望這對你們倆都有教育意義。
Ted Taylor of Life
2017-07-08 16:04:19 UTC
view on stackexchange narkive permalink

方法

我拍攝了您發布的圖像並將其運行,將其扔給了我的scansnap ix500掃描儀。 (在craigslist上購買不到200美元的舊掃描儀並獲得Abyys軟件更新)

OS

不是Windows 10,而是Windows 7

軟件

不是免費的,但是它具有掃描儀附帶的Abby Reader 5.0。 Scansnap Abby Reader for Excel

結果

我按下了掃描按鈕,然後按下了Abby Abby Fine Reader Results 期刊縮寫NlmlD添加到MTIFLAIDS Behav 9712133 2016AIDS Care 8915313 2016AIDS Educ Prev 9002873 2016AIDS Patient Care STDS 9607225 2016AJNR Am J Neuroradiol 8003708 2015ASAIOJ 9204109 2016Acad Emerg Med 9418450 2014Acad Radiol 9440159 2016Accid Anal Prev 1254476 2015Acta Chir Iugosl 0372631 2015Acta Clin Croat 9425483 2015Acta Diabetol 9200299 2016Acta Med Croatica 9208249 2015050A Acta Med1000 1974W 1974A掃描0370344 2015 Acta Psychol(Amst)0370366 2013 Acta Trop 0370374 2015Adv Ther 861186 4 2015Ageing Res Rev 101128963 2016Aging Clin Exp Res 101132995 2015Aliment Pharmacol Ther 8707234 2014Am J Addict 9208821 2015Am J Sports Med 7609541 2014

替代品

ABBYY FineReader Engine for Windows

適用於Windows的ABBYY FineReader引擎

優點1.在WindowsCons上工作1.不免費2.安裝程序,可能並不簡單

ABBYY FineReader Engine for Windows

替代數字2

Google Vision OCR API

缺點不接受pdf

方法

將圖像另存為.png並進行測試並獲得了這些結果

操作系統

可在任何操作系統上使用。

易用性

並非易事,但可以輸出到csv

結果

OCR API Results “期刊縮寫[愛滋病行為[愛滋病[愛滋病預防[愛滋病患者護理STDS [AJNR Am J Neuroradiol [ASAIO J [Acad Emerg Med [Acad Radiol [Accid Prev [Acta Chir lugosl [Acta Clin Croat [Acta Diabetol [Acta Med Croatica [Acta Med伊朗[Acta Neurochir(Wien)[Acta Neurol掃描[Acta Odontol Scand [Acta Psychol(Amst)[Acta Trop [Adv Ther [Ageing Res Rev i [Aging Clin Exp Res [Aliment Pharmacol Ther [Am J Addict [ Am J Sports Med iii NImlD 9712133 8915313 9002873 9607225 8003708 9204109 9418450 9440159 1254476 0372631 9425483 9200299 9208249 1454005OR 0151000 0370336 0370344 0370366 0370374 8611864 101128963 101132995 8707234 9208821 7609541添加到MTIFL O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2016 O 2015 O 2015 O 2015 O 2016 O 2015 O 2015 O 2014 2015 O 2015 O 2013 O 2015 O 2015 O 2016 O 2015 O 2014 2015 O 2014 O“”

希望您知道[CSV](https://en.wikipedia.org/wiki/Comma-separated_values)的含義。因為您的輸出都不包含CSV。複製他人的答案並不是一個好辦法。
鏈接內容時,請確保已仔細閱讀。我知道我發布的格式不是標準化的csvs。這個傢伙正在從麻省理工學院獲得博士學位,我很確定他能弄清楚。加上Vision API以json文件或csv格式返回輸出。在SE上發布CSV並非易事。只是您發布的鏈接中的一個事實。 “ CSV文件格式不是標準化的。用逗號分隔字段的基本思想很明確,但是當字段數據中也可能包含逗號甚至嵌入式換行符時,這種想法就變得複雜了。”


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...