題:
用於文本搜索大型文件(電子書)的軟件
DVK
2014-03-09 08:19:10 UTC
view on stackexchange narkive permalink

正在尋找一個Windows程序(類似於“一切”),可以:

  • 掃描1,000個文件夾中的很大文件(2-3TB,10,000s甚至100,000s) )遞歸目錄
  • 對於每個“文本”文件,完全索引其中的所有文本
  • 提供查找給定搜索字符串所在文件的功能。
  • “文本”文件至少應包括.txt,.pdf,.epub和.mobi。理想情況下,其他已知的電子書格式(.fb2,.doc,.docx)
  • 需要高級搜索功能(搜索一組搜索項中的所有/任意項,對搜索項取反。 )。

可選的所需功能:

  • 支持其他格式的非英語文本,用於索引和搜索;特別是俄語文本(KOI-8,Windows-1251)
  • 支持Unicode(索引和搜索)。
  • 可以瀏覽檔案(至少是.zip和.rar)
  • 良好的GUI(想想“所有”應用)來顯示搜索結果。快速篩選的網格,每個找到的文件的操作菜單,包括複製位置,打開包含文件夾,複製/剪切文件的方式,就像在Windows資源管理器菜單中一樣。
  • 在添加/刪除/更改文件時自動保持索引​​刷新文件系統,一切都可以。
  • 理想情況下,免費,但只要價格合理就不需要。
  • 需要Windows XP。 Windows8額外獎勵積分。
不錯的科幻收藏!
下次,請在您的問題中標記特定的操作系統。您還說過WindowsXP是必需的,但您將其放入了可選功能中。請澄清。我錯過了這一點,並為Windows 7(我相信它將與Win8一起使用)寫了一個答案,我仍然會發布。
@Yos233-我寧願擁有一個只有8個軟件的好軟件,而不是沒有(我可以根據需要將集合從XP遷移到8)。但目前它在XP系統上。
請記住,** Regexes / PCRE與索引方法不兼容。**正則表達式搜索無法使用全文本索引,因為它們中沒有足夠的信息來服務於正則表達式。對於基於正則表達式的方法,您需要執行經典搜索。
五 答案:
Yos233
2014-03-10 04:06:04 UTC
view on stackexchange narkive permalink

據我所知,Windows 7資源管理器具有所需的所有基本功能以及一些可選功能。


您可以在Windows中索引文件目錄(7 +)兩種方式。直接對目錄建立索引,或使其成為庫。

直接索引:請參見此處: wikiHow:如何將文件夾添加到Windows 7文件索引

創建庫::在資源管理器中,轉到“庫”,然後單擊“新建庫”。


Windows中的高級搜索為我必須為此專門查找一些內容,但是How-To Geek對此有非常豐富的文章。 文章

還請確保已啟用文件內容搜索: wikiHow:如何使Windows 7搜索文件內容


它的縮放程度如何?具體來說,它可以有效地處理問題中所述的大小,而不會使系統陷入索引和搜索的困境嗎?可以索引文本PDF的內容嗎? EPUB?
我不認為Explorer會使系統陷入癱瘓(以可能降低搜索速度為代價)。可通過Adobe IFilter .dll(http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025)進行PDF索引編制。我找不到EPUB的類似產品,因此可能找不到。
不會陷入困境嗎?它使打開(忘記搜索)其中包含數千個文件的目錄陷入困境!!!
你問了這個問題,我給你最好的答案。對我而言,使系統陷入癱瘓是指減慢其他進程的速度(例如CPU吞噬)。是的,當然,搜索數千個文件將需要一些時間。我認為您不會找到一個可以以任何快速的速度搜索可伸縮庫的程序。
我指的不是索引。我指的是顯示結果。 *所有內容*都能輕鬆顯示數千個結果。 Windows資源管理器將被凍結
** N.B。** Windows易於隨著時間推移而變慢的原因之一是默認情況下索引為ON,並且越來越慢地降低了計算機的速度。結果,它可能是最常關閉的功能之一!
請提供資料。我進行了搜索,但在索引上找不到可量化的數據,從而降低了計算機的速度。
Eduard Florinescu
2014-09-19 13:26:18 UTC
view on stackexchange narkive permalink

地區(桌面搜索)

您可以在維基百科上找到桌面搜索管理器列表,但我發現 Regain開放源代碼項目是一個明智的選擇,除此之外,它是免費的(如在libre中一樣),還開放源代碼並且仍在開發中,這意味著將出現新功能(完整功能列表此處)。

簡短說明

Regain是基於Jakarta Lucene的Java搜索引擎。它提供索引和搜索文件的多種格式(HTML,XML,doc(x),xls(x),ppt(x),oo,PDF,RTF,mp3,mp4,Java)。 TagLibrary使您可以輕鬆地將搜索結果集成到基於JSP的網頁中。

主要功能我覺得非常有用:

  • 網絡服務器(因此它可以可以在局域網中所有設備上的局域網中訪問)
  • 托盤圖標(快速訪問)
  • 索引文件的緩存版本(有時加載大PDF不會收費)
  • 搜索關鍵字(強大的朗訊關鍵字集)
  • 可以支持其他格式(再次支持I-Filter)
  • 支持API

只有幾個快照:

enter image description here

enter image description here

我很想使用它,但是缺少文檔...
miroxlav
2014-04-14 05:25:41 UTC
view on stackexchange narkive permalink

Copernic Desktop Search

對於基於全文的方法,請使用Windows Search或 Copernic Desktop Search(完整版$ 50,免費版(“ 精簡版”)非商業用途僅限於75,000個文件。)

尤其是Copernic Desktop Search具有您所需的所有功能。我已經用4,000,000個文檔對其進行了測試,但是搜索仍然非常快。它可以識別AND,OR,NOT,NEAR等運算符來支持您的搜索。

Zer0K
2014-09-21 15:37:20 UTC
view on stackexchange narkive permalink

也許 DocFetcher 可能會有所幫助。

從主頁上:

該應用程序在Windows上運行, Linux和Mac OS X,並且可以在 Eclipse Public License下獲得。

重要功能

  • 便攜式版本:有一個可移植版本的DocFetcher可以在Windows,Linux和Mac OS X上運行。此功能的有用性將在此頁的後面詳細說明。
  • 64位支持 strong>:支持32位和64位操作系統。
  • Unicode支持:DocFetcher隨附對所有主要格式(包括Microsoft Office, OpenOffice.org,PDF,HTML,RTF和純文本文件。唯一的例外是CHM,我們尚不支持Unicode。
  • 存檔支持:DocFetcher支持以下存檔格式:zip,7z,rar和整個tar。 。*家庭。可以定制zip存檔的文件擴展名,從而允許您根據需要添加更多基於zip的存檔格式。此外,DocFetcher可以處理文件的無限嵌套(例如,包含7z檔案的zip檔案,其中包含rar檔案...等等)。
  • 在源代碼文件中搜索:可以自定義DocFetcher識別純文本文件的文件擴展名,因此您可以使用DocFetcher搜索任何類型的源代碼和其他基於文本的文件格式。 (這與可自定義的zip擴展結合使用非常有效,例如,用於在Jar文件中搜索Java源代碼。)
  • Outlook PST文件:DocFetcher允許搜索Outlook電子郵件,Microsoft Outlook通常存儲在PST文件中。
  • HTML對的檢測:默認情況下,DocFetcher會檢測HTML文件對(例如,名為“ foo.html”的文件和名為“ foo.html”的文件夾) foo_files”),並將該對視為單個文檔。乍一看,此功能似乎沒有用,但事實證明, 重新處理HTML文件時,HTML文件夾中的所有“雜物”都會從結果中消失,從而大大提高了搜索結果的質量。
  • 基於正則表達式的索引文件排除:您可以使用正則表達式從索引中排除某些文件。例如,要排除Microsoft Excel文件,您可以使用如下正則表達式:。*。xls
  • MIME類型檢測:您可以使用正則表達式打開“ mime-類型檢測”,這意味著DocFetcher不僅會通過查看文件名,而且還會通過查看文件內容來嘗試檢測其實際文件類型。
  • 強大的查詢語法:除了OR,AND和NOT這樣的基本結構外,DocFetcher還支持以下功能:通配符,詞組搜索,模糊搜索(“找到與...相似的單詞”),鄰近搜索(“這兩個單詞彼此之間的距離不得超過10個單詞”),提升(“增加包含...的文檔的得分”) “)

支持的文檔格式

  • Microsoft Office(doc,xls,ppt)
  • Microsoft Office 2007及更高版本(docx, xlsx,pptx,docm,xlsm,pptm)
  • Microsoft Outlook(pst)
  • OpenOffice.org(odt,ods,odg,odp,ott,ots,otg,otp)
  • 便攜式文檔格式(pdf)
  • EPUB(epub)
  • HTML(html,xhtml,...)
  • TXT等純文本格式(可自定義)
  • 富文本格式(rtf)
  • AbiWord(abw,abw.gz,zabw)
  • Microsoft編譯的HTML幫助(chm)
  • MP3元數據(mp3)
  • FLAC元數據(flac )
  • JPEG Exif元數據(jpg,jpeg)
  • Microsoft Visio(vsd)
  • 可縮放矢量圖形(svg)
Steve Barnes
2014-03-10 11:20:51 UTC
view on stackexchange narkive permalink

WinGrep

您甚至可以在二進製文件中按需搜索給定的單詞(注:這對於某些PDF(例如來自掃描儀的PDF)效果不佳)。使用 wingrep-它是免費的,甚至可以在.zip文件中搜索。我不會一直在降低PC的運行速度,也不會使用大量的磁盤空間,因為它不會建立索引,但結果卻運行得不那麼快。它沒有Micro $ oft,因此可以在大多數Windows版本上使用。

口徑電子書管理器

不在文件 AFAIK 中搜索,但是搜索電子書元數據,您可以編輯元數據,但是 calibre具有以下功能:

  • 它專門用於維護電子書庫,
  • 可以為您轉換格式,
  • 包括多種格式的查看器,
  • 可以在大多數設備上管理電子書。

它是免費和開源的,幾乎可以在任何地方運行。

無論您做什麼,我都會強烈推薦使用它。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...