題:
猜猜作者的母語
Franck Dernoncourt
2014-07-28 08:24:50 UTC
view on stackexchange narkive permalink

我正在尋找一個圖書館或程序,當給定用英語編寫的文本時,它會試圖猜測作者的母語(例如,基於常見的錯誤,短語等):理想情況下,它將給出每種語言的可能性(例如0.8西班牙語,0.3法語,0.2意大利語等)。如果可能的話,免費,開放源代碼,並且可以與Windows 7 SP1 x64 Ultimate或Ubuntu一起使用。

這聽起來更像是計算機語言研究的想法,而不是軟件。如果有足夠的培訓課文,您可以使用統計方法-例如每人數千頁,每種語言數百人。當然,這是一個“不錯的”計算機語言研究理念!
一 回答:
zelandiya
2014-10-06 04:07:14 UTC
view on stackexchange narkive permalink

這是我所知道的最接近的內容,是在線測驗,而不是程序: http://www.gameswithwords.org/WhichEnglish/

但是在軟件方面,我建議嘗試使用受監管的文本分類庫(Python中為NLTK,Java中為Mallet),該庫針對您知道作者母語的文本進行了培訓。我建議保留停用詞,並使用n-gram作為特徵,以嘗試捕捉以英語為母語的人如何說話的特定特徵。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...