各種電子圖書館文章轉為Word文檔的方法

2010-08-28 10:49:44來源:西部e網作者:

    各種識別軟件對電子圖書館文章的識別各有缺陷,有的只能識別字,對表格和圖形無能為力;有的識別后生成的版面亂七八糟,無法使用。還在為不同格式的文件怎么變成Word文件發(fā)愁嗎?現(xiàn)在好了,本文給出了所有情況下全文件表格、圖形、文字識別的完美解決方案,幫助大家掌握正確方法,節(jié)省時間:

  1、PDF文件的識別

  1)文件可以直接識別的(以文本形式保存的PDF文件):安裝acrobat 7專業(yè)版,注意不是acrobat reader,直接另存為rtf文件(識別整個文件),或者選擇工具欄上的文字選擇按鈕,然后選擇文字區(qū)域,然后復制到Word等中。

  2)文件不能直接識別的(以圖片形式保存的PDF文件):安裝office2003,并裝上office工具Microsoft Office Document Imaging(完全安裝此工具),然后在打印機里面會增加Microsoft Office Document Image Writer打印機,然后將PDF文件打印到此打印機,選擇打印形成的文件的保存位置,然后會自動形成一個MDI文件,并且自動用Microsoft Office Document Image打開此文件,然后選擇“工具”菜單下的“使用ocr識別文本”,識別完成后,在選擇“工具”下的,“將文本發(fā)送到Word”,最后將把整個PDF文件識別輸出到Word文件中。

  注意:Microsoft Office Document Image可以非常準確的全文件識別轉化中文、英文、表格,但是無法將圖形輸出到Word,而是把文件中的所有圖形單獨形成一個個獨立的圖片文件,放在相同位置的一個相同名稱的文件夾中,因此可用snagit軟件將圖形打開,然后復制到Word中。(所有的識別軟件都不能很好的處理圖形的識別問題,Microsoft Office Document Image的這種處理方法已經是非常好的解決這個問題了。)

  3)加密的Pdf文件:先下載解密軟件,解密后在參看1),2)

  4)繁體pdf文件:用2)的方法識別到Word后,用Word中的“工具”--“語言”---“中文繁簡轉換”

  2、caj文件的識別:

  1)局部文字識別:直接使用caj瀏覽器的ocr

  2)全文件識別:打印到Microsoft Office Document Image Writer打印機,后面和上面的2)操作一樣

  3)博碩論文全文下載:在線閱讀博碩論文,待可以看到最后一頁后,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的文件,拷貝到其他位置即可。然后使用2)全部轉化為Word。

  3、超星文件的識別:

  1)局部文字識別:直接使用超星瀏覽器的ocr

  2)全文件識別:打印到Microsoft Office Document Image Writer打印機,后面和上面的2)操作一樣,要注意的是,超星打印功能有點區(qū)別,因為超星是目錄和全文分開的,所以打印時,需要分別把目錄和正文識別到Word中,在合并到一起。打印時要填入打印頁碼從1到最后一頁,不要選擇打印全部。此外在打印選項中,還要將頁面比例設成真實大小,而不是整寬。注意:識別速度比其他格式要慢很多,請保持耐心,但是最后當你看到輕松的生成全本書的Word版本時,你會欣喜若狂的,呵呵。我的試驗結果是一本280頁的書,識別需要幾分鐘的時間。

  3)超星相對比較麻煩一些,如果還有問題,可以先把超星打印成完整的pdf文件,然后在用1、的方法轉成Word

  4、其他情況下的識別:

  使用snagit軟件將任何形式的文字可以變成圖片,例如使用snagit將屏幕拷貝成圖片,然后右鍵點擊圖片文件,用microsoft Office Document Image打開圖形,其他和2)一樣。

  注意:其他的各種識別軟件請不要在用,因為要么只能識別中文,要么只能識別英文,要么不能識別整個文件,要么不能識別屏幕拷貝圖像,要么識別誤差很大,要么不能識別表格,要么需要注冊,要么識別速度很慢,要么使用不便(和Word結合不緊),這些軟件包括:紫光ocr,萬方pdfocr,尚書,漢王,ScanSoft PDF Converter,pdf2Word,以及各種被推薦的軟件等等,我都裝過,現(xiàn)在都像LJ一樣刪除了。只要安裝了acrobat 專業(yè)版,snagit,office2003,現(xiàn)在你可以完美的做任何事,最重要的是這幾個軟件很好得到。

  針對一些問題的補充:

  經過一些試驗,發(fā)現(xiàn)microsoft Office Document Image 存在一些不穩(wěn)定的問題,例如在用caj打印到Microsoft Office Document Image Writer打印機時,發(fā)現(xiàn)用caj5.5版本比較快,(caj5.5不能加升級補丁),而caj5.0有時出現(xiàn)假死機。

  另外頁面顯示大時,轉化的識別率較高。

  如果頁數(shù)多的文件,包括超星,如果有問題,可以分多次轉化。

  再次補充:

  1、由于虛擬打印到Microsoft Office Document Image Writer 比較慢,并且形成的虛擬文件很大,1本200多頁的書大約是60M,因此會嚴重影響機器的運行速度和C盤空間以及內存空間,建議配置好的機器一次轉化不要超過200頁,配置差的不要超過100頁,同時打印時在右下角系統(tǒng)欄中會出現(xiàn)打印機圖,你可以雙擊,看到打印任務的進度,以免以為死機了。另外轉化完成后請刪除c:\windows\temp目錄下的虛擬打印文件,否則你的c盤很快會被用光。

  2、建議如果發(fā)生打印到Microsoft Office Document Image Writer很慢或者假死的情況,可以先打印到snagit虛擬打印機,會自動生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,選擇打印機為Microsoft Office Document Image Writer打印機,(相當于再打印到Microsoft Office Document Image Writer打印機),然后選擇snagit---outputs下的printer,然后選擇snagit----file----finish output,即可生成msi文件,其他一樣。轉化完成后請刪除c:\windows\systems32\snagit臨時文件。

關鍵詞:Word

贊助商鏈接: