close

翻譯社

經過底下幾項測試

1.透過Adobe Reader複製後貼在任何編輯軟體都是口口口口口口口口口口口口口口口口
2.透過http://convertpdftoword.net轉成doc是空白檔案
3.透過http://www.pdfonline.com轉成doc是_RI[_WIGXMSR_XMXPIH_'MXMRK_7SYVGIW_3VEP
4.透過Solid Converter PDF轉出來跟RI[_WIGXMSR_XMXPIH_'MXMRK_7SYVGIW_3VEP類似
5.透過Foxit PDF Editor要改字型卻出現新字型的編碼與某些選取對象的目前字型不相容。變更字型作業已被取消。

爬了文,看到是內嵌包的字型在本身的電腦沒有所造成

求助PDF內容複製變亂碼問題有提到解決方法,但也要Acrobat X Standard以上的版本才有TouchUp文字工具的功能

請教是否有工具可以把內嵌的字型給撈出來,或者有其他方法可以正確的轉成doc?

應該不會需要動到OCR吧

謝謝


附加壓縮檔: 201110/mobile01-1245a341b7e52749e807cfdbc04d25c0.zip

下載點二
請參考此文,我測試結果是可行的,可惜辨識準確率未達100%。
謝謝提供方法
我不想動OCR是因為有400多頁 @@
vane wrote:
請參考此文,我測試結...(恕刪)

piligo wrote:
謝謝提供方法我不想動...(恕刪)


很不幸地,我目前知道的解法都得動用OCR,步驟稍為省事的是用ACROBAT將PDF檔轉為JPEG,再用ACROBAT開啟轉出的JPEG,接著套用ACROBAT內建的OCR,最後再轉存為DOC即可。
附件是我轉存的結果。
附加壓縮檔: 201110/mobile01-ce6c12e5fbb4794283e0d64ab63bb1e3.zip
Adobe Reader裡頭有一個功能是,檔案==>另存文字,存好後如果用筆記本開啟會亂碼的話,

請使用流灠器打開文字檔,再把編碼選萬國碼,看看是不是還是亂碼。

因為你的檔案都是英文,所以存好是不會有亂碼的。
你還是乖乖OCR吧....英文的OCR起來總比中文的容易多了吧

我用Acrobat的編輯文字複製一樣是亂碼,就算不會亂碼也要一頁一頁複製,應該也不會比OCR快....

感覺這是故意弄成這樣的,467頁包了351種字型,字型名稱像是亂碼(Google不到結果)
哇~難道您也是處理過相同的電子檔,連原始檔有467頁包了351種字型也都吻合 XD
nsps5606 wrote:
你還是乖乖OCR吧....(恕刪)

謝謝您的處理範本
vane wrote:
很不幸地,我目前知道...(恕刪)


看來非OCR不可

話說既然PDF可以把字型包進去,卻不能抽出來,期待有人開發出此工具

謝謝大家
書籍掃描後利用 Acrobat 10 OCR 的 ClearScan 進行辨識,
該 pdf 檔便會內嵌一推字型,
只能說掃描時要好好掃,辨識率高,字型的種類才會下降。

piligo wrote:
哇~難道您也是處理過...(恕刪)

piligo wrote:
哇~難道您也是處理過...(恕刪)


你可以利用google docs
google DOCS

會自動將 PDF 或圖片中可以辨識的文字擷取出來,並記錄在 Google 文件中做後續編輯

附檔是gdocs轉出來的,再下載轉存為txt,排板可能要調整一下
大概看了一下,亂碼部份都是pdf裡斜體字,所以你只要針對亂碼部份做修正就可以了
至少不用轉來轉去做ocr,只要傳上gdocs後,下載回來再修正就可以了!


附加壓縮檔: 201110/mobile01-06cb6556b494404edd636eaa6d3a9384.zip
SCANSOFT PDF CONVERTER PRO 好像是一般convert

solid convert 不能 會是亂碼


AnyBizSoft PDF Converter 將 PDF 檔案轉換成 Word、PowerPoint、HTML 網頁或者是純文字,並且也支援批次轉檔以及已加密的 PDF 檔案。

anyPdftool 的 pdf convert 好像有support ocr

PDF OCR
把pdf文件中的文字辨識出來 pdf軟體工具-
==> try

In Chapter 7, I have added a new section titled Citing Sources Orally that
helps students with all these challenges. It deals with both print and online

附加壓縮檔: 201110/mobile01-926b1366d1ef5f9f04acdb4c972e5b6e.zip

看來 這軟體 小 但可OCR

不過格式字的大小好像都跑了 ..



而且如是圖片 scan 的中文 字+ 圖的雜誌不知道
能 ocr 轉成 word 嗎 ??

剛try 過 中文的圖片
看不懂

有些 ebook 一ocr 就軟體 crash .
可能中文 ocr 要別軟體吧


google
中文 OCR光學文字識別工具 Readiris Pro
以下文章來自: https://www.mobile01.com/topicdetail.php?f=511&t=2391720有關翻譯的問題歡迎諮詢天成翻譯社

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 joycex8h8an2 的頭像
    joycex8h8an2

    munozp5111

    joycex8h8an2 發表在 痞客邦 留言(0) 人氣()