PDF複製出來的文字變亂碼(字型問題)－munozp5111

翻譯社

經過底下幾項測試

1.透過Adobe Reader複製後貼在任何編輯軟體都是口口口口口口口口口口口口口口口口
2.透過http://convertpdftoword.net轉成doc是空白檔案
3.透過http://www.pdfonline.com轉成doc是_RI[_WIGXMSR_XMXPIH_'MXMRK_7SYVGIW_3VEP
4.透過Solid Converter PDF轉出來跟RI[_WIGXMSR_XMXPIH_'MXMRK_7SYVGIW_3VEP類似
5.透過Foxit PDF Editor要改字型卻出現新字型的編碼與某些選取對象的目前字型不相容。變更字型作業已被取消。

爬了文，看到是內嵌包的字型在本身的電腦沒有所造成

求助PDF內容複製變亂碼問題有提到解決方法，但也要Acrobat X Standard以上的版本才有TouchUp文字工具的功能

請教是否有工具可以把內嵌的字型給撈出來，或者有其他方法可以正確的轉成doc?

應該不會需要動到OCR吧

謝謝

附加壓縮檔: 201110/mobile01-1245a341b7e52749e807cfdbc04d25c0.zip

下載點二

請參考此文，我測試結果是可行的，可惜辨識準確率未達100%。

謝謝提供方法
我不想動OCR是因為有400多頁 @@

vane wrote:
請參考此文，我測試結...(恕刪)

piligo wrote:
謝謝提供方法我不想動...(恕刪)

很不幸地，我目前知道的解法都得動用OCR，步驟稍為省事的是用ACROBAT將PDF檔轉為JPEG，再用ACROBAT開啟轉出的JPEG，接著套用ACROBAT內建的OCR，最後再轉存為DOC即可。
附件是我轉存的結果。
附加壓縮檔: 201110/mobile01-ce6c12e5fbb4794283e0d64ab63bb1e3.zip

Adobe Reader裡頭有一個功能是，檔案==>另存文字，存好後如果用筆記本開啟會亂碼的話，

請使用流灠器打開文字檔，再把編碼選萬國碼，看看是不是還是亂碼。

因為你的檔案都是英文，所以存好是不會有亂碼的。

你還是乖乖OCR吧....英文的OCR起來總比中文的容易多了吧

我用Acrobat的編輯文字複製一樣是亂碼，就算不會亂碼也要一頁一頁複製，應該也不會比OCR快....

感覺這是故意弄成這樣的，467頁包了351種字型，字型名稱像是亂碼(Google不到結果)

哇~難道您也是處理過相同的電子檔，連原始檔有467頁包了351種字型也都吻合 XD

nsps5606 wrote:
你還是乖乖OCR吧....(恕刪)

謝謝您的處理範本

vane wrote:
很不幸地，我目前知道...(恕刪)

看來非OCR不可

話說既然PDF可以把字型包進去，卻不能抽出來，期待有人開發出此工具

謝謝大家

書籍掃描後利用 Acrobat 10 OCR 的 ClearScan 進行辨識，
該 pdf 檔便會內嵌一推字型，
只能說掃描時要好好掃，辨識率高，字型的種類才會下降。

piligo wrote:
哇~難道您也是處理過...(恕刪)

你可以利用google docs
google DOCS

會自動將 PDF 或圖片中可以辨識的文字擷取出來，並記錄在 Google 文件中做後續編輯

附檔是gdocs轉出來的,再下載轉存為txt,排板可能要調整一下
大概看了一下,亂碼部份都是pdf裡斜體字,所以你只要針對亂碼部份做修正就可以了
至少不用轉來轉去做ocr,只要傳上gdocs後,下載回來再修正就可以了!

附加壓縮檔: 201110/mobile01-06cb6556b494404edd636eaa6d3a9384.zip

SCANSOFT PDF CONVERTER PRO 好像是一般convert

solid convert 不能會是亂碼

AnyBizSoft PDF Converter 將 PDF 檔案轉換成 Word、PowerPoint、HTML 網頁或者是純文字，並且也支援批次轉檔以及已加密的 PDF 檔案。

anyPdftool 的 pdf convert 好像有support ocr

PDF OCR
把pdf文件中的文字辨識出來 pdf軟體工具-
==> try

In Chapter 7, I have added a new section titled Citing Sources Orally that
helps students with all these challenges. It deals with both print and online

附加壓縮檔: 201110/mobile01-926b1366d1ef5f9f04acdb4c972e5b6e.zip

看來這軟體小但可OCR

不過格式字的大小好像都跑了 ..

而且如是圖片 scan 的中文字+ 圖的雜誌不知道
能 ocr 轉成 word 嗎 ??

剛try 過中文的圖片
看不懂

有些 ebook 一ocr 就軟體 crash .
可能中文 ocr 要別軟體吧

google
中文 OCR光學文字識別工具 Readiris Pro

以下文章來自: https://www.mobile01.com/topicdetail.php?f=511&t=2391720有關翻譯的問題歡迎諮詢天成翻譯社

joycex8h8an2

munozp5111

joycex8h8an2 發表在痞客邦留言(0) 人氣()

E-mail轉寄

munozp5111

歡迎光臨joycex8h8an2在痞客邦的小天地

PDF複製出來的文字變亂碼(字型問題)

歷史上的今天

留言列表

站方公告

活動快報

天海旅...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

POWERED BY