如何讓電子書可以搜尋內文?
製作自炊電子書,除了把書數位化便於攜帶外,其實另一個關鍵在於製作內嵌文字的PDF檔案,有內嵌文字的PDF檔案好處相當多,我們可以在保有掃描圖像的同時又可針對PDF圖像內容進行「全文檢索」。
像是在閱讀電子書時可把有趣的內容擷取出來做筆記,或是把不懂的單字或段落丟到google翻譯中進行語文轉換,這些都只有製作內嵌文字的PDF才能辦得到。
▲在PDF 專業製作軟體Acrobat Pro版中,即有支援文件OCR與製作內嵌文字PDF的功能。
★製作可全文檢索的OCR PDF
●先將要製作內嵌文字的PDF開啟
●選擇「文件」「OCR文字辨識」「使用OCR識別文字」。
●在識別文字視窗中,選擇「所有頁面」。
●在識別文字視窗中,可在「設定」資訊框內檢視目前設定狀態,若想變更OCR文字, 可進入「編輯」進行其他文字選擇,PDF輸出樣式設為「可搜尋的影像」按下「確定」。
●等候OCR自動進行各書頁的文字辨識與檔案圖層/ 文字層資料整合,處理完成後,我們就可以在PDF中進行全文資料檢索。
全文檢索OCR PDF列示圖:
★其他內嵌文字PDF的製作方法
方案A:使用掃描器整合功能
以Fujitsu iX500這台饋紙式掃描器,也有在其驅動程式整合製作「轉換為可搜尋的PDF檔案」轉換功能,實際上就是把PDF轉換成內嵌文字版本,也可利用這類功能建立可搜尋的內嵌文字PDF。
方案B:使用OCR光學文字辨識軟體
除了使用掃描器驅動程式內建的PDF內嵌文字轉換功能外,我們也可以利用專業的OCR(Optical Character Recognition)軟體,如ABBYY Finereader、國產丹青這類軟體進行PDF轉內嵌文字辨識版本。
方案C:Evernote 文件OCR服務
在Evernote付費用戶帳號中, 使用者可以享用便捷的文件OCR服務, 像是Evernote 的圖片、PDF文件筆記附件,都可以自動轉換成具內嵌文字的可搜尋式文件狀態, 利用Evernote 的搜尋功能就能把散落筆記四處的文件通通搜出來。
本文出自:《拆掉一本書:把房間、書櫃、辦公桌清空,神奇的自炊紙整理術》
作者:黃裕元
留言列表