在檔案管理應用當中,有一個大家都非常關注的功能:檔案管理系統搜索引擎,是否可以直接搜索PDF文件?對于這個問題,會博通的回答是肯定的。
會博通通過專項開發接口,可將百度OCR功能調用到檔案管理系統中,將存放于系統的證照、票據等圖片識別為文字,實現了圖片檔案的快速檢索。
使用效果如下圖。直接在會博通搜索引擎上輸入搜索文字,結果反饋除了文檔格式之外,還包括PDF等圖片格式。
OCR技術指的是,對文本資料的圖像文件,進行分析識別處理,獲取版面信息的過程。在眾多OCR應用當中,基于對識別準確率、場景覆蓋面、語種豐富度等因素的考量,會博通選擇了百度OCR。
在圖片文字識別上,百度OCR不僅能夠識別常規PDF文件,還能識別存在背景豐富、低亮度、低對比度、光照不均、透視變形、字號、字重、顏色不一等多重問題的圖片,精準度可以說是非常高的。
同時,百度OCR也適用于卡證驗核、財會報銷、交通物流、教育培訓、內容審核等多種文字識別場景,滿足檔案管理的多種需求。此外,百度OCR還支持英、日、韓、法、德、意等20多種語種,對于多語言識別也不在話下。
在配置了OCR功能的會博通檔案系統當中,圖片資料一經上傳,系統便會分配一個后臺任務,在系統空閑的時候,對文件進行識別成為文本文件。 文本文件識別完成后,內容就會自動接入到會博通搜索平臺當中,與搜索內容進行匹配,便于用戶精準快速獲取包含圖片在內的信息。
在會博通檔案管理軟件當中,OCR功能屬于選配組件。如果您的檔案當中存在大量的PDF、JPG等圖片資料,為方便后期檢索,我們建議您最好選配OCR功能。
如果您對于檔案全文檢索需求不大,或檔案資料以電子化的文檔為主,那么也可以暫且不配置該功能;如果您的系統安裝沒有配置OCR功能,但隨著業務的發展,對于圖片搜索的需求增加,那么也可以隨時聯系我們進行系統升級。
圖片資料,為方便后期檢索,我們建議您最好選配OCR功能;如果您對于檔案全文檢索需求不大,或檔案資料以電子化的文檔為主,那么也可以暫且不配置該功能;如果您的系統安裝沒有配置OCR功能,但隨著業務的發展,對于圖片搜索的需求增加,那么也可以隨時聯系我們進行系統升級。
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。