軟件介紹

軟件標(biāo)簽: orc識(shí)別軟件識(shí)別軟件

漢王orc軟件是一款常用于電腦文字識(shí)別的提取軟件，它能有效識(shí)別文字圖片字符等多種功能，使用簡(jiǎn)單識(shí)別快速，支持各電腦系統(tǒng)使用?？靵?lái)綠色資源網(wǎng)下載體驗(yàn)吧！

軟件介紹

漢王OCR文字識(shí)別軟件具有識(shí)別正確率高，識(shí)別速度快的特點(diǎn)。支持批量處理功能，避免了單頁(yè)處理的麻煩。漢王OCR支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件；可識(shí)別簡(jiǎn)體、繁體和英文三種語(yǔ)言；具有簡(jiǎn)單易用的表格識(shí)別功能；具有TXT、RTF、HTM和XLS多種輸出格式，并有所見(jiàn)即所得的版面還原功能。

識(shí)別過(guò)程

1.圖像輸入、圖像前處理、預(yù)識(shí)別：

2.圖像輸入：對(duì)于不同的圖像格式，有著不同的存儲(chǔ)格式，不同的壓縮方式，目前有OpenCV、CxImage等開(kāi)源項(xiàng)目。

3.預(yù)處理：主要包括二值化，噪聲去除，傾斜較正等。

4.版面還原：

- 人們希望識(shí)別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變地輸出到word文檔、PDF文檔等，這一過(guò)程就叫做版面還原。

5.二值化：

- 對(duì)攝像頭拍攝的圖片，大多數(shù)是彩色圖像，彩色圖像所含信息量巨大，對(duì)于圖片的內(nèi)容，我們可以簡(jiǎn)單的分為前景與背景，為了讓計(jì)算機(jī)更快的、更好地識(shí)別文字，我們需要先對(duì)彩色圖進(jìn)行處理，使圖片只前景信息與背景信息，可以簡(jiǎn)單的定義前景信息為黑色，背景信息為白色，這就是二值化圖。

6.噪聲去除：

- 對(duì)于不同的文檔，我們對(duì)噪聲的定義可以不同，根據(jù)噪聲的特征進(jìn)行去燥，就叫做噪聲去除。

7.傾斜校正：

- 由于一般用戶(hù)，在拍照文檔時(shí)，都比較隨意，因此拍照出來(lái)的圖片不可避免的產(chǎn)生傾斜，這就需要文字識(shí)別軟件進(jìn)行較正。

8.版面分析：

- 將文檔圖片分段落，分行的過(guò)程就叫做版面分析，由于實(shí)際文檔的多樣性，復(fù)雜性，因此，目前還沒(méi)有一個(gè)固定的，最優(yōu)的切割模型。

9.字符切割：

- 由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識(shí)別系統(tǒng)的性能。

10.后處理、校對(duì):

- 根據(jù)特定的語(yǔ)言上下文的關(guān)系，對(duì)識(shí)別結(jié)果進(jìn)行校正，就是后處理。

11.字符識(shí)別：

- 這一研究已經(jīng)是很早的事情了，比較早有模板匹配，后來(lái)以特征提取為主，由于文字的位移，筆畫(huà)的粗細(xì)，斷筆，粘連，旋轉(zhuǎn)等因素的影響，極大影響特征的提取的難度。