Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码、测试数据和训练集下载地址

   日期:2024-12-26    作者:szlini3395 移动:http://mip.riyuangf.com/mobile/quote/44629.html

 OCR(Optical character recognition) —— 光学字符识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向。可惜国内的科研院所,基本没有几个高识别率的训练集——笔者联系过北京语言大学研究生一篇论文的作者,他们论文说有%90的正确识别率,结果只做了20个笔画简单的汉字(20/6753 = %0.3 常用简体汉字的千分之三),然后找了20个学生,各自手写了一遍。真的是为了论文而论文,而且很会选择样本(小而简单)

斯坦福大学有个工程项目,专门做中文汉字的识别——欧美发达国家的科研院所更有研究精神

 提高识别率,训练集是关键!

 提高识别率,训练集是关键!!

 提高识别率,训练集是关键!!!

下载训练集—traineddata请移步:

中文请选如下4个:

chi_sim.traineddata (简体— 对于宋体,像素>= 300dpi:识别率高达%100,同时对英文阿拉伯数字识别率高达百分之90以上

chi_sim_vert.traineddata (简体,竖排)

chi_tra.traineddata (繁体)

chi_tra_vert.traineddata(繁体,竖排)【】

请参考官网:

经过测试得出如下结论:

(1)源码如下(支持多个图片识别)

具体说明及测试效果请参见:

相关测试图片请参见:

(2)原始图片及效果 ()

基于“chi_sim.traineddata ”— 即简体中文训练集

图1

转换效果如下:

【结论】

300dpi,识别率:%100

图2

转换效果如下:

Brief history

Tesseractwes orginally developed at HewlettPackard Laboratones Bristol and

atHewettPackard Co Greeley Colorado beween 1985 and 1994 wthsome

more changes made in 1996 to portto Windows and some C++zing in1998

In2005 Tesseract was open sourced by HP Since 2006 itis developed by Goosgle

Thelatest (LSTM based]j stableversionis4.10, released on July 7.2019.Latest source codes avaable from

master branch on GlHub.Openissues can be foundin ssue racker and Planning iki

Thelatest35 version 5 3.05.02 released onjune 19,2018.Latestsource code for3.055 avaable from

305 branch on GlHHub.There sno development forthisversion,butitcan be used forspecial cases .

see Regression offeatures from 30x

See Release Notes and Change Log formore detas ofthe releases-

Installing Tesseract

You can ettherInstall Tesseractvia prepulltbinary package or pulld iLfrom sourcey

Supported Complersare:

* GCC48 and above

* ang34and above

* MSVC 2015.2017.2019

Othercompllersmightwork butare notofially supportedl

Running Tesseract

Basiccommand line usage:

tesseract inagenane outputbase -1 ang】 --osn ocrenginenode--psn pagesegnode

configfiles...

Formore information aboutthe various command line options use esseract --henp or man tesseract .

Examples can befoundin thewiki

For developers

Developers can use Tbtessaract Cor

【结论】

英文,特殊符号等会识别失败。识别率:>%80

图3.

转换效果如下:

E g 气

Even as Tvanja praised 8e parties Envoyed i 功 i5 7el gzamt7 comgpi 地 08

Qchieveze1 Q 7W7Der- Ofsocial media lsers appeared crilical of er as-

Sesszet 0f 加 e Trip adiistration「5 role 加 功 i5 endeavou7

IBM 表 示 不 服 ,Google 不 care。 下 而 让 我 们 逐 字 逐 句 来 看 他 们 的 论 文

吧 , 对 于 争 论 的 事 情 , 自 己 下 功 夫 搞 清 楚 。

松 贵 莹 坊 办 少

忠 : https:/ww.cnblogs-com/NaughtyCatpytranslate-of-google-

Quantum-supremacy-article-published-on-nature.html

Quantum supremacy using

a programmable

superconducting

processor

基 于 可 编 程 的 超 导 处 理 器 实 现 的 量 子 霸

动 关 盘 源 ,https://doorg/10.1038/s41586-019-1666-5

煌 收 船 2019 乐 7 历 20 历

旋 准 8 船 2019 乐 9 历 20 厂

坊 终 发 疗 2019 知 10 月 23 厅

Abstract

引 言

量 子 计 算 机 吹 牛 遢 说 , 对 于 特 定 的 计 算 任 务 , 基 于 量 子 处 理 器 的 计 算

机 , 其 速 度 相 较 于 经 典 处 理 器 呈 指 数 级 增 长 。 根 本 的 挑 战 在 于 构 建 一

【结论】

宋体,加粗,黑色——识别率%100;倾斜,绿色等——识别率:%70

图4(扫描件).

转换效果如下:

节 P a

为客户服务是华为存在的睢一理由” 从 公 司 层 面

看 , 为客户创造价值的主业务流只有一个!

Ipo - nisgniedProductDevelopment

B croeis PaFA 4 辜蒙扁)

Unc - LomdTocash

芸 a npe waa8 2 菅墨

E Ig - ssueToResoliton 林

P L a 颤〉

n i t t

6 P: 01

IP0 主 业 务 流 包 括 : MW 流 程 、0R 流 程 、IPD 流 程

D

4 一

【结论】

pdf扫描件,只有比较大,比较粗的字能识别出来,颜色较淡的识别不出来

识别率:约%10

 图5.

转化效果如下:

大 行 佳 孔 当 自 弼 不 。

巧 者 劳 而 春 者 忱 , 无 能 者 无 所 必 , 作 食 而 邀

游 , 陆 若 不 系 之 舟 。

Chacgyuisdt.

124565.

12256 dogdogunnn

【结论】

汉字、英文、数字混合

识别率:%60~%70

图6(天气网页截图)

转换效果如下:

L f

全 国 > 囚 川 > 尿 膳 > 坂 区

今 夺 伟 8-15 天

llc/4rc

208 238 028 058

人 [ [ 92

s

c E E

无 RR 无 RR 无 RR 无 RR

< < < <

【结论】

背景颜色(蓝色,灰色,黑色、橙色);字体颜色(黑色、白色)。识别率:不到%10

图7.

转换效果如下:

机 器 人 餐 厅

cra arenzanmu nnanmes

seeu xraguagpt. ssepumes

人 吊 pahs ztpznaapsus anea

an sro an sessuassnet

e ssoangm crmazees aas

iusiaanorg.mmouz rpeae

snreenatesezur eeae t

+ngszensenapenecieme

矿 svapgzanohat

【结论】

75dpi,识别率:约为%5 【】

图8(电影字幕截图).

转换效果如下:

E

1 30

E

55

【结论】

背景颜色(渐变灰),字体为白色——识别率:%0

图9(古籍).

转换效果如下:

茂 长 万 灰 咆

恍 “ 望 泷 “ 松 驱

明 匹 一 图 抚 札 狐

东 非 “ 柳 一 吴

埕 跃 X“ 埋 煌 弟

仪 怀 坂 称 鸟 场 “

下 泊 聪 遇 林固 “

| 靴 犹 “

【结论】

竖排,古籍版 (需要“chi_tra.traineddata及“chi_tra_vert.traineddata”)——识别率:__%0

图9(手机拍照图片).

转换效果如下:

在 中 国 , 餐 厅 里 的 菜 通 常 很 特 别 , 但 是 有 时 候 做 菜 和 服 务

的 人 也 很 特 别 : 不 久 前 昆 山 一 家 餐 厅 开 业 , 这 家 餐 厅 从 欢 迎 宰

人 、 点 菜 、 制 作 到 上 菜 , 大 部 分 工 作 都 由 机 器 人 完 成 。 餐 厅 经 理

宋 育 刚 对 他 的 “ 员 工 “ 很 满 意 。 这 些 机 咤 人 能 理 解 40 句 日 常 生

活 用 语 , 因 此 可 以 与 顾 客 交 流 。 让 宋 育 刚 最 满 意 的 是 , 他 的 这 些

员 工 们 既 不 会 生 病 也 不 会 请 假 。 充 电 两 个 小 时 后 , 它 们 就 又 能

投 入 使 用 了 , 因 此 它 们 要 比 普 通 员 工 优 秀 。 对 于 顾 客 来 说 , 技 术

水 平 有 没 有 达 到 能 使 这 些 机 蹇 人 厨 师 很 好 地 调 味 还 不 得 而 知 。

不 过 , 机 器 人 厨 师 倒 是 非 常 令 人 期 待 。

【结论】

手机拍照图片,还算清晰的——识别率:%100

转载请注明出处:

参考:

1)

2)

  本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

************************************************************************

精力有限,想法太多,专注做好一件事就行


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号