推广

轻松识别文字,这款Python OCR库支持超过80种语言

iseeyu2年前 (2024-02-21)推广141

细心观察便可发现,身边到处都是OCR的身影,文档扫描、牌识别、证件识别、银行卡识别、票据识别等等。

OCR本质是图像识别,其包含两大关键技术:文本检测和文字识别。

先将图像中的特征的提取并检测目标区域,之后对目标区域的的字符进行分割和分类。

关于EasyOCR

Python中有一个不错的OCR库-EasyOCR,在GitHub已有9700star。它可以在python中调用,用来识别图像中的文字,并输出为文本。

https://github.com/JaidedAI/EasyOCR

EasyOCR支持超过80种语言的识别,包括英语、中文(简繁)、阿拉伯文、日文等,并且该库在不断更新中,未来会支持更多的语言。

安装EasyOCR

安装过程比较简单,使用pip或者conda安装。

pip install easyocr

如果用的PyPl源,安装起来可能会耽误些时间,建议大家用清华源安装,几十秒就能安装好。

使用方法

EasyOCR的用法非常简单,分为三步:

  • 1.创建识别对象;
  • 2.读取并识别图像;
  • 3.导出文本。

我们先来举个简单的例子。

找一张路标图片,保存到电脑:

接着撸代码:

# 导入easyocr
import easyocr
# 创建reader对象
reader = easyocr.Reader(['ch_sim','en']) 
# 读取图像
result = reader.readtext('test.jpg')
# 结果
result

输出结果:

可以看到路标上的三个路名以及拼音都识别出来了!

识别的结果包含在元组里,元组由三部分组成:边框坐标、文本、识别概率。

关于语言:

这段代码有一段参数[‘ch_sim’,’en’],这是要识别的语言列表,因为路牌里有中文和英文,所以列表里添加了ch_sim(简体中文)、en(英文)。

可以一次传递多种语言,但并非所有语言都可以一起使用。英语与每种语言兼容,共享公共字符的语言通常相互兼容。

前文我们给出了EasyOCR支持的语言列表,并附有参数代号。

关于图像文件:

上面传入了相对路径’test.jpg’,还可以传递OpenCV图像对象(numpy数组)、图像字节文件、图像URL。

再读取一张文字较多的新闻稿图片:

# 导入easyocr
import easyocr
# 创建reader对象
reader = easyocr.Reader(['ch_sim','en']) 
# 读取图像
result = reader.readtext('test1.jpg')
# 结果
result

识别文字的准确率还是很高的,接下来对文字部分进行抽取。

for i in result:
    word = i[1]
    print(word)

输出:

小结

该开源库是作者研究了几篇论文,复现出来的成果,真是一位实干家。

检测部分使用了CRAFT算法,识别模型为CRNN,它由3个主要组件组成:特征提取,序列标记(LSTM)和解码​​(CTC)。整个深度学习过程基于Pytorch实现。

作者一直在完善EasyOCR,后续计划一方面扩展支持更多的语言,争取覆盖全球80%~90%的人口;另一方面支持手写识别,并提高处理速度。

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/57135.html

相关文章

口腔医院行业腾讯广告投放方法论

口腔医院行业腾讯广告投放方法论

  医药行业由于其高技术门槛,商业本质上是一个消费和科技双重属性的特殊赛道。 细分医药行业下的医疗服务是更贴近市场和消费者的,比如口腔健康。随着经济的快速发展,人们的健康意识也快速增强,越来越重视口腔健康。新的审美趋势下,一大批90后、00后开始重点关注对牙齿美观,毫无疑问这...

关于能量,你怎么看?

第41期每日线上分享精华总结今日话题:你认为能量对一个人的影响有多大?如何界定正能量和负能量?未来你该如何做呢?1、以后,我要像躲避瘟神一样躲避那些扯我后腿的负能量,让自己变成浑身上下皆是正能量的人,去成就自己、去影响他人!2、能量是传染的3、此刻正当修行时4、一个人的身体...

我来教你网站建设如何提升特色网站设计。

我来教你网站建设如何提升特色网站设计。

企业现在已经逐渐变成抄袭,这就很容易给客户造成审美疲劳。虽然现在很多网站都采用扁平化设计方式,然而在内容设计和界面设计还是比较呆板。我们设计网站应该采用美学和结合网站自身特点设计,这样做出来的网站比较适合企业本身。我们如何让网站更符合企业或者符合网站运营本身,让自己网站变得更具有特点和特色。接下来...

seo怎样查询网站收录seo如何快速收录。

seo怎样查询网站收录seo如何快速收录。

seo怎样查询网站收录?seo如何快速收录?seo与收录紧密相连,收录是排名的基础,没收录就一定没排名,采用科学的方法查询尽可能准确的网站收录情况,是我们从事seo的基本工作。怎样查询网站收录?方法多种多样,建议各种方式综合使用。下面点瑞网小编就为大家介绍一下seo怎样查询网站收录和seo如何快速收...

百度熊掌号快速秒收录的小秘密。

百度熊掌号快速秒收录的小秘密。

我们都知道互联网是草根的全国,搜索引擎优化博客更是如韭菜一般,一茬接着一茬,前赴后继的一大堆人再做,一个关键词的需求剖析被做了n次,你要是伪原创人家的,不是高手验证是必定通不过的怎么办?咋们只能先从小需求开端做,小到没人做是最好的,这样的资源提交校验就能经过尽管搜的人少,可是是有需求的,真实的高质量...

从0开始运营公众号详解。

从0开始运营公众号详解。

前段时间有朋友问我:灯姐,公众号怎么运营啊,我也想搞一个。作为一个总共才写了四篇文章粉丝还不到一千的人来说,实在不敢说自己是个大佬。但是我过往的运营经验较为丰富,所以在自己摸索着公众号运营这条路上,也有很多可迁移的逻辑在里面。讲道理取得了现在这个成绩,其实是超了我当时给自己定的KPI了,所以这里做一...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片