原文地址:Tiiktak的博客

安装Tesseract-OCR

官网下载最新的Windows安装包,双击运行

根据需要选择,一路Next,直到这个页面

Additional language data(download)中选择要下载的其他语言的数据,之后程序会自动下载。一直到安装成功

配置环境变量

进入高级系统设置,选择高级->环境变量

选中系统变量Path->编辑

新建一项,地址为Tesseract-OCR的安装目录即可(例如C:\Program Files\Tesseract-OCR

可以通过在控制台中输入tesseract命令来检查是否配置成功,输出如图即表示成功

配置Python

直接使用pip install pytesseract进行安装

pytesseract

功能

  • get_tesseract_version  返回系统中安装的Tesseract版本。
  • image_to_string  将图像上的Tesseract OCR运行结果返回到字符串
  • image_to_boxes  返回包含已识别字符及其框边界的结果
  • image_to_data  返回包含框边界,置信度和其他信息的结果
  • image_to_osd  返回包含有关方向和脚本检测的信息的结果

参数

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)
  • image object  图像对象
  • lang String,Tesseract  语言代码字符串
  • config String  任何其他配置为字符串,例如:config=’–psm 6’
  • nice Integer  修改Tesseract运行的处理器优先级。Windows不支持。
  • output_type  类属性,指定输出的类型,默认为string。

简单实例

识别一张图像中字符并直接输出

import pytesseract

im = "C:/Users/1/Desktop/test.jpg"
result = pytesseract.image_to_string(im)

print(result)

这样识别到的字符就会转化成字符串输出