python 识别图片上的数字,使用pytesseract库从图像中提取文本,而识别引擎采用 tesseract-ocr。
Tesseract是一款由Google赞助的开源OCR。OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
pytesseract是python包装器,它为可执行文件提供了pythonic API。
# ————————————————————————
1、安装必要的包:
pip install pillow
pip install pytesseract
2、安装tesseract-ocr的识别引擎
* 下载地址:https://github.com/UB-Mannheim/tesseract/wiki
# ————————————————————————
* 装完成后配置环境变量: 我的电脑 ->属性 -> 高级系统设置 ->环境变量 ->系统变量 ,在 path 中添加 安装路径。
在命令行 WIN+R 输入cmd :输入 tesseract -v ,出现版本信息,则配置成功。
# ————————————————————
3、解决pytesseract 找不到路径的问题。
在自己安装的pytesseract包中,找到pytesseract.py文件
剩余详细步骤:https://blog.csdn.net/weixin_43332715/article/details/113133352?share_token=7642c57b-d0ee-455f-ad68-b7424b58afc7
————————
默认只识别数字和英文,如果要识别中文,需要额外安装安装包
相关教程:https://blog.csdn.net/pythonxiaopeng/article/details/109028403
识别中文: