windows 使用 tesseract 识别验证码

一般步骤.png

灰度处理
增加对比度(可选)
二值化
降噪
倾斜校正分割字符
建立训练库
识别

安装 python 所需的包:

1
2
pip install pillow 
pip install pytesseract

下载 tesseract:

1
https://github.com/UB-Mannheim/tesseract/wiki

添加 tesseract_cmd

1
2
3
4
5
6
7
8
9
10
from PIL import Image
import PIL.ImageOps
import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
img = Image.open('./in.jpg')
# 转化为灰度
imgry = img.convert('L')
print (pytesseract.image_to_string(imgry))
......

参考资料:
https://github.com/kuszaj/claptcha
http://www.hi-roy.com/2017/09/19/Python验证码识别/