GitHub - ForrestSu/train_lstm_tesseract: training lstm new font tesseract5

train_lstm_tesseract

training lstm new font tesseract5

前言

使用 tesseract5 训练 lstm 模型，文本所使用字体 arial。发现个别识别率较低，如何提高识别率？

比如： 0 O 1 I 5 S

1 搭建 train 环境 (ubuntu 25.04)

docker run -it --privileged --name tess -v ~/tools/lstm:/root/lstm sunquana/ubuntu:tesseract5 zsh

2 训练

make training MODEL_NAME=arial START_MODEL=best_eng TESSDATA=/usr/share/tesseract-ocr/5/tessdata  MAX_ITERATIONS=10000

3 识别率对比

使用默认的PSM = 13训练

模型	训练数据图片	测试数据图片	psm	pass_rate
eng	---	200张	7	75%
eng	---	200张	13	84%
arial	243张	200张	7	94.5%
arial	243张	200张	13	92%

3.1 优化方向

[x] 指定识别模式 --user-patterns。 [ ] 提高训练的数据集 (200->1000) 下载1000张真实数据，用于训练。再下载1000张真实数据，用于测试准确率。

参考文档

OCR 100% accuracy of digital data

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
captcha		captcha
docker/tesseract5		docker/tesseract5
ground_truth		ground_truth
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
go.mod		go.mod
ground_truth.txt		ground_truth.txt
main.go		main.go
my.patterns		my.patterns

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

train_lstm_tesseract

前言

1 搭建 train 环境 (ubuntu 25.04)

2 训练

3 识别率对比

3.1 优化方向

参考文档

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

ForrestSu/train_lstm_tesseract

Folders and files

Latest commit

History

Repository files navigation

train_lstm_tesseract

前言

1 搭建 train 环境 (ubuntu 25.04)

2 训练

3 识别率对比

3.1 优化方向

参考文档

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages