training lstm new font tesseract5
使用 tesseract5 训练 lstm 模型,文本所使用字体 arial。 发现个别识别率较低,如何提高识别率?
比如: 0 O
1 I
5 S
docker run -it --privileged --name tess -v ~/tools/lstm:/root/lstm sunquana/ubuntu:tesseract5 zsh
make training MODEL_NAME=arial START_MODEL=best_eng TESSDATA=/usr/share/tesseract-ocr/5/tessdata MAX_ITERATIONS=10000
- 使用默认的PSM = 13训练
模型 | 训练数据图片 | 测试数据图片 | psm | pass_rate |
---|---|---|---|---|
eng | --- | 200张 | 7 | 75% |
eng | --- | 200张 | 13 | 84% |
arial | 243张 | 200张 | 7 | 94.5% |
arial | 243张 | 200张 | 13 | 92% |
[x] 指定识别模式 --user-patterns。 [ ] 提高训练的数据集 (200->1000) 下载1000张真实数据,用于训练。 再下载1000张真实数据,用于测试准确率。