linux下中文OCR
安装tesseract-ocr
包安装
sudo apt-get install tesseract-ocr
源码安装
安装tesseract-ocr的中文语言包
下载tesseract-ocr-3.02.chi_sim.tar.gz 解压到目录/usr/share/tesseract-ocr/tessdata/
识别
运行tesseract *.jpeg output.filename -l chi_sim
-l chi_sim
指明语言是中文简体- 详细用法看man
一般识别图像,如果有pdf那么必须转换为图像
结论
-
速度有点慢
-
识别率不高
-
命令行方式使用稍显不方便