linux下中文OCR

Posted on May 7, 2013

思维导图文件下载

安装tesseract-ocr

包安装

sudo apt-get install tesseract-ocr

源码安装

google站点

安装tesseract-ocr的中文语言包

下载tesseract-ocr-3.02.chi_sim.tar.gz 解压到目录/usr/share/tesseract-ocr/tessdata/

识别

运行tesseract *.jpeg output.filename -l chi_sim

-l chi_sim指明语言是中文简体
详细用法看man

一般识别图像，如果有pdf那么必须转换为图像

结论

速度有点慢
识别率不高
命令行方式使用稍显不方便

Windows同类软件