linux下中文OCR

Posted on May 7, 2013

思维导图文件下载

安装tesseract-ocr

包安装

  • sudo apt-get install tesseract-ocr

源码安装

安装tesseract-ocr的中文语言包

下载tesseract-ocr-3.02.chi_sim.tar.gz 解压到目录/usr/share/tesseract-ocr/tessdata/

识别

运行tesseract *.jpeg output.filename -l chi_sim

  • -l chi_sim指明语言是中文简体
  • 详细用法看man

一般识别图像,如果有pdf那么必须转换为图像

结论

  • 速度有点慢

  • 识别率不高

  • 命令行方式使用稍显不方便

Windows同类软件

汉王PDF OCR