如何在Linux上从图像和PDF中提取文本
|
ader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的,然后于2006年开源。 基本上,OCR(Optical Character Recognition光学字符识别)引擎使您可以扫描图片或文件(PDF)中的文本。默认情况下,它可以检测多种语言,并且还支持通过Unicode字符进行扫描。 但是,Tesseract本身就是没有任何GUI的命令行工具。因此,在这里,gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。 让我重点介绍一些有关它的内容,同时提及我在测试期间的使用经验。 gImageReader:Tesseract OCR的跨平台前端 为了简化工作,gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。 无论是拼写检查还是翻译都需要它,它对于特定的用户组应该很有用。 gImageReader功能介绍:
在Linux上安装gImageReader 注意:您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。 您可以在某些Linux发行版(例如Fedora和Debian)的默认存储库中找到gImageReader。
对于Ubuntu,您需要添加一个PPA,然后再安装它。为此,您需要在终端中输入以下内容 (编辑:漯河站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

