如何在Linux上从图像和PDF中提取文本

发布时间：2021-03-28 15:50:28 所属栏目：动态来源：互联网

导读：ader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的，然后于2006年开源。基本上，OCR（Optical Character Recognition光学字符识别）引擎使您可以扫描图片或文件（PDF）中的文本。默认情况下，它可以检测多种语言，并且还支持通过Unicode字符进

ader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的，然后于2006年开源。

基本上，OCR（Optical Character Recognition光学字符识别）引擎使您可以扫描图片或文件（PDF）中的文本。默认情况下，它可以检测多种语言，并且还支持通过Unicode字符进行扫描。

但是，Tesseract本身就是没有任何GUI的命令行工具。因此，在这里，gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。

让我重点介绍一些有关它的内容，同时提及我在测试期间的使用经验。

gImageReader：Tesseract OCR的跨平台前端

为了简化工作，gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。

无论是拼写检查还是翻译都需要它，它对于特定的用户组应该很有用。

gImageReader功能介绍:

从磁盘，扫描设备，剪贴板和屏幕截图添加PDF文档和图像
旋转图像的能力
通用图像控件可调节亮度，对比度和分辨率
直接通过应用程序扫描图像
能够一次处理多个图像或文件
手动或自动识别区域定义
识别纯文本或hOCR文档
编辑器显示识别的文本
可以拼写检查提取的文本
从hOCR文档转换/导出为PDF文档
将提取的文本导出为.txt文件
跨平台（Windows）

在Linux上安装gImageReader

注意：您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。

您可以在某些Linux发行版（例如Fedora和Debian）的默认存储库中找到gImageReader。

对于Ubuntu，您需要添加一个PPA，然后再安装它。为此，您需要在终端中输入以下内容

（编辑：漯河站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!