Umi-OCR 开源文字识别工具

2,753次阅读

没有评论

共计 2404 个字符，预计需要花费 7 分钟才能阅读完成。

Umi-OCR 文字识别工具

免费，开源，可批量的离线 OCR 软件
_{适用于 Windows7 x64、Linux x64}

免费：本项目所有代码开源，完全免费。
方便：解压即用，离线运行，无需网络。
高效：自带高效率的离线 OCR 引擎，内置多种语言识别库。
灵活：支持命令行、HTTP 接口等外部调用方式。
功能：截图 OCR / 批量 OCR / PDF 识别 / 二维码 / 公式识别

使用源码

下载发行版

以下发布链接均长期维护，提供稳定版本的下载。

蓝奏云 https://hiroi-sora.lanzoul.com/s/umi-ocr（国内推荐，免注册 / 无限速）
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Source Forge https://sourceforge.net/projects/umi-ocr

Scoop Installer
Scoop 是一款 Windows 下的命令行安装程序，可方便地管理多个应用。您可以先安装 Scoop，再使用以下指令安装 Umi-OCR：

最新测试版（首次推出 Linux 版本）：

GitHub https://github.com/hiroi-sora/Umi-OCR/releases

最新测试版（首次推出 Linux 版本）：

GitHub https://github.com/hiroi-sora/Umi-OCR/releases

开始使用

软件发布包下载为 .7z 压缩包或 .7z.exe 自解压包。自解压包可在没有安装压缩软件的电脑上，解压文件。

本软件无需安装。解压后，点击 Umi-OCR.exe 即可启动程序。

界面语言

Umi-OCR 支持的界面多国语言。在第一次打开软件时，将会按照你的电脑的系统设置，自动切换语言。

如果需要手动切换语言，请参考下图，全局设置 → 语言 /Language。

标签页

Umi-OCR v2 由一系列灵活好用的 标签页 组成。您可按照自己的喜好，打开需要的标签页。

标签栏左上角可以切换 窗口置顶 。右上角能够 锁定标签页，以防止日常使用中误触关闭标签页。

截图 OCR

截图 OCR：打开这一页后，就可以用快捷键唤起截图，识别图中的文字。

左侧的图片预览栏，可直接用鼠标划选复制。
右侧的识别记录栏，可以编辑文字，允许划选多个记录复制。
也支持在别处复制图片，粘贴到 Umi-OCR 进行识别。

文本后处理

关于 OCR 文本后处理 – 排版解析方案：可以整理 OCR 结果的排版和顺序，使文本更适合阅读和使用。预设方案：

多栏 - 按自然段换行：适合大部分情景，自动识别多栏布局，按自然段规则进行换行。
多栏 - 总是换行：每段语句都进行换行。
多栏 - 无换行：强制将所有语句合并到同一行。
单栏 - 按自然段换行 / 总是换行 / 无换行：与上述类似，不过不区分多栏布局。
单栏 - 保留缩进：适用于解析代码截图，保留行首缩进和行中空格。
不做处理：OCR 引擎的原始输出，默认每段语句都进行换行。

上述方案，均能自动处理横排和竖排（从右到左）的排版。（竖排文字还需要 OCR 引擎本身支持）

批量 OCR

批量 OCR：这一页用于批量导入本地图片进行识别。

支持格式：jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff。
保存识别结果的支持格式：txt, jsonl, md, csv(Excel)。
与截图 OCR 一样，支持 文本后处理 功能，整理 OCR 文本的排版和顺序。
没有数量上限，可一次性导入几百张图片进行任务。
支持任务完成后自动关机 / 待机。
如果要识别像素超大的长图或大图，请调整：页面的设置→文字识别→限制图像边长→【调高数值】。
拥有特殊功能 忽略区域。

忽略区域

关于 OCR 文本后处理 – 忽略区域：批量 OCR 中的一种特殊功能，适用于排除图片中的不想要的文字。

在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方样例，图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰。
按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。
注意，只有处于忽略区域框内部的整个文本块（而不是单个字符）会被忽略。如下图所示，黄色边框的深色矩形是一个忽略区域。那么只有 key_mouse 才会被忽略。pubsub_connector.py、pubsub_service.py 这两个文本块得以保留。

文档识别

文档识别：

支持格式：pdf, xps, epub, mobi, fb2, cbz。
对扫描件进行 OCR，或提取原有文本。可输出为 双层可搜索 PDF。
支持设定 忽略区域，可用于排除页眉页脚的文字。
可设置任务完成后 自动关机 / 休眠。

二维码

扫码：

截图 / 粘贴 / 拖入本地图片，读取其中的二维码、条形码。
支持一图多码。
支持 19 种协议，如下：

Aztec,Codabar,Code128,Code39,Code93,DataBar,DataBarExpanded,DataMatrix,EAN13,EAN8,ITF,LinearCodes,MatrixCodes,MaxiCode,MicroQRCode,PDF417,QRCode,UPCA,UPCE

生成码：

输入文本，生成二维码图片。
支持 19 种协议和 纠错等级 等参数。

全局设置

全局设置：在这里可以调整软件的全局参数。常用功能如下：

一键添加快捷方式或设置开机自启。
更改界面语言。Umi 支持繁中、英语、日语等语言。
切换界面主题。Umi 拥有多个亮 / 暗主题。
调整界面 文字的大小 和字体。
切换 OCR 插件。
渲染器 ：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI 错位的情况，请调整 界面和外观 → 渲染器，尝试切换到不同渲染方案，或关闭硬件加速。

调用接口：

开源地址 https://github.com/hiroi-sora/Umi-OCR

正文完

图片开源文字识别

发表至：学而时习

2024-07-22

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

python爬取「笔趣看」全部小说

ACCESS中distinct 和 distinctrow 的区别

ACCESS的DSum 函数详解

[免费分享]价值366元Python入门与进阶视频教程

CentOS7 yum安装报错“Could not resolve host: mirrorlist.centos.org； Name or service not known“解决办法（换源）

Umi-OCR 开源文字识别工具

Umi-OCR 文字识别工具

使用源码

开始使用

界面语言