如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？(使用Python OCR技术轻松提取图像文本并转为可编辑文件)

原创

ithorizon 6个月前 (10-20) 阅读数 20 #后端开发

使用Python OCR技术轻松提取图像文本并转为可编辑文件

一、OCR技术简介

OCR（Optical Character Recognition，光学字符识别）是一种通过电子设备识别和转换图像中的文字的技术。它可以将图像中的文本转换成可编辑的电子文档，如文本文件、Word文档等。Python 中有多种 OCR 库可以帮助我们实现这一功能，如 Tesseract、Pytesseract、Pillow 等。

二、安装所需的Python库

首先，我们需要安装一些Python库，包括Pillow、Pytesseract以及Tesseract-OCR引擎。在命令行中执行以下命令：

pip install Pillow

pip install pytesseract

接着，下载并安装Tesseract-OCR引擎。可以从以下网址下载：https://github.com/UB-Mannheim/tesseract/wiki

三、使用Pytesseract进行OCR识别

接下来，我们将使用Pytesseract库来识别图像中的文本。首先，我们需要导入所需的库，并设置Tesseract的路径。


import pytesseract
from PIL import Image
# 设置Tesseract的路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # 请按照自己的安装路径修改

四、读取并处理图像

使用Pillow库读取图像，并对其进行一些预处理，以尽或许降低损耗OCR识别的正确率。


# 读取图像
image = Image.open('example.jpg')  # 请将example.jpg替换为你的图像文件名
# 转换成灰度图像
gray_image = image.convert('L')
# 应用阈值，将图像二值化
threshold = 128
binary_image = gray_image.point(lambda x: 255 if x > threshold else 0, '1')
# 保存处理后的图像（可选）
binary_image.save('processed_image.jpg')

五、提取图像中的文本

使用Pytesseract的`image_to_string`函数提取图像中的文本。


# 提取文本
text = pytesseract.image_to_string(binary_image, lang='eng')  # lang参数可以设置为其他语言，如'chi_sim'描述简体中文
# 打印提取的文本
print(text)

六、将提取的文本保存为文件

将提取的文本保存为文本文件或Word文档，以便进行编辑。


# 保存为文本文件
with open('extracted_text.txt', 'w', encoding='utf-8') as f:
    f.write(text)
# 保存为Word文档（需要安装python-docx库）
from docx import Document
doc = Document()
doc.add_paragraph(text)
doc.save('extracted_text.docx')