Конвертация страниц PDF в изображения с помощью PyMuPDF

Конвертация страниц PDF в изображения с помощью PyMuPDF

Конвертация страниц PDF в изображения с помощью PyMuPDF

Работа с PDF-документами часто требует их преобразования в другие форматы, такие как изображения. Это может быть полезно для архивирования, создания галерей или просто для удобства просмотра. В этой статье мы рассмотрим, как с помощью библиотеки PyMuPDF можно легко конвертировать страницы PDF в изображения JPEG.

Подготовка

Для начала нам потребуется установить библиотеку PyMuPDF. Это можно сделать с помощью команды:

pip install pymupdf

Описание скрипта

Рассмотрим следующий скрипт на Python, который осуществляет конвертацию страниц PDF-документа в изображения.

import fitz  # PyMuPDF



# Открываем PDF файл

input_pdf_path = "files/catalog_2023.pdf"

pdf_document = fitz.open(input_pdf_path)



# Установим разрешение (например, 300 DPI)

zoom_x = 3.0  # горизонтальное увеличение

zoom_y = 3.0  # вертикальное увеличение

matrix = fitz.Matrix(zoom_x, zoom_y)



# Проходим по всем страницам и сохраняем каждую страницу как JPEG изображение

for page_number in range(len(pdf_document)):

   # Извлекаем страницу

   page = pdf_document.load_page(page_number)

   # Конвертируем страницу в изображение (массив пикселей)

   pix = page.get_pixmap(matrix=matrix)

   # Сохраняем изображение в файл

   output_image_path = f"images/page_{page_number + 1}.jpg"

   pix.save(output_image_path)



   print(output_image_path)



# Закрываем оригинальный PDF документ

pdf_document.close()

Разбор кода

Импорт библиотеки:

import fitz  # PyMuPDF

PyMuPDF предоставляет мощные инструменты для работы с PDF и изображениями. Мы импортируем её под псевдонимом fitz.

Открытие PDF-файла:

input_pdf_path = "files/catalog_2023.pdf"

pdf_document = fitz.open(input_pdf_path)

Указываем путь к нашему PDF-документу и открываем его с помощью fitz.open().

Установка разрешения:

zoom_x = 3.0  # горизонтальное увеличение

zoom_y = 3.0  # вертикальное увеличение

matrix = fitz.Matrix(zoom_x, zoom_y)

Для получения изображений высокого качества, устанавливаем коэффициенты увеличения по горизонтали и вертикали. В данном случае, увеличение в 3 раза соответствует разрешению примерно 300 DPI (dots per inch).

Конвертация страниц в изображения:

for page_number in range(len(pdf_document)):

   page = pdf_document.load_page(page_number)

   pix = page.get_pixmap(matrix=matrix)

   output_image_path = f"images/page_{page_number + 1}.jpg"

   pix.save(output_image_path)

   print(output_image_path)

Проходим по всем страницам PDF-документа, извлекаем каждую страницу и конвертируем её в изображение с помощью метода get_pixmap(). Сохраняем каждое изображение в формате JPEG в указанную директорию.

Закрытие PDF-документа:

pdf_document.close()

После завершения всех операций закрываем оригинальный PDF-документ для освобождения ресурсов.

Заключение

С помощью библиотеки PyMuPDF можно легко и быстро конвертировать страницы PDF-документов в изображения высокого качества. Такой подход может быть полезен для различных задач, начиная от создания предварительных просмотров документов до их архивирования в виде изображений.

А для большего погружения в тему у меня для Вас есть видеокурс Программирование на Python с Нуля до Гуру.

Источник

НЕТ КОММЕНТАРИЕВ

Оставить комментарий