在處理和分析PDF文檔時,獲取文本和圖片在頁面上的精確位置是一個重要的操作。通過確定這些元素的具體座標,我們可以實現對PDF內容的更精細控制和理解,這對於自動化文檔處理、信息提取以及內容重組等工作流程尤為關鍵。通過Python編程語言,我們可以輕鬆獲取PDF頁面上文本及圖像的精確座標,使我們能夠在不影響其原有排版的情況下對內容進行操作。本文將介紹如何使用Python獲取PDF文本和圖片在頁面上的位置座標。
- 用Python在PDF中查找文本並獲取其座標位置
- 用Python獲取PDF頁面指定圖像的座標位置
本文所使用的方法需要用到Spire.PDF for Python,PyPI:pip install spire.pdf。
Spire.PDF for Python通過一個起點位於頁面左上角的座標系來處理PDF頁面元素的位置,x軸向右延伸,y軸向下延伸。當我們在PDF頁面放置文本、圖像等內容時,我們可以直接使用x和y兩個數值來確定位置。同時,我們也可以使用庫中的屬性獲取指定元素在其頁面上的位置。
頁面座標如圖所示:
用Python在PDF中查找文本並獲取其頁面座標位置
PdfTextFinder類可以幫助我們以指定的查找選項在指定PDF頁面中查找文本。查找到指定文本後,我們可以使用PdfTextFragment.Positions[0].X和PdfTextFragment.Positions[0].Y屬性訪問文本的起始座標,從而確定其精確位置。
同時,PdfTextFragment類還提供Text、TextStates[].FontSize以及TextStates[].FontName屬性來獲取文本的更多信息,從而方便開發者對文本進行完全複製等操作。
以下是使用Python獲取PDF文本的頁面座標位置的操作步驟示例:
- 導入所需模塊:
PdfDocument、PdfTextFinder、PdfTextFindOptions和TextFindParameter。 - 創建
PdfDocument實例,使用PdfDocument.LoadFromFile()方法載入用於操作的PDF文檔。 - 使用
PdfDocument.Pages.get_Item()獲取指定頁面頁面,或循環文檔所有頁面循環頁面。 - 使用頁面創建
PdfTextFinder實例。 - 創建
PdfTextFindOptions實例,通過PdfTextFindOptions.Parameter屬性,使用TextFindParameter指定查找選項。 - 通過
PdfTextFinder.Options應用查找選項。 - 使用
PdfTextFinder.Find(str: text)方法在頁面上查找指定文本。 - 判斷是否有查找結果。如果有,則遍歷查找結果,使用
PdfTextFragment.Positions[0].X和PdfTextFragment.Positions[0].Y屬性獲取文本的座標。 - 輸出結果,或對文本進行其他操作。
代碼示例
from spire.pdf import PdfDocument, PdfTextFinder, PdfTextFindOptions, TextFindParameter
# 創建一個 PdfDocument 實例
pdf = PdfDocument()
# 加載一個 PDF 文檔
pdf.LoadFromFile("Sample.pdf")
textFound = False # 標誌,用於檢查是否找到文本
# 遍歷所有頁
for i in range(pdf.Pages.Count):
# 獲取一頁
page = pdf.Pages.get_Item(i)
# 創建一個 PdfTextFinder 實例
finder = PdfTextFinder(page)
# 設置搜索選項
options = PdfTextFindOptions()
options.Parameter = TextFindParameter.WholeWord # 搜索完整單詞
finder.Options = options
# 查找文本
results = finder.Find("History and Cultural Significance")
# 檢查是否找到文本
if len(results) > 0:
textFound = True # 標記為已找到
# 遍歷所有結果
for text in results:
# 獲取起始座標
x = text.Positions[0].X
y = text.Positions[0].Y
# 獲取結束座標
x2 = text.Positions[-1].X
print("在第 " + str(i+1) + " 頁找到文本,座標:\n" + "X: " + str(x) + "\nY: " + str(y) + "\n")
# 如果沒有找到文本,打印未找到的消息
if not textFound:
print("未找到文本。")
pdf.Close()
結果
用Python獲取PDF頁面指定圖像的座標位置
我們可以使用PdfPageBase.ImagesInfo屬性獲取指定PDF頁面的圖片信息列表,然後遍歷列表獲取,使用PdfImageInfo.Bounds.X和PdfImageInfo.Bounds.Y屬性獲取圖片的起始座標。此外,我們還可以使用PdfImageInfo.Image屬性直接獲取圖片為Stream,從而進行保存、複製等操作。
以下是獲取PDF圖片的頁面座標位置的操作步驟示例:
- 導入所需模塊:
PdfDocument。 - 創建
PdfDocument實例,使用PdfDocument.LoadFromFile()方法載入用於操作的PDF文檔。 - 使用
PdfDocument.Pages.get_Item()獲取指定頁面頁面,或循環文檔所有頁面循環頁面。 - 使用
PdfPageBase.ImagesInfo屬性獲取頁面的圖片信息列表。 - 判斷頁面是否包含圖片。如果包含,則遍歷圖片信息列表,使用
PdfImageInfo.Bounds.X和PdfImageInfo.Bounds.Y屬性獲取圖片的起始座標。 - 輸出結果,或對圖像進行其他操作。
代碼示例
from spire.pdf import PdfDocument
# 創建一個 PdfDocument 實例
pdf = PdfDocument()
# 加載一個 PDF 文檔
pdf.LoadFromFile("G:/Documents/Sample.pdf")
imageFound = False # 標誌,用於指示是否找到圖片
# 遍歷所有頁
for i in range(pdf.Pages.Count):
# 獲取一頁
page = pdf.Pages.get_Item(i)
# 獲取頁面中的圖片信息
imagesInfo = page.ImagesInfo
# 檢查頁面是否包含圖片
if len(imagesInfo) > 0:
imageFound = True # 標記為已找到圖片
# 遍歷所有圖片
for j in range(len(imagesInfo)):
# 獲取圖片信息
imageInfo = page.ImagesInfo[j]
# 獲取圖片的座標
x = imageInfo.Bounds.X
y = imageInfo.Bounds.Y
# 打印座標信息
print(f"第 {i + 1} 頁的第 {j + 1} 張圖片。座標:\nX={x}, Y={y}")
# 如果沒有找到任何圖片,打印未找到圖片的消息
if not imageFound:
print("文檔中沒有圖片。")
pdf.Close()
結果
本文介紹如何使用Python或PDF文檔中文本和圖片在頁面上的座標,從而確定其精確位置。
申請免費License