PaddleOCR文字識別與文檔解析開發套件

老黑酱 · 發表於 2025-11-3 03:01:22

PaddleOCR自發佈以來憑藉學術前沿算灋和產業落地實踐，受到了產學研各方的喜愛，並被廣泛應用於眾多知名開源項目，例如：Umi-OCR、OmniParser、MinerU、RAGFlow等，已成為廣大開發者心中的開源OCR領域的首選工具。 2025年5月20日，飛槳團隊發佈PaddleOCR 3.0，全面適配飛槳框架3.0正式版，進一步提升文字識別精度，支持多文字類型識別和手寫體識別，滿足大模型應用對複雜檔案高精度解析的旺盛需求，結合文心大模型4.5顯著提升關鍵資訊抽取精度，並新增對昆侖芯、升騰等國產硬體的支持。

2025年10月16日，PaddleOCR開源了先進、高效的檔案解析模型PaddleOCR-VL，其覈心組件為PaddleOCR-VL-0.9B，這是一種緊湊而强大的視覺語言模型（VLM），它由NaViT風格的動態分辯率視覺編碼器與ERNIE-4.5-0.3B語言模型組成，能够實現精准的元素識別。該模型支持109種語言，並在識別複雜元素（如文字、表格、公式和圖表）方面表現出色，同時保持極低的資源消耗。通過在廣泛使用的公開基準與內部基準上的全面評測，PaddleOCR-VL在頁級級檔案解析與元素級識別均達到SOTA表現。它顯著優於現有的基於Pipeline方案和檔案解析多模態方案以及先進的通用多模態大模型，並具備更快的推理速度。這些優勢使其非常適合在真實場景中落地部署。

PaddleOCR 3.x覈心特色能力：

PaddleOCR-VL -通過0.9B超緊湊視覺語言模型增强多語種檔案解析
面向檔案解析的SOTA且資源高效的模型，支持109種語言，在複雜元素（如文字、表格、公式和圖表）識別方面表現出色，同時資源消耗極低。

PP-OCRv5—全場景文字識別
單模型支持五種文字類型（簡中、繁中、英文、日文及拼音），精度提升13個百分點。解决多語言混合檔案的識別難題。

PP-StructureV3—複雜檔案解析
將複雜PDF和檔案影像智慧轉換為保留原始結構的Markdown檔案和JSON檔案，在公開評測中領先眾多商業方案。完美保持檔案版式和層次結構。

PP-ChatOCRv4—智慧資訊抽取
原生集成ERNIE 4.5，從海量檔案中精准選取關鍵資訊，精度較上一代提升15個百分點。讓檔案“聽懂”您的問題並給出準確答案。

		自動登錄	找回密碼
密碼			加入我們

PaddleOCR文字識別與文檔解析開發套件

瀏覽過的版塊