PaddleOCR自發佈以來憑藉學術前沿算灋和產業落地實踐,受到了產學研各方的喜愛,並被廣泛應用於眾多知名開源項目,例如:Umi-OCR、OmniParser、MinerU、RAGFlow等,已成為廣大開發者心中的開源OCR領域的首選工具。 2025年5月20日,飛槳團隊發佈PaddleOCR 3.0,全面適配飛槳框架3.0正式版,進一步提升文字識別精度,支持多文字類型識別和手寫體識別,滿足大模型應用對複雜檔案高精度解析的旺盛需求,結合文心大模型4.5顯著提升關鍵資訊抽取精度,並新增對昆侖芯、升騰等國產硬體的支持。
2025年10月16日,PaddleOCR開源了先進、高效的檔案解析模型PaddleOCR-VL,其覈心組件為PaddleOCR-VL-0.9B,這是一種緊湊而强大的視覺語言模型(VLM),它由NaViT風格的動態分辯率視覺編碼器與ERNIE-4.5-0.3B語言模型組成,能够實現精准的元素識別。 該模型支持109種語言,並在識別複雜元素(如文字、表格、公式和圖表)方面表現出色,同時保持極低的資源消耗。 通過在廣泛使用的公開基準與內部基準上的全面評測,PaddleOCR-VL在頁級級檔案解析與元素級識別均達到SOTA表現。 它顯著優於現有的基於Pipeline方案和檔案解析多模態方案以及先進的通用多模態大模型,並具備更快的推理速度。 這些優勢使其非常適合在真實場景中落地部署。
PaddleOCR 3.x覈心特色能力:
PaddleOCR-VL -通過0.9B超緊湊視覺語言模型增强多語種檔案解析
面向檔案解析的SOTA且資源高效的模型,支持109種語言,在複雜元素(如文字、表格、公式和圖表)識別方面表現出色,同時資源消耗極低。
PP-OCRv5—全場景文字識別
單模型支持五種文字類型(簡中、繁中、英文、日文及拼音),精度提升13個百分點。 解决多語言混合檔案的識別難題。
PP-StructureV3—複雜檔案解析
將複雜PDF和檔案影像智慧轉換為保留原始結構的Markdown檔案和JSON檔案,在公開評測中領先眾多商業方案。 完美保持檔案版式和層次結構。
PP-ChatOCRv4—智慧資訊抽取
原生集成ERNIE 4.5,從海量檔案中精准選取關鍵資訊,精度較上一代提升15個百分點。 讓檔案“聽懂”您的問題並給出準確答案。
|