Check if a PDF file is corrupted with PHP



I was wondering if is there a way for php to check if a PDF file stored locally on the server is corrupted or not. We have a php application that deals with a lot of scanned documents converted in PDF and it would be nice to check which of them is corrupted to alert the user. I tried to look around but with no luck.


2 ответов


Существуют версии pdflib , которые могут читать PDF-файлы - вы можете просто попробовать открыть и прочитать каждую страницу с этим.

  • It’s not really a ‘third part app’… the PDFLib pCOS, at least, is available as a PHP extension. I’ve used pCOS to analyse PDFs before (inspecting images, embedded fonts etc.). I’m not sure what it would be like detecting ‘corruption’, but you can definitely test it out for free.

    Narcissus13 августа 2009, 11:24
  • Thank you for the answer, I was looking if there could be pure php solution without third part apps. By the way I’ll give it a look

    13 августа 2009, 08:59

Проблема в том, что файл PDF может быть поврежден разными способами.

Возможно, вашим лучшим решением было бы найти библиотеку для чтения PDF-файлов и попытаться извлечь первое слово с каждой страницы или что-то в этом роде. Это позволит выявить хотя бы некоторые основные типы коррупции.