Convertendo PDF para HTML
Uma dica interessante é a conversão de arquivos do tipo pdf para html, esta é uma tarefa que pode ser utilizada em diversas situações, basta usar a criatividade, e como de se esperar o Linux nos fornece a possibilidade e flexibilidade para tal tarefa. Para usufruir deste recurso, é necessário ter o pacote poppler-utils, presente na maioria das distribuições. Por algum motivo se não puder ou não quiser utilizar o pacote referente a sua distribuição, o mesmo também pode ser baixado em seu site oficial: http://poppler.freedesktop.org/. Após sua instalação, para conseguir nosso objetivo, necessitamos de utilizar o comando pdftohtml, o mesmo executado sem argumentos imprime sua sfuncionalidades:
host:~# /usr/bin/pdftohtml pdftohtml version 0.12.4 Copyright 2005-2009 The Poppler Developers - http://poppler.freedesktop.org Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch Copyright 1996-2004 Glyph & Cog, LLC Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>] -f <int> : first page to convert -l <int> : last page to convert -q : don't print any messages or errors -h : print usage information -help : print usage information -p : exchange .pdf links by .html -c : generate complex document -i : ignore images -noframes : generate no frames -stdout : use standard output -zoom <fp> : zoom the pdf document (default 1.5) -xml : output for XML post-processing -hidden : output hidden text -nomerge : do not merge paragraphs -enc <string> : output text encoding name -dev <string> : output device name for Ghostscript (png16m, jpeg etc) -v : print copyright and version info -opw <string> : owner password (for encrypted files) -upw <string> : user password (for encrypted files) -nodrm : override document DRM settings
De todas elas, a mais comum é a opção -c,, qu eirá gerar o documento com todas as suas imagens, caso estas existam. Abaixo possuímos um simples exemplo de sua utilização:
host:~# pdftohtml -c arquivo.pdf
Após a execução da linha de comandos, o arquivo .pdf será gerado totalmente para html.