Arquivo maio 2012

Convertendo PDF para HTML

Uma dica interessante é a conversão de arquivos do tipo pdf para html, esta é uma tarefa que pode ser utilizada em diversas situações, basta usar a criatividade, e como de se esperar o Linux nos fornece a possibilidade e flexibilidade para tal tarefa. Para usufruir deste recurso, é necessário ter o pacote poppler-utils, presente na maioria das distribuições. Por algum motivo se não puder ou não quiser utilizar o pacote referente a sua distribuição, o mesmo também pode ser baixado em seu site oficial: http://poppler.freedesktop.org/. Após sua instalação, para conseguir nosso objetivo, necessitamos de utilizar o comando pdftohtml, o mesmo executado sem argumentos imprime sua sfuncionalidades:

host:~# /usr/bin/pdftohtml
pdftohtml version 0.12.4
Copyright 2005-2009 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2004 Glyph & Cog, LLC

Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
  -f <int>          : first page to convert
  -l <int>          : last page to convert
  -q                : don't print any messages or errors
  -h                : print usage information
  -help             : print usage information
  -p                : exchange .pdf links by .html
  -c                : generate complex document
  -i                : ignore images
  -noframes         : generate no frames
  -stdout           : use standard output
  -zoom <fp>        : zoom the pdf document (default 1.5)
  -xml              : output for XML post-processing
  -hidden           : output hidden text
  -nomerge          : do not merge paragraphs
  -enc <string>     : output text encoding name
  -dev <string>     : output device name for Ghostscript (png16m, jpeg etc)
  -v                : print copyright and version info
  -opw <string>     : owner password (for encrypted files)
  -upw <string>     : user password (for encrypted files)
  -nodrm            : override document DRM settings

 

De todas elas, a mais comum é a opção -c,, qu eirá gerar o documento com todas as suas imagens, caso estas existam.  Abaixo possuímos um simples exemplo de sua utilização:

host:~# pdftohtml -c arquivo.pdf

Após a execução da linha de comandos, o arquivo .pdf será gerado totalmente para html.