sexta-feira, 11 de maio de 2007

Traduzir Linguagens de Marcação

Não sei se alguem mais precisa disso, mas eu vivo precisando.

Primeiro é necessário baixar os seguintes arquivos:

Xerces - http://xml.apache.org/dist/xerces-j/
JTidy - http://jtidy.sourceforge.net/

public static String html2xhtml(String URL) {
try {
URL HTMLurl = new URL(URL);
InputStream HTMLis = HTMLurl.openStream();

if ( HTMLis != null ) {

Tidy converter = new Tidy();

converter.setTidyMark(false);
converter.setXmlOut(true);
converter.setXmlPi(true);
converter.setXmlPIs(true);
converter.setNumEntities(true);
converter.setDocType("omit");

Document doc = converter.parseDOM(HTMLis, null);
BufferedOutputStream out = new BufferedOutputStream(new FileOutputStream("c:/teste.xhtml"));
XMLSerializer ser = new XMLSerializer(out, new OutputFormat("xml", "UTF-8", true));
ser.serialize(doc.getDocumentElement());
}

return null;
} catch ( Exception e ) {
return e.getMessage();
}
}

public static void main(String[] args) {

try {

html2xhtml("http://www.uol.com.br");

} catch (Exception e) {
System.out.println(e.getMessage());
}
}

Nenhum comentário: