Não sei se alguem mais precisa disso, mas eu vivo precisando.
Primeiro é necessário baixar os seguintes arquivos:
Xerces - http://xml.apache.org/dist/xerces-j/
JTidy - http://jtidy.sourceforge.net/
public static String html2xhtml(String URL) {
try {
URL HTMLurl = new URL(URL);
InputStream HTMLis = HTMLurl.openStream();
if ( HTMLis != null ) {
Tidy converter = new Tidy();
converter.setTidyMark(false);
converter.setXmlOut(true);
converter.setXmlPi(true);
converter.setXmlPIs(true);
converter.setNumEntities(true);
converter.setDocType("omit");
Document doc = converter.parseDOM(HTMLis, null);
BufferedOutputStream out = new BufferedOutputStream(new FileOutputStream("c:/teste.xhtml"));
XMLSerializer ser = new XMLSerializer(out, new OutputFormat("xml", "UTF-8", true));
ser.serialize(doc.getDocumentElement());
}
return null;
} catch ( Exception e ) {
return e.getMessage();
}
}
public static void main(String[] args) {
try {
html2xhtml("http://www.uol.com.br");
} catch (Exception e) {
System.out.println(e.getMessage());
}
}
Nenhum comentário:
Postar um comentário