HTML解析器对比

解析HTML是一项自动化工作，由（所谓的）HTML解析器执行。它们有两个主要目的：

解析器	许可证	实现语言	最新日期*	HTML解析[1]	清理HTML**	升级HTML***
Beautiful Soup[2]	Python S. F. L.	Python	2013-05-31	是	？	？
Gumbo 页面存档备份，存于	Apache许可证2.0	C	2013-08-13	是	？	？
html5lib 页面存档备份，存于	MIT许可证	Python和PHP	2013-12-23[3]	是	是	否
HTML::Parser 页面存档备份，存于	艺术许可协议	Perl	2013-03-28	否[4]	？	？
htmlPurifier 页面存档备份，存于	GNU宽GPL	PHP	2009-03-25[5]	否	是	是
HTML Tidy	W3C许可证	ANSI C	2009-03-25[6]	是[7]	是	？
HtmlCleaner 页面存档备份，存于	BSD许可证[8]	Java	2013-09-05	否	是	？
Hubbub 页面存档备份，存于	MIT许可证	C	2013-04-19	是	？	？
Jaunt API 页面存档备份，存于	Jaunt Beta许可证	Java	2013-08-01	是	是	否
Jericho HTML Parser 页面存档备份，存于	Eclipse公共许可证	Java	2012-10-30[9]	否？？	？	？
jsdom 页面存档备份，存于	MIT许可证	JavaScript	2013-07-21	否	？	？
jsoup[10]	MIT许可证	Java	2013-01-27[11]	是	是	是
JTidy 页面存档备份，存于	JTidy许可证页面存档备份，存于	Java	2009-12-01[12]	是	？	？
libxml2 HTMLparser 页面存档备份，存于	MIT许可证	C	2012-09-11[13]	是	？	？
NekoHTML 页面存档备份，存于	Apache许可证2.0	Java	2013-02-27[14]	否	是	？
TagSoup	Apache许可证2.0	Java	2011-07-07	否	？	？
Validator.nu HTML Parser 页面存档备份，存于	MIT许可证	Java	2012-06-05	是	？	？
AVHTML 页面存档备份，存于	LGPL	C++	2015-07-17	是	否	是
解析器	许可证	实现语言	最新日期*	HTML解析	清理HTML**	升级HTML***

* （有重要更新的）最新版本日期。

** 规范（生成标准兼容的网页，减少垃圾信息，等）和清理（剥离过剩的表达标签，移除XSS代码，等）HTML代码。

*** 将HTML4.X升级到XHTML或HTML5，将废弃的标签（如CENTER）转换为有效的标签（如带有style="text-align:center;"的DIV）。

参考资料

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.