HTML解析器对比
解析HTML是一项自动化工作,由(所谓的)HTML解析器执行。它们有两个主要目的:
- * (有重要更新的)最新版本日期。
- ** 规范(生成标准兼容的网页,减少垃圾信息,等)和清理(剥离过剩的表达标签,移除XSS代码,等)HTML代码。
- *** 将HTML4.X升级到XHTML或HTML5,将废弃的标签(如CENTER)转换为有效的标签(如带有style="text-align:center;"的DIV)。
参考资料
- 12.2 解析HTML文档——HTML标准 页面存档备份,存于(英文)
- 基于lxml和html5lib,http://www.crummy.com/software/BeautifulSoup/(英文) 页面存档备份,存于
- 版本·html5lib/html5lib-python 页面存档备份,存于(英文)
- HTML-Parser:HTML 5的缺陷#53300 页面存档备份,存于(英文)
- Windows的HTML Tidy 页面存档备份,存于(英文)
- Windows的HTML Tidy 页面存档备份,存于(英文)
- Tidy解析器举例:PHP的class.tidynode 页面存档备份,存于(英文)
- HtmlCleaner以BSD许可证分发 页面存档备份,存于(英文)
- Jericho HTML Parser——在SourceForge.net浏览/jericho-html/3.3 页面存档备份,存于(英文)
- . jsoup.org. [2019-09-22]. (原始内容存档于2019-09-27).
- 在master的jsoup/CHANGES·jhy/jsoup·GitHub 页面存档备份,存于(英文)
- JTidy—在SourceForge.net浏览/JTidy 页面存档备份,存于(英文)
- libxml2版本 页面存档备份,存于(英文)
- NekoHTML | 变更历史 页面存档备份,存于(英文)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.