readability 学习中
朋友给的资源 https://github.com/selectingProcess/snacktory(侵删)
File f = new File("htmtmp/4186.htm");
Converter c = new Converter();
ArticleTextExtractor extractors = new ArticleTextExtractor();
JResult res = extractors.extractContent(c.streamToString( new FileInputStream(f)));
System.out.println(res.getText());
BufferedReader reader = new BufferedReader(new FileReader("htmtmp/1.htm"));
String line = null;
Set<String> existing = new LinkedHashSet<String>();
while ((line = reader.readLine()) != null) {
int index1 = line.indexOf("\"");
int index2 = line.indexOf("\"", index1 + 1);
String url = line.substring(index1 + 1, index2);
String domainStr = SHelper.extractDomain(url, true);
String counterStr = "";
// TODO more similarities
if (existing.contains(domainStr))
counterStr = "2";
else
existing.add(domainStr);
String html = new HtmlFetcher().fetchAsString(url, 20000);
String outFile = domainStr + counterStr + ".html";
BufferedWriter writer = new BufferedWriter(new FileWriter(outFile));
writer.write(html);
writer.close();
}
reader.close();
分享到:
相关推荐
HTMLParser抽取Web网页正文信息.doc
运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘...能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。
译者导读:这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而...
一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户...
本方法中用到了网页分析器htmlparser,采用Java语言编程,工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。
基于JerichoHTMLParser的html信息抽取.pdf
网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个 结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不 同的数据源构造...
NULL 博文链接:https://hzxdark.iteye.com/blog/298004
Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析...
一个学习htmlparser的重要文档,并教你如何用于解析正文
分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法...
html5手机摇一摇抽取幸运号码代码 html5手机摇一摇抽取幸运号码代码
一个用于从html中获取信息的示例,不是特别自动化,但是可以帮助我们从静态html中关键信息。 起码可以为大家提供一个思路。
toxy是.NET平台上的文件抽取框架,主要解决各种格式的内容抽取问题,比如pdf, doc, docx, xls, xlsx等,尽管听上去支持了很多格式,但它的使用却是极其方便的,因为Toxy把复杂的抽取流程透明化,Toxy的用户根本不用...
新闻文章正文抽取News Passage Content Extractor (NPCE),是为抽取HTML中的文章正文而设计的。
对于 Web 信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则 表达式可以准确的抽取某一固定格式的页面,但面对形形色色的 HTML,使用规 则处理难免捉襟见肘。 能不能高效、准确的将一个页面的正文抽取出来...
刨丁解羊HTMl网页信息抽取器,是制作...采用人工智能启发式算法、高斯积分去噪算法,对HTML格式的源代码网页进行抽取,通过过滤无用的HTM标签、主题相悖信息,抽取出核心正文信息。DLL及OCX调用请联系QQ(601069289)。
Scala Scraper:一个 Scala 库用于HTML页面抽取内容
基于机器学习的HTML标题抽取.pdf