`
ld362093642
  • 浏览: 64923 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

html抽取正文等

 
阅读更多
readability 学习中
朋友给的资源 https://github.com/selectingProcess/snacktory(侵删)


File f = new File("htmtmp/4186.htm");
    	Converter c = new Converter();
    	 ArticleTextExtractor extractors = new ArticleTextExtractor();
    	JResult res =  extractors.extractContent(c.streamToString( new FileInputStream(f)));
    	System.out.println(res.getText());


BufferedReader reader = new BufferedReader(new FileReader("htmtmp/1.htm"));
        String line = null;
        Set<String> existing = new LinkedHashSet<String>();
        while ((line = reader.readLine()) != null) {
            int index1 = line.indexOf("\"");
            int index2 = line.indexOf("\"", index1 + 1);
            String url = line.substring(index1 + 1, index2);
            String domainStr = SHelper.extractDomain(url, true);
            String counterStr = "";
            // TODO more similarities
            if (existing.contains(domainStr))
                counterStr = "2";
            else
                existing.add(domainStr);

            String html = new HtmlFetcher().fetchAsString(url, 20000);
            String outFile = domainStr + counterStr + ".html";
            BufferedWriter writer = new BufferedWriter(new FileWriter(outFile));
            writer.write(html);
            writer.close();
        }
        reader.close();




分享到:
评论

相关推荐

    HTMLParser抽取Web网页正文信息.doc

    HTMLParser抽取Web网页正文信息.doc

    基于行块分布函数的通用网页正文抽取算法

    运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘...能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。

    从HTML文件中抽取正文的简单方案.pdf

    译者导读:这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而...

    HTMLParser抽取Web网页正文信息

    一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户...

    基于统计的网页正文信息抽取

    本方法中用到了网页分析器htmlparser,采用Java语言编程,工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。

    基于JerichoHTMLParser的html信息抽取.pdf

    基于JerichoHTMLParser的html信息抽取.pdf

    基于统计的网页正文信息抽取方法

    网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个 结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不 同的数据源构造...

    从HTML文件中抽取正文的简单方案 试验结果

    NULL 博文链接:https://hzxdark.iteye.com/blog/298004

    HTML抽取器Xsoup.zip

    Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析...

    用htmlparser分析并抽取正文

    一个学习htmlparser的重要文档,并教你如何用于解析正文

    论文研究-有效HTML文本信息抽取方法的研究.pdf

    分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法...

    html5手机摇一摇抽取幸运号码代码

    html5手机摇一摇抽取幸运号码代码 html5手机摇一摇抽取幸运号码代码

    unity抽取html信息demo

    一个用于从html中获取信息的示例,不是特别自动化,但是可以帮助我们从静态html中关键信息。 起码可以为大家提供一个思路。

    .NET平台上的文件抽取框架toxy.zip

    toxy是.NET平台上的文件抽取框架,主要解决各种格式的内容抽取问题,比如pdf, doc, docx, xls, xlsx等,尽管听上去支持了很多格式,但它的使用却是极其方便的,因为Toxy把复杂的抽取流程透明化,Toxy的用户根本不用...

    cpp-网站新闻页通用的正文抽取组件

    新闻文章正文抽取News Passage Content Extractor (NPCE),是为抽取HTML中的文章正文而设计的。

    基于行块分布函数的通用网页正文抽取

    对于 Web 信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则 表达式可以准确的抽取某一固定格式的页面,但面对形形色色的 HTML,使用规 则处理难免捉襟见肘。 能不能高效、准确的将一个页面的正文抽取出来...

    刨丁解羊HTMl网页信息抽取器

    刨丁解羊HTMl网页信息抽取器,是制作...采用人工智能启发式算法、高斯积分去噪算法,对HTML格式的源代码网页进行抽取,通过过滤无用的HTM标签、主题相悖信息,抽取出核心正文信息。DLL及OCX调用请联系QQ(601069289)。

    ScalaScraper一个Scala库用于HTML页面抽取内容

    Scala Scraper:一个 Scala 库用于HTML页面抽取内容

    基于机器学习的HTML标题抽取.pdf

    基于机器学习的HTML标题抽取.pdf

Global site tag (gtag.js) - Google Analytics