基于文字密度的网页正文提取方法、设备及介质【异议或纠错】

档案编号: CQ-116-3718-4633
档案文号:
专利权人: 申请人 
发布时间: 发布时间 
档案分类: 专利权 
分 类 号: 第G06F16/957;G06F16/958类
授权状态: 已授权
档案内容: 本发明涉及一种基于文字密度的网页正文提取方法、设备及介质,包括获取html网页,该方法通过对html网页进行预处理得到body标签部分内容;将body标签部分内容分隔成数组textArray;计算数组textArray的文本长度平均值,设定取正文内容的文字密度限定数;对数组textArray进行遍历,遍历结果满足第一行正文内容的开始条件时,开始提取正文;循环获取行正文内容并追加到正文中,直至得到最终版本的正文content。本发明与现有技术相比,其显著优点是:通过对html网页进行预处理和分析,比较html网页正文部分单行标签中文字较多与其他部分单行标签文字内容较少的情况,提取出在html网页中文字较多的正文部分内容,实现对html网页正文的精准提取,为网站数据处理提供便利,具有广泛的应用前景。
附件下载:  (原始资料备查)

相关专利信息信息

评论

您需要登录后才可以发表评论,请 登录注册

打分

说明:
一、所有信息力求客观、真实:以上信息由全国各级政府职能部门、各行业协会(社团组织)、金融机构、主流媒体、信息主体或实名制下的广大消费者(包括交易对方、员工等)客观提供,不含有本征信平台的任何主观评价;
二、信息异议机制:欢迎大家对有异议的信息及时提出,我们将按照《绿盾全国企业征信管理办法》规定对异议进行核实、修正,确保客观、公平;
三、尊重发布者权益,永不"删贴":对于符合国家法律、法规和本征信平台规定的每一条信息,都将客观记录于企业信用档案,参与信用分值计算,并长期保存。

分享到:
绿盾在线
×
=合作留言=
绿盾业务合作
×
  • 马先生
    15652211315
  • 黄先生
    15652011315