您当前的位置:首页>解决方案>方案详情

互联网信息专项采集与分析解决方案

发表日期:2015-03-16 10:09:17文章编辑:admin浏览次数:2176

系统背景

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。

网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。 

因此,在这个互联网信息火速传播的信息时代,通过对互联网信息的采集和分析来发现社会公共事件、社会热点问题和民意问题,来改善社会民生、经济发展有着至关重要的作用。

系统概述

中科新天舆情系统在互联网信息采集的策略是一种URL遍历和注入的策略管理机制。与普通搜索引擎不同的是,舆情监测并不要求完整包含互联网上的所有信息,但对于特定的网站,则不仅要求“全面”,而且要求“快速”。比如专业搜索引擎对普通网站更新的响应时间可能是若干小时,或者数日。而舆情监测要求对特定网站更新的反应时间是分钟级的。

从网络上采集到的信息,通常是面向HTML半结构化的文档。使用基于自然语言处理技术的文本分析方法,主要通过集成文本自动聚类、自动分类、自动摘要和自动标引等技术,实现从“文档”到舆情的生成、更新、特征标注、属性计算等任务,并在此基础上,利用舆情评价模型,实现与上层舆情应用的交互。

但这还不足以满足所有的舆情分析要求,因此设法将半结构化的HTML文档结构化,采用传统的数据分析方法,是舆情分析的重要手段之一。针对不同类型的网页,数据提取的结构是不同的。比如,新闻类网页提取标题、作者、发表时间、发表机构等,而论坛上的发帖则将帖子列表里的每一个发帖进行单独的处理和存储,其中包括,作者、发表时间、在帖子列表中的位置、回复量、点击量等。

系统框架

系统具备采集、分析、预警三个核心舆情监测工作子系统和完善的管理系统:

信息采集子系统:集合定点、全网、论坛、微博、博客、视频等传统新闻和新兴媒体的信息监测采集;

综合分析子系统:通过目标新闻事件的转载量统计和关键词统计,按时间、空间范围内,对角度统计数据,剖析事件;对当前相关的热点新闻及时间的分析,可以提供多维度,分地域的统计分析,可以支持图表和模板的word导出;

预警机制子系统:为客户提供技术及时预警提醒,在系统内以页面的形式展现,同时可以提供以短信和邮件的方式对客户进行预警提醒,不错过处理舆情事件的黄金时间;

系统管理子系统:1,管理规则:采用北京中科新天独有的规则管理,实行三级关键词设置。2,监测管理:包含了监测目标管理,系统配置管理,文档收藏、个人关注,过期信息处理配置等。

技术架构图

功能特点


自定义URL来源及采集频率。网络舆情监测分析系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。 

支持多种网页格式。网络舆情监测分析系统可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。 

支持多种字符集编码。网络舆情监测分析系统采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。

支持整个互联网采集。网络舆情监测分析系统元搜索模式是以国内知名互联网搜索引擎的结果为基础,用户可直接面向互联网定制自己想要采集的互联网连接,输入搜索关键词就可以了。

支持内容抽取识别。网络舆情监测分析系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。

基于内容相似性去重。网络舆情监测分析系统通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章会自动归类到一个文章主题下,并显示此主题下有都多少篇相同的文章以及链接。

系统运行状态