您当前的位置:首页>解决方案>方案详情

境外网络信息监测与分析解决方案

发表日期:2015-03-16 10:10:15文章编辑:admin浏览次数:2256

境外监测系统特色

境外舆情监测中最关键的技术难题有两点:

1.如何实现防火墙穿透获取境外信息。

2.如何弱化超远距离通信对程序运行的影响。

应对这两个问题我们通过长期的研发和市场经验,提出了两套我们所独有的技术,保证我们在境外监测方面的行业技术优势。


特色一:独有的防火墙穿透技术

目前广泛采用的穿透方式是采用VPN来做境外信息穿透,我们的穿透技术也源于此,以VPN为核心,并在此基础上封装了数种保证信息传输稳定性的方式,确保VPN连接的稳定性。



特色二:独有的超远距离信息采集技术

境外监测必须面对的一个问题是系统对境外网站提出的数据发送请求所收到结果的时间是较长的,导致每一次程序获取境外数据所消耗的程序延时是比较高的,如果不采特别的应对方案而使用普通的爬虫采集方式来应对该问题,程序效率会较低,并且部分访问请求会在等待时间超过规定值之后而被强行关闭。所以对该问题我们设计了特殊的境外网络爬虫来处理,特别针对境外的情况进行过优化,经过我们内部的测试,特殊优化的境外爬虫对境外信息的采集效率比不使用该技术的爬虫平均效率高出一倍以上。确保了在境外采集行为中对计算资源和带宽资源的充分利用,实现稳定高效的境外信息采集。

系统基本功能简介:

数据采集

1.能够实现全天候对互联网数据采集,境外数据的一大特点是地域性时差的影响较大,系统能够不间断地进行数据采集,实现对境外数据的稳定监测。

2.采集效率高,境外数据采集的时区性导致一段时间内有些国家或地区是白天,而有些是夜晚,从而导致互联网实时数据量起伏波动和时区具有正相关性。系统在这一点经过专门优化,根据国际时间对舆情高发时区的国家进行采集,实现了对系统带宽的最大化利用。

3.运行稳定性高,由于爬虫程序对网络信息获取行为的不确定性较多,因此我们特别设计了针对爬虫运行稳定性的保障功能。系统中内置程序稳定核,实现了对问题程序组件的工作过程中再启动功能。

4.采集及时,对按照时域划分的采集目标网站,能够在系统工作带宽允许的情况下的最快更新,若带宽充分,采集时间能维持在分钟级。

舆情优化

1.系统对采集到的信息采用域名及内容过滤方式滤去重复的网络信息。首先是采用域名虑重,然后对文章的关键词进行分词及标注词性,并按照分词结果对文章内容进行过滤,避免重复获取信息。

2.对于虑重后的信息系统按照黑白名单的方式对信息的重要性进行打分,按照打分结果进行信息重要程度分级,分级后形成系统进行数据分析的舆情数据。

舆情分析

1.系统能够实现对舆情数据的分析形势具有图形化展示和表格化展示,这两种方式能够在系统网站上以及系统简报中实现。

2.能够对舆情数据进行规则分析,能够通过关键词的组合设定不同种类的规则来实现对舆情数据的特定化检索。

3.系统能够通过舆情数据的采集url和数据内容两方面对舆情数据进行地理位置分析。

4.对具有用户信息的舆情数据还能根据所获取的用户信息进行用户分析。

舆情预警

1.在本系统中,舆情预警是属于舆情分析中规则分析的一部分,我们通过自定义化规则之后就能够实现按照某种规则对舆情信息进行预警。

2.系统具有预警信息二次过滤功能,预警信息因为具有时效性,为了避免对用户带来“预警骚扰”,系统能够实现用户的特定化设定规则的原有规则基础上的二次过滤。

舆情简报

1.舆情简报有自动生成和手动生成两种生成形式。

2.舆情简报可以按照用户需求进行自定义,系统内置部分简报模板,用户可根据自己的需求选择使用什么样式的简报模板。


系统运行状态一览

关键问题问答

  • 境外监测的信息来源是什么

境外监测信息有两种,分为自定义网站和全网监测网站。

自定义网站指的是用户特别配置的网站,这类网站有着域名固定,信息针对化强和信息实时性好的优点。缺点是信息量不固定,除了大型门户类网站之外,有些网站信息很可能1天都不更新,这样程序在页面嗅探中会付出较多无用成本。

全网监测则主要是借助各类搜索引擎来进行搜索,这种方式获取的信息有着信息量大,范围广的优点。缺点是信息实时性差,每一次索引信息重复率高,以及后续解析处理的网页分类的工作压力较大。


  • 境外监测支持哪些语言

基础系统只支持英文信息监测,但留有对其它语种支持的功能接口,如有特殊语种需求可以进行相应的二次开发。