您当前的位置:首页>解决方案>方案详情

少数民族语言网络信息监测与分析解决方案

发表日期:2015-03-16 10:09:44文章编辑:admin浏览次数:2337

少数民族监测中所需要解决的核心问题:

1.大型门户网站较少,大量的小型贴吧论坛,信息不集中且更新速度慢。

2.少数名族特有的语言种类较多,无法单一处理,加重系统负担。

这两个问题均会对系统运行效果产生巨大的破坏,因而我们针对性开发了独有的技术来解决:


特色一:爬虫的智能非持续性爬取技术

当需要检测的信息大量分布在众多拥有独立网站结构的中小型网站中时,采取原有的对网站的定时爬取已经不合适了,也就是说,假设有300个小型网站,每个网站内能解析出10个结构页面,相当于有3000个结构性页面。如果单纯地设定某一时间周期对这些结构性页面进行定时爬取,那么必然会导致两种结果:

1.周期太短,重复信息众多,大量重复信息被系统丢弃,浪费带宽。

2.周期太长,个别更新速率高的网站信息完全来不及获取,漏检。

因而我们开发了智能非持续性爬取技术,该技术核心原理是通过逆反馈动态调整结构性页面的爬取周期,保证了在利用有限的带宽和计算资源对大规模中小型网站信息的获取。

 


特色二:多语种分布式分词技术

在多语种环境下,如果使用单一的分词器和多语种分词词典的话对硬件资源的消耗会非常大,也不利于降低程序粒度,而程序粒度是保证程序有良好故障恢复能力的关键。因此针对这类情况我们特别设计了分布式分词技术,将硬件资源消耗的大户分开部署在多个计算节点下,实现分词技术的分布式。


方案其它特征简述:

完整的舆情产品支持

虽然本方案是针对少数民族舆情监测提出的,但是方案依然具有完整的舆情系统功能支持,也就是说本方案具有舆情分析、舆情优化、舆情预警等完整系统的功能。

跨地域性服务器支持

少数民族信息的跨地域性较大,倘若用户选择服务的方式而不是用户端部署服务器的方式,我们能够将服务器部署在各地的云服务器上,实现爬虫的地域性爬取功能。

比如说内蒙的服务器采集内蒙的舆情信息,新疆的服务器采集新疆的舆情信息,这种分布式采集的效率更高。

关键问题问答:

  • 我们希望和少数民族打交道,希望掌握少数民族最新的网络舆情信息,但是对于哪些网站符合我们的要求并不知道,难以提供监测网站列表。

我们可以提供很多少数民族网站来供您选择,并且我们有专门的舆情分析师队伍定期对这些网站进行评估,他们会为您量身定做舆情监测网站范围,确保您的配置达到最佳的效果。


  • 我不需要多语种分布式分词技术,我只关心某一少数民族语种的信息,希望使用普通版的舆情产品来单独做这方面的工作可以吗?

可以的,如果是单一少数民族信息监测,可以在普通版的舆情方案基础上进行适当修改使之仅仅满足该语种的监测要求。但是如果语种多于一种,比如希望同时监测汉语和蒙语,我们都建议采用少数民族专用的舆情监测方案。