Archive for the ‘垂直搜索引擎’ Category

CIC新数据抓取系统前瞻

星期一, 三月 8th, 2010

经历了6个月的努力,我们完成了CIC新数据抓取系统的雏形。作为工作在第一线的我,就在此为大家揭示一下这套新数据抓取系统的一些特性。

CIC的数据抓取系统,其核心实际上是一个垂直搜索引擎,它针对各个行业,为最新的网络舆情分析提供数据。

宽泛的数据类型   关注各类网站
在信息爆炸的网络时代,各类网络新媒体蜂拥而至,如何能够从种类繁多的各类网络媒体中收集网友的呼声,是数据抓取系统的重中之重。新的数据抓取系统的核心引擎能够支持各类网络口碑关注的网站,经过测试,目前已经能够支持的网站包括各类论坛、社区类网站、一些大型的博客网站、新闻网站、视频网站等。

实时数据抓取   时刻关注口碑动态
监听口碑动态最重要的指标就是快,能否在第一时间就能监听到最新的消息评价是一个舆情监测系统优劣的关键所在。凭借CIC独立研发的数据抓取引擎,新系统能够7*24小时不间断监控各类网络舆情动态,为网络舆情分析系统第一时间提供最新的情报资料。

强大的扩展性  良好的新站支持
在日新月异的互联网世界中,新类型的网站层出不穷,继视频网站、社交网站之后,微博又在对网友大抛橄榄枝,如何能够支持新类型的网站,如何能够第一时间支持新类型的网站,将极大的拓展数据抓取系统的生命力。凭借CIC自主设计的可扩展数据模型,新DC系统将能够在很短的时间内提供对新类型网站进行内容抽取。

简单的部署和管理  廉价的系统扩展
通过分布式部署和自动注册机制,新的数据抓取系统能够非常简单的实现多机管理和一机多进程的管理,从而大大降低了部署的难度和系统扩展的成本;通过统一的人机管理界面,维护人员能够非常简单的管理和控制每一个抓取的进程。 

支持宽泛的数据类型、能够实现实时数据抽取、具备强大的扩展性、并且能够通过如此简单的方式进行部署和管理,具备如此强大的数据抓取系统果然是很好很强大。让我们期待新系统正式上线后,能够发挥更大的价值。