Archive for the ‘CIC 科学技术’ Category

浅述网络口碑研究中的情感分析

星期一, 四月 12th, 2010

对于网络口碑研究而言,识别消费者在文章中对某一个产品所表达或流露出的情感是非常重要的,这类问题就叫做情感分析(Sentiment Analysis)。

虽然CIC在这方面已经做了不少工作和积累,但是坦白的说情感分析这一领域充满了实用性的诱惑,但是同时也存在很多技术上的挑战,对于所有从事这一方向研究和开发的人而言,都有很长的路要走。

近年来比较有影响力的一本专著是Bo Pang 和Lilian Lee 的<Opinion mining and sentiment analysis>,该书综述了情感分析的应用、算法,以及常见困难,虽然面向英文,但是对于中文的处理也具有很好的参考价值。

09年11月CIC 的技术人员专程去香港参加了ACM CIKM2009(计算机协会信息与知识管理会议)的情感分析研讨部分,借这个机会也对国际上这个领域的发展做了一些了解。借这个机会也对国际上这个领域的发展做了一些了解。印象比较深刻的是来自Jodange 公司的Claire教授结合本公司具体的产品讲述了包括情感分析在内自然语言处理技术在产品各个层面的应用。

与会的另一个感触是,海外特别是英语国家在情感分析领域的发展条件要远远优于中文,除去英文不需要分词这个天然优势外,更主要还在于各类研究工具和资料的共享方面,以及产学界的互动沟通。

相比于国内而言,这些方面国外的优势包括:

  1. 公开的标注语料,例如 MPQA的Opinion Corpus。
  2. 共享的基础工具,譬如普林斯顿大学的Wordnet, 意大利信息科技研究所的sentiWordnet.
  3. 学术界和工业界的交流十分密切,例如这次的会议便由Google、微软、Yahoo等公司赞助,与会的不仅有来自院校,也有不少公司。
  4. 学术界也有“学而优则商”,除去教授自己下海,还有精明的投资商和企业家主动找到相关领域的学术人员,协助他们进行技术转移应用,例如这次Claire教授便是属于被黄袍加身,成为Jodange公司的首席科学家。

从研究的趋势来看,虽然理论水平相比一两年前并没有很大的突破,基本还是不同方式的特征抽取和分类器的组合,但是应用层面能看出有这样的发展迹象:

  1. 应用的范围更加广泛,譬如各个领域内产品的分析,甚至用于在竞选中对于政治人物的分析
  2. 分析粒度更加精细,从文章级别向句子和特征级别转变。最初情感分析的研究对象多为影评,这类评论大多观点鲜明,要么喜欢要么讨厌(豆瓣上对“阿凡达”和“孔子”的评论便是很好的例子),所以分析只要判断这篇文章作者是喜欢这部电影还是讨厌便可;但是产品评论就不一样,可能上一句还在赞美这辆车的动力,下一句就表达对内饰的不满,因此对产品类评论更加精细的分析就很重要,需要找出作者喜欢什么,不喜欢什么。
  3. 愈加区分不同领域的情感表达方式,同样一个词,描述不同的对象时可能表达截然相反的情感,譬如英文的“scary”,乍看肯定是贬义词,但是如果说“Death is Coming is really scary”(“死神来了”这部恐怖片真是吓人)则是表扬这部电影有效果;类似“safe”这个词总该是褒义吧,但偏偏用来形容唱片时,则是意指音乐很单调无趣。中文中这样的例子也不胜枚举,除去大小高低这些常用的词外,例如“厚重”,“干燥”,“昂贵”等的褒贬性也必须视描述对象而定,不能一概而论。

最后,还是要强调情感分析是一个非常有挑战的技术,在某些问题上甚至相当长一段时间内都未必能产生突破,尤其是需要借助于一些常识才能理解的表达方式;譬如“Mac Air 可以装进一个信封”,整句没有一个形容词,但是我们能够想象这该是多轻薄的一台笔记本,并由此可能产生拥有它的欲望,因为我们理解什么是信封,知道信封装不了很厚重的东西,我们也希望自己的笔记本越轻便越好。

但是要让电脑也能领会到自己应该越苗条越好的话,我们还需要耐心得等上不少时间。

CIC新数据抓取系统前瞻

星期一, 三月 8th, 2010

经历了6个月的努力,我们完成了CIC新数据抓取系统的雏形。作为工作在第一线的我,就在此为大家揭示一下这套新数据抓取系统的一些特性。

CIC的数据抓取系统,其核心实际上是一个垂直搜索引擎,它针对各个行业,为最新的网络舆情分析提供数据。

宽泛的数据类型   关注各类网站
在信息爆炸的网络时代,各类网络新媒体蜂拥而至,如何能够从种类繁多的各类网络媒体中收集网友的呼声,是数据抓取系统的重中之重。新的数据抓取系统的核心引擎能够支持各类网络口碑关注的网站,经过测试,目前已经能够支持的网站包括各类论坛、社区类网站、一些大型的博客网站、新闻网站、视频网站等。

实时数据抓取   时刻关注口碑动态
监听口碑动态最重要的指标就是快,能否在第一时间就能监听到最新的消息评价是一个舆情监测系统优劣的关键所在。凭借CIC独立研发的数据抓取引擎,新系统能够7*24小时不间断监控各类网络舆情动态,为网络舆情分析系统第一时间提供最新的情报资料。

强大的扩展性  良好的新站支持
在日新月异的互联网世界中,新类型的网站层出不穷,继视频网站、社交网站之后,微博又在对网友大抛橄榄枝,如何能够支持新类型的网站,如何能够第一时间支持新类型的网站,将极大的拓展数据抓取系统的生命力。凭借CIC自主设计的可扩展数据模型,新DC系统将能够在很短的时间内提供对新类型网站进行内容抽取。

简单的部署和管理  廉价的系统扩展
通过分布式部署和自动注册机制,新的数据抓取系统能够非常简单的实现多机管理和一机多进程的管理,从而大大降低了部署的难度和系统扩展的成本;通过统一的人机管理界面,维护人员能够非常简单的管理和控制每一个抓取的进程。 

支持宽泛的数据类型、能够实现实时数据抽取、具备强大的扩展性、并且能够通过如此简单的方式进行部署和管理,具备如此强大的数据抓取系统果然是很好很强大。让我们期待新系统正式上线后,能够发挥更大的价值。