友情链接
· 歪酷博客
· 管理我的Blog
· 我拍的照片
· <- Technical Guys ->
· 惊帆之静默
· <- Technical Guys ->
· <! --- Dude Start Here ---!>
· 多儿
· 洪七公的直接
· 科大吴老师
· 维C周星星
· 民工土人男
· 小猪土人女
· 闺中贝贝赵
· 女经纪范^_^
· 甜甜的老鼠
· 嗔!一群土人
· 佳佳的水云间
· micheal@uestc
· 摇滚女青年
· lyker@uestc
· JalenWoo@uestc
· plan@uestc
· 帅哥包同学
· 阿楠@uestc
· cicy小朋友
· 翠花的酸菜
· 终于承认是小资
· rice@uestc
· J@WING@uestc
· 咨询业的付毒人
· 丁珊珊同学
· 我的徒弟
· 五弟面爷
· 科大人文办周总
· <! --- Dude End Here ---!>
· <! --- Bookmark Start Here ---!>
· LWN
· Wikipedia
· ScienceWorld
· Public Library of Science
· <! --- Bookmark End Here---!>

Perpetuum Vestigium

一花一世界,一叶一乾坤。


kaby @ 2009-02-03 21:07

http://entelechie.ycool.com/post.1083162.html

三年前的2月6日,换到这个blog。
现在是说再见的时候了。
请访问:

http://www.entelechie.cn



麻烦各位帅哥美女更新下链接。


 
kaby @ 2009-01-28 11:30

相信不少人都和我一样,在sourcesforge上疯狂的找实现#&9q(功能的的library,结果往往是一无所获。

去年在某木工论坛上看到一句话:如果发现你想要的工具、材料在市场上找不到,那是因为你的方案不对。
这就是所谓的“日光之下并无新事”吧?

当然啦,cutting-edge的除外。


 
kaby @ 2009-01-26 09:06

这一年真是背啊,总算过去了。。

bravo!


 
kaby @ 2009-01-02 12:53

一篇论文
两个专利
三个项目


嗯嗯,争取把个人问题也解决了。


 
kaby @ 2009-01-02 09:31

对于全网引擎,Query Analysis主要是在两个层面的分类
  • Query意图的分类:Navigational、Informational、Transactional,再具体一点的Download,Local Info之类;
  • Query知识类别上的分类:分类目标是新闻、体育、经济、音乐,主要目的是为了做多个垂直引擎的结果融合或者Query Planing;

先说知识类别上的分类吧,这个东西在全网搜索中使用较多,本身难度也不大,比较确定。抽象说的,思路无非都是通过Query搜索结果中的文档进行分类,再balabalabala到Query,因为Query本身实在太短了。
这个方向最新的、比较有意思的论文应该是MSRA的[paper1],用的Spectral Clustering的方法,有兴趣的可以用过引用扩展阅读。

至于意图的分类,不确定性就比较大了。

首先意图如何定义?Navigational、Informational、Transcational这三个分类目标是Yahoo的同学提得[paper2],应该算Query意图分类目标定义的鼻祖了,被引用无数。但是这三个目标对于全网搜索来说也太粗犷了,对于垂直搜索的意图分析更没有可推广性。

我认为新加坡国立[paper3]中的思路值得借鉴:将一个Query通过时效性、地域性、权威性、模糊程度四个维度进行刻画,描述的维度是可以根据具体应用进行扩充的,而且传统的Navigational/Informational/Transcational也可以被映射到这个系统中来。这篇paper的另一个贡献在于明确了Query意图分析是N个Binary-Class分类问题的组合,而不是一个N-Class分类问题。就我目前的所看到的数据,将Query意图分类作为一个N-Class的分类问题本身也是不可解的。

其实Yahoo自己也是通过Binary-Classifier来做Query意图分类的,关于具体的实现在[paper4]中写的比较详细,基本上都是一些工程性的东西:想尽办法找特征,穷凶极恶的特征选择。模型?其实无所谓了,考虑到特征基本都是interdependent的,要不用CRF吧。

可以拿来做Query意图分类的特征,对于Query本身,可以分 词性、语义、词 三层。这个主要就看各家公司的资源了,没有雄厚的积累基本上提不出什么有用的信息;至于Query之外,命中结果数、用户搜索PV、命中URL中的字符串、用户点击、命中文档内容……一切的一切,其实都能用得上,就看有多少资源available了。

最后我想说,其实资源到位了,做Query意图分析还是比较靠谱的。
欢迎各位大大和我讨论,entelechie@gmail.com

本文中提到的论文
  1. Learning query intent from regularized click graphs
  2. Understanding user goals in web search
  3. Functional faceted web query analysis
  4. Coupling Feature Selection and Machine Learning Methods for Navigational Query Identification



 
网志分类
· 所有网志 · 壹家杂谈 · Tech. et Sci. · Paper Reader · 未分类 ·
最新的评论
站内搜索

订阅 RSS

0056230

歪酷博客