友情链接
· 歪酷博客
· 管理我的Blog
· 我拍的照片
· <- Technical Guys ->
· 惊帆之静默
· <- Technical Guys ->
· <! --- Dude Start Here ---!>
· 多儿
· 洪七公的直接
· 科大吴老师
· 维C周星星
· 民工土人男
· 小猪土人女
· 闺中贝贝赵
· 女经纪范^_^
· 甜甜的老鼠
· 嗔!一群土人
· 佳佳的水云间
· micheal@uestc
· 摇滚女青年
· lyker@uestc
· JalenWoo@uestc
· plan@uestc
· 帅哥包同学
· 阿楠@uestc
· cicy小朋友
· 翠花的酸菜
· 终于承认是小资
· rice@uestc
· J@WING@uestc
· 咨询业的付毒人
· 丁珊珊同学
· 我的徒弟
· 五弟面爷
· 科大人文办周总
· <! --- Dude End Here ---!>
· <! --- Bookmark Start Here ---!>
· LWN
· Wikipedia
· ScienceWorld
· Public Library of Science
· <! --- Bookmark End Here---!>

Perpetuum Vestigium

一花一世界,一叶一乾坤。


« 上一篇: 搬家 下一篇: 照片 »
kaby @ 2007-10-30 16:06

最近整的是中文分词与关键字提取,用python写的原型,算是复杂度比较可观的应用了;
分词的资料不太好找,只有KaiFu Lee在MSRA带着Guo姓小弟做的一些列paper和中科院I3S组的分词程序。
关键字提取是无先验信息的,篇幅也很短效,但是功能还是满意了。基本流程是聚类后,算条件概率,思想来自中华民国某大学的Paper。
起初的实现的模型,大概在1000汉字每秒的处理能力;
折腾了一天,提升到12000汉子每秒。
主要改进如下
1. Using Dictionary Types:
Python的字典类型是基于Hash的,即使更换为C Plusplus的map性能也不可能有太大的提高,我也懒得自己在写个专用的HashDictionary;
2. Beware about encode/decode
这个东东profile了很久才发现,想当然的encode("utf_8")不就是一指针强制转换就能实现的功能么,但是在Python中它的开销比聚类算法还高不少;所以还是用range(x, y, 3)比较保险UTF-8为变长编码,简单的range(x, y, 3)将导致类似中英文混排文档的出错,不过那个encode("utf_8")的效率还是有点低。

前阵子听说SICP要改成用python教授我还挺不屑的,用它写了点东西后发现好像不是这么一回事:譬如信号处理的Stream模型在python还是被支持的很完善的。


btw,
今天我负责修改的新类别搜索遭遇性能瓶颈,下班前一直在跟;
期间更换了更强健的哈希算法、设置了更大的桶规模,使时延下降了5%,但是仍然不可接受。
最后跟进到数据上,发现应该被致零的保留16bit字段,呈现出随机分布的非零值,直接导致类别数量远超过设计规模;
查到推送端,发现有一个int64未被初始化,想必该是这个原因了,明天去公司就见分晓;
这个故事告诉我们说,栈里面的垃圾数据,也是很好的随机数生成器。



最新评论


中文分词

2008-03-21 09:53 匿名 222.182.*.* 网址: http://www.zengqian.com

大哥,讲详细点嘛


2009-02-26 15:56

可不可以给我发一份啊,最近也在研究这方面的东西,不过没一点头绪,不胜感激。davidzhang212@yahoo.com.cn


评论 / 个人网页 / 扔小纸条
* 昵称

已经注册过? 请登录

新用户请先注册 以便能显示头像及追踪评论回复

Email
网址
* 评论
表情
 


 

分类小组论坛
杂谈 , 娱乐、八卦 , 文学、艺术 , 体育 , 旅游、同城 , 象牙塔 , 情感 , 时尚、生活 , 星座 , 科技

请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

相关法律法规
全国人大常委会关于维护互联网安全的决定
中华人民共和国计算机信息系统安全保护条例
中华人民共和国计算机信息网络国际联网管理暂行规定
计算机信息网络国际联网安全保护管理办法
计算机信息系统国际联网保密管理规定

网志分类
· 所有网志 · 壹家杂谈 · Tech. et Sci. · Paper Reader · 未分类 ·
站内搜索

订阅 RSS

0056232

歪酷博客