友情链接
· 歪酷博客
· 管理我的Blog
· 我拍的照片
· <- Technical Guys ->
· 惊帆之静默
· <- Technical Guys ->
· <! --- Dude Start Here ---!>
· 多儿
· 洪七公的直接
· 科大吴老师
· 维C周星星
· 民工土人男
· 小猪土人女
· 闺中贝贝赵
· 女经纪范^_^
· 甜甜的老鼠
· 嗔!一群土人
· 佳佳的水云间
· micheal@uestc
· 摇滚女青年
· lyker@uestc
· JalenWoo@uestc
· plan@uestc
· 帅哥包同学
· 阿楠@uestc
· cicy小朋友
· 翠花的酸菜
· 终于承认是小资
· rice@uestc
· J@WING@uestc
· 咨询业的付毒人
· 丁珊珊同学
· 我的徒弟
· 五弟面爷
· 科大人文办周总
· <! --- Dude End Here ---!>
· <! --- Bookmark Start Here ---!>
· LWN
· Wikipedia
· ScienceWorld
· Public Library of Science
· <! --- Bookmark End Here---!>

Perpetuum Vestigium

一花一世界,一叶一乾坤。


« 上一篇: 视频大放送 下一篇: 记忆深刻的一段话 »
kaby @ 2008-07-29 22:22

Parallel Python是python的分布式计算模块,其功能是可以以 函数+数据 的形式,将任务分布到Cluster中的各台机器的CPUs上进行运算。
同时Parallel Python的Cluster构建支持Auto Discovery,可以在内网中非常方便的搭建起一个自组织的分布式计算平台。
Parallel Python没有DFS,可以理解为残疾版的MapReduce。

动机是部门的Hadoop环境还没有搭建起来,处理Log相当耗时相当冗长,于是花了点时间尝试了下Parallel Python(以下简称PP)。
测试了一下性能,结果PP并不适合这种大数据量、高计算复杂度的应用。
主要原因是数据交换瓶颈:PP是一个计算资源共享平台,但是在存储方面没有一个分布式文件系统支持。直接的结果是对于大数量应用,性能反而不如单机。
但是对于类似最优化一类小数据量大计算量的应用,还是相当适用的。

btw,PP的可控制性不是很强。比如任务分发机制是外部无法调节的,经常会造成cluster中的机器空闲。

不知道PP是怎么实现将本地的函数分发到各个Node,感觉很奇妙。哪位达人看过代码?




评论 / 个人网页 / 扔小纸条
* 昵称

已经注册过? 请登录

新用户请先注册 以便能显示头像及追踪评论回复

Email
网址
* 评论
表情
 


 

分类小组论坛
杂谈 , 娱乐、八卦 , 文学、艺术 , 体育 , 旅游、同城 , 象牙塔 , 情感 , 时尚、生活 , 星座 , 科技

请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

相关法律法规
全国人大常委会关于维护互联网安全的决定
中华人民共和国计算机信息系统安全保护条例
中华人民共和国计算机信息网络国际联网管理暂行规定
计算机信息网络国际联网安全保护管理办法
计算机信息系统国际联网保密管理规定

网志分类
· 所有网志 · 壹家杂谈 · Tech. et Sci. · Paper Reader · 未分类 ·
站内搜索

订阅 RSS

0056214

歪酷博客