PythonTip >> 博文 >> 开源软件

分布式计算框架 DPark

zihua 2013-09-24 22:09:44 点击: 846 | 收藏


DPark 是 Spark 的 Python 克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。 DPark 由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark 完成,正日趋完善。

示例代码:

 import dpark
 file = dpark.textFile("/tmp/words.txt")
 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
 print wc

原文链接:http://www.oschina.net/p/dpark

作者:zihua | 分类: 开源软件 | 标签: python开源 | 阅读: 846 | 发布于: 2013-09-24 22时 |