Twitter Storm简介
from: http://xumingming.sinaapp.com/109/twitter-storm简介/
本文翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Rationale
背景
过去的十年是数据处理变革的十年, MapReduce, Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统 — 它们设计的目的也不是为了实时计算。没有什么办法可以简单地把hadoop变成一个实时计算系统。实时数据处理系统和批量数据处理系统在需求上有着本质的差别。
然而大规模的实时数据处理已经越来越成为一种业务需求了, 而缺少一个“实时版本的hadoop”已经成为数据处理整个生态系统的一个巨大缺失。
Storm填补了这个缺失。
Storm出现之前,你可能需要自己手动维护一个由消息队列和消息处理者所组成的实时处理网络, 消息处理者从消息队列取出一个消息进行处理, 更新数据库,发送消息给其它队列, 等等等等。不幸的是,这种方式有以下几个缺陷:
1. 单调乏味: 你花费了绝大部分开发时间去配置把消息发送到哪里, 部署消息处理者,部署中间消息节点 — 你的大部分时间花在设计, 配置这个数据处理框架上, 而你真正关心的消息处理逻辑在你的代码里面占的比例很少。
2. 脆弱: 不够健壮, 你要自己写代码保证所有的消息处理者和消息队列正常运行。
3. 伸缩性差: 当一个消息处理者的消息量达到阀值,你需要对这些数据进行分流, 你需要配置这些新的处理者以让他们处理分流的消息。
虽然对于一个大量消息处理系统来说,分解到最后就是消息队列和消息处理者的组合,而消息处理无疑是实时计算的基础。那么现在问题就是:怎样去做才能不丢失数据,可以很好的扩展到更大的消息量并且非常容易操作呢?
Storm满足你的需求。
为什么我们说Storm很重要呢?
Storm定义了一批实时计算的原语。如同hadoop大大简化了并行批量数据处理,storm的这些原语大大简化了并行实时数据处理。storm的一些关键特性如下:
1. 适用场景广泛: storm可以用来处理消息和更新数据库(消息流处理), 对一个数据量进行持续的查询并返回客户端(持续计算), 对一个耗资源的查询作实时并行化的处理(分布式方法调用), storm的这些基础原语可以满足大量的场景。
2. 可伸缩性高: Storm的可伸缩性可以让storm每秒可以处理的消息量达到很高。为了扩展一个实时计算任务,你所需要做的就是加机器并且提高这个计算任务的并行度设置(parallelism setting)。作为Storm可伸缩性的一个例证, 一个Storm应用在一个10个节点的集群上每秒处理1000000个消息 — 包括每秒一百多次的数据库调用。Storm使用ZooKeeper来协调集群内的各种配置使得Storm的集群可以很容易的扩展很大。
3. 保证无数据丢失: 实时系统必须保证所有的数据被成功的处理。 那些会丢失数据的系统的适用场景非常窄, 而storm保证每一条消息都会被处理, 这一点和S4相比有巨大的反差。
4. 异常健壮: 不像Hadoop — 出了名的难管理, storm集群非常容易管理。容易管理是storm的设计目标之一。
5. 容错性好:如果在消息处理过程中出了一些异常, storm会重新安排这个出问题的处理逻辑。 storm保证一个处理逻辑永远运行 — 除非你显式杀掉这个处理逻辑。
6. 语言无关性: 健壮性和可伸缩性不应该局限于一个平台。Storm的topology和消息处理组件可以用任何语言来定义, 这一点使得任何人都可以使用storm.
.
分享到:
相关推荐
基于java的开发源码-开放实时数据处理平台 Twitter Storm.zip 基于java的开发源码-开放实时数据处理平台 Twitter Storm.zip 基于java的开发源码-开放实时数据处理平台 Twitter Storm.zip 基于java的开发源码-开放...
a workshop for twitter storm
开放实时数据处理平台 Twitter Storm
基于Java的实例源码-开放实时数据处理平台 Twitter Storm.zip
开放实时数据处理平台 Twitter Storm.7z
基于Java的开放实时数据处理平台 Twitter Storm.zip
基于java的开放实时数据处理平台 Twitter Storm.zip
java源码:开放实时数据处理平台 Twitter Storm.zip
作为大数据流处理的经典论文storm@twitter,无论用来入门还是深入学习,都是不可错过的。在此献上该论文的原作ppt供大家学习。
Distributed and fault-tolerant realtime computation
开放实时数据处理平台 Twitter Storm源码
免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者或出版方,资料版权归原作者或出版方所有,...
Storm 代码来自于Twitter上月收购的BackType,似乎是Twitter为方便用户解析数据的努力。 现在Storm的势头相当强劲,Twitter开发的使其完美的工具,已经变得非常强大。类似于Hadoop,另一个开源数据操作平台,Storm...
This paper describes the use of Storm at Twitter
twitter4j storm中安装使用
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop
Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。
twitter stream的创始人 Nathan Marz 在2012.3.16号的培训课件,详细讲解了stream 的架构和工作原理。 Summary Nathan Marz discusses Storm concepts –streams, spouts, bolts, topologies-, explaining how to ...
Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架,它原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析系统。实时数据处理的应用场景很广泛,例如商品推荐,广告投放,它...
Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新...