MQ

ZooKeeper

​ ZooKeeper 提供基础的目录/名字服务、配置管理服务。并且在此基础上还能提供分布式锁、leader选举等高级功能。网上有一段有趣生动的介绍:“ZooKeeper,顾名思义就是动物园里大象(hadoop)、蜜蜂(Hive)、小猪(Pig)、和我的猫(MyCat)的管理员”。

​ 客户端建议采用Apache Curator这个二次封装的客户端来进行客户端代码的编写,它封装和简化了很多于业务无关的逻辑,使用简单,质量可靠。

Apache Kafka

​ Kafka是一个高吞吐量的分布式消息系统,由LinkIn开源,被描述为LinkeIn的“中枢神经系统”。Kafka管理从各个应用程序汇聚到此的信息流,这些数据经过处理后再被分发到何处。

​ Kafka使用Scala开发,而Scala又是JVM上运行的动态需要,因此对会Java的同学来说学习难度并不大,其客户端也支持Java语言,比较容易部署在本机上进行学习研究。

Facebook Thrift

​ Facebook Thrift是最新一代高性能、跨需要的RPC通信框架,支持多种语言。

​ Facebook Thrift与Ice类似,不过没有Ice完整和成熟。与Facebook Thrift类似的还有Apache Avro。

Apache Storm、Spark Streaming 、Samza

​ 与Hadoop相比Storm是个实时的高容错的分布式计算系统。Storm也可以处理批量数据,但其在保证高可靠性的前提下还可以让处理进行得更加实时,所有的信息都会被处理。Storm同样还具备容错和分布计算的特性,这让Storm可以扩展到不同的机器上进行大批量的数据处理。

Storm的主要开发语言为Java,并且包括了Clojure这种Lisp语言,对于Java工程师来说,学习难度并不大。与Strom类似的还有Spark Streaming、LinkIn的Samza,它们都是最近开源的热门项目。

​ Spark Streaming是Spark中新的流式计算框架。Spark并不会像Strom那样一次处理一个数据流,而是在处理前按时间间隔预先将其分为一段段的批处理作业。

​ 而Samza处理数据流时,会依次处理收到的每条消息。Samza的流单位既不是元组,也不是Dstream而是一条条消息。

​ Strom、Spark Streming、Samza这三种实时流计算系统都是分布式系统,具有低延迟、可扩展和容错性等诸多优点。它们的共同特同特色在于:允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,此外,它们都提供了简单的API来简化底层实现的复杂程度。

互联网公司常用四大类中间件之搜索中间件与缓存中间件

  1. 搜索中间件:Solr,ELK(ElasticSearch,Logstash,Kibana)达成近实时搜索。

底层均基于Lucence。如果能考到ELK认证(当前很少人获得),高薪无悬念。

大型互联网公司项目请求响应处理:

远端通过访问Web->检索->缓存->HBase->MapReduce->HDFS

  1. 缓存中间件:

Redis缓存常用方法大家都比较清楚:

Ehcached:轻量级Java缓存框架,通过在接口服务里跑一个Ehcached,如果Ehcached有就取出,没有再去请求数据库,数据库返回并存在Ehcached中,这样就仅在一台服务器进程内。减少了Redis的繁琐步骤,缺点是,如果服务器挂了,Ehcached也挂了,因此解耦性没有Redis好。当用户访问时,快速返回结果,速度最快。

Memcached:和Ehcached很类似,2000年即存在了。在数据库MySQL中增加memcached,减少了数据库查询,MySQL内部检测该SQL是否在memcached中存在,如果不存在,则访问数据库,否则访问memcached即可。这样就将缓存放在数据库层面,来确保数据一致性。

当我们修改数据库时,需要同步更新Redis,如果中间通过消息中间件MQ提供消费,消费者可能还需更新Redis缓存。

客户端浏览器上的cookie,jwt->token缓存来自服务器的信息,比如用户名等信息。

除了浏览器上可以做缓存,我们添加Nginx也可以做缓存。我们知道,用Nginx做网关时可以提高整体性能,提升并发量;还可以用Nginx做动静分离,把服务器的一些后端数据前置到Nginx上;另外Nginx可以缓存静态文件,也可以缓存动态文件,比如Nginx内部也支持编程开发,也可以开发出来一些组件,比如resty_luacache(Lua语言实现),shareddict(C语言实现)。

如果Nginx缓存空间不够(比如100个),app通过加锁对数据库进行操作:

如果在app上存全量热点数据(比如1000个),可以通过集群,都复制一份数据

如果各个app分别存部分缓存数据,以保证有足够空间,应该如何处理?

采用取模的方式,增加集合进行定向流量分发,最终确定那一台服务器(1%3=2)。

比如某东的item.Xd.com下的商品详情页做定向流量分发,中间还集成了其他脚本,比如Lua。同时增加Redis,Nginx客户端或Lua语言可以直接访问Redis。

如果没有任何需要后端服务计算的查询,则放在Redis里进行缓存,另外还可以增加网关层进行缓存,还可以在业务网关和流量网关进行处理。

为什么做这么多缓存?缓存一定要前置,前置的意义是尽量减少后端逻辑的执行,在前面就找到答案;越前置响应速度越快,处理的节点个数就越少,比如nginx有几十个,网关可能有几十个,app有几百个…..当项目做的足够大,高并发越来越复杂后,可能采用下面的结构:

Lvs做缓存,Nginx做流量网关,业务网关后可能有商城业务,ERP业务,DRP业务。而商城业务下面可能是一个独立的业务线,会包含N个子系统。所以可能增加多个业务网关分别连接子系统。这样ERP就必须通过商城业务网关访问商城业务的多个子系统,通过网关控制访问。