常见中间件

MQ

ZooKeeper

ZooKeeper 提供基础的目录/名字服务、配置管理服务。并且在此基础上还能提供分布式锁、leader选举等高级功能。网上有一段有趣生动的介绍:“ZooKeeper，顾名思义就是动物园里大象(hadoop)、蜜蜂(Hive)、小猪(Pig)、和我的猫(MyCat)的管理员”。

客户端建议采用Apache Curator这个二次封装的客户端来进行客户端代码的编写，它封装和简化了很多于业务无关的逻辑，使用简单，质量可靠。

Apache Kafka

Kafka是一个高吞吐量的分布式消息系统，由LinkIn开源，被描述为LinkeIn的“中枢神经系统”。Kafka管理从各个应用程序汇聚到此的信息流，这些数据经过处理后再被分发到何处。

Kafka使用Scala开发，而Scala又是JVM上运行的动态需要，因此对会Java的同学来说学习难度并不大，其客户端也支持Java语言，比较容易部署在本机上进行学习研究。

Facebook Thrift

Facebook Thrift是最新一代高性能、跨需要的RPC通信框架，支持多种语言。

Facebook Thrift与Ice类似，不过没有Ice完整和成熟。与Facebook Thrift类似的还有Apache Avro。

Apache Storm、Spark Streaming 、Samza

与Hadoop相比Storm是个实时的高容错的分布式计算系统。Storm也可以处理批量数据，但其在保证高可靠性的前提下还可以让处理进行得更加实时，所有的信息都会被处理。Storm同样还具备容错和分布计算的特性，这让Storm可以扩展到不同的机器上进行大批量的数据处理。

Storm的主要开发语言为Java，并且包括了Clojure这种Lisp语言，对于Java工程师来说，学习难度并不大。与Strom类似的还有Spark Streaming、LinkIn的Samza，它们都是最近开源的热门项目。

Spark Streaming是Spark中新的流式计算框架。Spark并不会像Strom那样一次处理一个数据流，而是在处理前按时间间隔预先将其分为一段段的批处理作业。

而Samza处理数据流时，会依次处理收到的每条消息。Samza的流单位既不是元组，也不是Dstream而是一条条消息。

Strom、Spark Streming、Samza这三种实时流计算系统都是分布式系统，具有低延迟、可扩展和容错性等诸多优点。它们的共同特同特色在于：允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行，此外，它们都提供了简单的API来简化底层实现的复杂程度。

互联网公司常用四大类中间件之搜索中间件与缓存中间件

搜索中间件：Solr，ELK（ElasticSearch，Logstash，Kibana）达成近实时搜索。

底层均基于Lucence。如果能考到ELK认证（当前很少人获得），高薪无悬念。

大型互联网公司项目请求响应处理：

远端通过访问Web->检索->缓存->HBase->MapReduce->HDFS

缓存中间件：

Redis缓存常用方法大家都比较清楚：

Ehcached：轻量级Java缓存框架，通过在接口服务里跑一个Ehcached，如果Ehcached有就取出，没有再去请求数据库，数据库返回并存在Ehcached中，这样就仅在一台服务器进程内。减少了Redis的繁琐步骤，缺点是，如果服务器挂了，Ehcached也挂了，因此解耦性没有Redis好。当用户访问时，快速返回结果，速度最快。

Memcached：和Ehcached很类似，2000年即存在了。在数据库MySQL中增加memcached，减少了数据库查询，MySQL内部检测该SQL是否在memcached中存在，如果不存在，则访问数据库，否则访问memcached即可。这样就将缓存放在数据库层面，来确保数据一致性。

当我们修改数据库时，需要同步更新Redis，如果中间通过消息中间件MQ提供消费，消费者可能还需更新Redis缓存。

客户端浏览器上的cookie，jwt->token缓存来自服务器的信息，比如用户名等信息。

除了浏览器上可以做缓存，我们添加Nginx也可以做缓存。我们知道，用Nginx做网关时可以提高整体性能，提升并发量；还可以用Nginx做动静分离，把服务器的一些后端数据前置到Nginx上；另外Nginx可以缓存静态文件，也可以缓存动态文件，比如Nginx内部也支持编程开发，也可以开发出来一些组件，比如resty_luacache(Lua语言实现)，shareddict（C语言实现）。

如果Nginx缓存空间不够（比如100个），app通过加锁对数据库进行操作：

如果在app上存全量热点数据（比如1000个），可以通过集群，都复制一份数据

如果各个app分别存部分缓存数据，以保证有足够空间，应该如何处理？

采用取模的方式，增加集合进行定向流量分发，最终确定那一台服务器（1%3=2）。

比如某东的item.Xd.com下的商品详情页做定向流量分发，中间还集成了其他脚本，比如Lua。同时增加Redis，Nginx客户端或Lua语言可以直接访问Redis。

如果没有任何需要后端服务计算的查询，则放在Redis里进行缓存，另外还可以增加网关层进行缓存，还可以在业务网关和流量网关进行处理。

为什么做这么多缓存？缓存一定要前置，前置的意义是尽量减少后端逻辑的执行，在前面就找到答案；越前置响应速度越快，处理的节点个数就越少，比如nginx有几十个，网关可能有几十个，app有几百个…..当项目做的足够大，高并发越来越复杂后，可能采用下面的结构：

Lvs做缓存，Nginx做流量网关，业务网关后可能有商城业务，ERP业务，DRP业务。而商城业务下面可能是一个独立的业务线，会包含N个子系统。所以可能增加多个业务网关分别连接子系统。这样ERP就必须通过商城业务网关访问商城业务的多个子系统，通过网关控制访问。

如果觉得文章对你有用，请随意赞赏

常见中间件

https://blog.codx.top/archives/b754ed08-b7a2-4f67-86ab-c070c2ac52dc

作者

随风

发布于

2024-07-04

更新于

2024-07-04

许可协议

CC BY 4.0

常见中间件

ZooKeeper

Apache Kafka

作者

发布于

更新于

许可协议

评论