wordpress google Android Firefox php nginx Ubuntu 开源 centos 编程 程序员 mysql linux Python 微软 apache Windows 云计算 java shell

Tomcat集群與負載均衡

  Tomcat集群與負載均衡(專門術語簡介)
     在單一的服務器上執行WEB應用程序有一些重大的問題,當網站成功建成並開始接受大量請求時,單一服務器終究無法滿足需要處理的負荷量,所以就有點顯得有點力不從心了。另外一個常見的問題是會產生單點故障,如果該服務器壞掉,那麽網站就立刻無法運作了。不論是因為要有較佳的擴充性還是容錯能力,我們都會想在一臺以上的服務器計算機上執行WEB應用程序。所以,這時候我們就需要用到集群這一門技術了。
         在進入集群系統架構探討之前,先定義一些專門術語:
1. 集群(Cluster):是一組獨立的計算機系統構成一個松耦合的多處理器系統,它們之間通過網絡實現進程間的通信。應用程序可以通過網絡共享內存進行消息傳送,實現分布式計算機。 
2. 負載均衡(Load Balance):先得從集群講起,集群就是一組連在一起的計算機,從外部看它是一個系統,各節點可以是不同的操作系統或不同硬件構成的計算機。如一個提供Web服務的集群,對外界來看是一個大Web服務器。不過集群的節點也可以單獨提供服務。
3. 特點:在現有網絡結構之上,負載均衡提供了一種廉價有效的方法擴展服務器帶寬和增加吞吐量,加強網絡數據處理能力,提高網絡的靈活性和可用性。集群系統(Cluster)主要解決下面幾個問題: 
高可靠性(HA):利用集群管理軟件,當主服務器故障時,備份服務器能夠自動接管主服務器的工作,並及時切換過去,以實現對用戶的不間斷服務。
高性能計算(HP):即充分利用集群中的每一臺計算機的資源,實現復雜運算的並行處理,通常用於科學計算領域,比如基因分析,化學分析等。 
負載平衡:即把負載壓力根據某種算法合理分配到集群中的每一臺計算機上,以減輕主服務器的壓力,降低對主服務器的硬件和軟件要求。
目前比較常用的負載均衡技術主要有: 
  1. 基於DNS的負載均衡 
  通過DNS服務中的隨機名字解析來實現負載均衡,在DNS服務器中,可以為多個不同的地址配置同一個名字,而最終查詢這個名字的客戶機將在解析這個名字時得到其中一個地址。因此,對於同一個名字,不同的客戶機會得到不同的地址,他們也就訪問不同地址上的Web服務器,從而達到負載均衡的目的。 
  2. 反向代理負載均衡 (如Apache+JK2+Tomcat這種組合)
  使用代理服務器可以將請求轉發給內部的Web服務器,讓代理服務器將請求均勻地轉發給多臺內部Web服務器之一上,從而達到負載均衡的目的。這種代理方式與普通的代理方式有所不同,標準代理方式是客戶使用代理訪問多個外部Web服務器,而這種代理方式是多個客戶使用它訪問內部Web服務器,因此也被稱為反向代理模式。
  3. 基於NAT(Network Address Translation)的負載均衡技術 (如Linux Virtual Server,簡稱LVS)
  網絡地址轉換為在內部地址和外部地址之間進行轉換,以便具備內部地址的計算機能訪問外部網絡,而當外部網絡中的計算機訪問地址轉換網關擁有的某一外部地址時,地址轉換網關能將其轉發到一個映射的內部地址上。因此如果地址轉換網關能將每個連接均勻轉換為不同的內部服務器地址,此後外部網絡中的計算機就各自與自己轉換得到的地址上服務器進行通信,從而達到負載分擔的目的。

介紹完上面的集群技術之後,下面就基於Tomcat的集群架構方案進行說明:

上面是采用了Apache httpd作為web服務器的,即作為Tomcat的前端處理器,根據具體情況而定,有些情況下是不需要Apache httpd作為 web 服務器的,如系統展現沒有靜態頁面那就不需要Apache httpd,那時可以直接使用Tomcat作為web 服務器來使用。使用Apache httpd主要是它在處理靜態頁面方面的能力比Tomcat強多了。
1、 用戶的網頁瀏覽器做完本地 DNS和企業授權的DNS之的請求/響應後,這時候企業授權的DNS(即21cn BOSS DNS)會給用戶本地的DNS服務器提供一個NAT請求分配器(即網關)ip
2、 NAT分配器,它會根據特定的分配算法,來決定要將連接交給哪一臺內部 Apache httpd來處理請求。大多數的NAT請求分配器提供了容錯能力:根據偵測各種WEB服務器的失效狀況,停止將請求分配給已經宕掉的服務器。並且有些分配器還可以監測到WEB服務器機器的負載情況,並將請求分配給負載最輕的服務器等等。Linux Virtual Server是一個基於Linux操作系統上執行的VS-NAT開源軟件套件,而且它有豐富的功能和良好的說明文件。商業硬件解決方案 Foundry Networks的ServerIron是目前業界公認最佳的請求分配器之一。
3、 Apache httpd + Mod_JK2在這裏是作為負載均衡器,那為什麽要做集群呢?如果集群系統要具備容錯能力,以便在任何單一的硬件或軟件組件失效時還能100%可用,那麽集群系統必須沒有單點故障之憂。所以,不能只架設一臺有mod_jk2的Apache httpd,因為如果 httpd或mod_jk2失效了,將不會再有請求被會送交到任何一個Tomcat 實例。這種情況下,Apache httpd就是瓶勁,特別在訪問量大的網站。
4、 Mod_JK2負載均衡與故障復原,決定把Apache httpd當成web服務器,而且使用mod_jk2將請求傳送給Tomcat,則可以使用mod_jk2的負載均衡與容錯功能。在集群系統中,帶有mod_jk2的Apache httpd可以做的事情包括:
A、 將請求分配至一或多個Tomcat實例上
你可以在mod_jk2的workers.properties文件中,設定許多Tomcat實例,並賦於每個實例一個lb_factor值,以作為請求分配的加權因子。
B、 偵測Tomcat實例是否失敗
當Tomcat實例的連接器服務不再響應時,mod_jk2會及時偵測到,並停止將請求送給它。其他的Tomcat實例則會接受失效實例的負載。
C、 偵測Tomcat實例在失效後的何時恢復
因連接器服務失效,而停止將請求分配給Tomcat實例之後,mod_jk2會周期性地檢查是否已恢復使用性,並自動將其加入現行的Tomcat實例池中。
5、 Tomcat中的集群原理是通過組播的方式進行節點的查找並使用TCP連接進行會話的復制。這裏提示一下就是,對每個請求的處理,Tomcat都會進行會話復制,復制後的會話將會慢慢變得龐大。
6、 Mod_jk2同時支持會話親和和會話復制。在tomcat 5中如何實現會話親和和會話復制?把server.xml中的<cluster/>標簽去掉就實現會話親和,把<cluster/>標簽加上就實現會話復制。
7、 會話親和:就是表示來自同會話的所有請求都由相同的Tomcat 實例來處理,這種情況下,如果Tomcat實例或所執行的服務器機器失效,也會喪失Servlet的會話數據。即使在集群系統中執行更多的Tomcat實例,也永遠不會復制會話數據。這樣是提高集群性能的一種方案,但不具備有容錯能力了。
8、 使用會話復制,則當一個Tomcat實例宕掉時,由於至少還有另一個Tomcat實例保有一份會話狀態數據,因而數據不會喪失。但性能會有所降低。
 
 
集群
  傳統獨立服務器(非集群的)不提供任何失效無縫轉移以及負載平衡能力。當服務器失敗的時候,就無法獲取整個網站的內容,除非服務器被重新喚起(啟動)。由於服務器失效,任何存儲在服務器內存中的SESSION都會丟失,用戶必須重新登陸並且輸入所有由於服務器失效丟失的數據。
  不同的是,作為集群一部分的服務器則提供了可測性以及失效無縫轉移能力。一個集群就是一組同步運行並且協同工作,能提供高可靠性,高穩定性以及高可測性的多服務器例程。服務端集群對客戶端表現出來似乎就是一個單獨的服務器例程。從客戶端的視角來看,集群的客戶端和單獨的服務器沒多大不同,但是他們通過提供實效無縫轉移和SESSION復制做到了不間斷服務以及SESSION數據持久性。
 
SESSION復制
  服務器集群通常操縱兩種SESSION: sticky sessions和 replicated sessions 。sticky sessions就是存在單機服務器中的接受網絡請求的SESSION,其他集群成員對該服務器的SESSION狀態完全不清楚,如果存有SESSION的服務器失敗的話,用戶必須再次登陸網站,重新輸入所有存儲在SESSION中的數據。
  另一種SESSION類型是,在一臺服務器中SESSION狀態被復制到集群中的其他所有服務器上,無論何時,只要SESSION 被改變,SESSION數據都要重新被復制。這就是 replicated session 。 sticky 和 replicated sessions都有他們的優缺點, Sticky sessions簡單而又容易操作,因為我們不必復制任何SESSION數據到其他服務器上。這樣就會減少系統消耗,提高性能。但是如果服務器失敗,所有存儲在該服務器內存中的SESSION數據也同樣會消失。如果SESSION數據沒有被復制到其他服務器,這些SESSION就完全丟失了。當我們在進行一個查詢事務當中的時候,丟失所有已經輸入的數據,就會導致很多問題。
  為了支持 JSP HTTP session 狀態的自動失效無縫轉移,TOMCAT服務器復制了在內存中的SESSION狀態。這是通過復制存儲在一臺服務器上的SESSION數據到集群中其他成員上防止數據丟失以及允許失效無縫轉移。
 
對象的狀態管理
  通過在服務器上的保存狀態可以區分出4種對象:
  ●無狀態:一個無狀態對象在調用的時候不會在內存中保存任何狀態,因為客戶端和服務器端沒必要保存任何有關對方的信息。在這種情況下,客戶端會在每次請求服務器時都會發送數據給服務器。SESSION狀態被在客戶端和服務器端來回發送。這種方法不總是可行和理想的,特別是當傳輸的數據比較大或者一些安全信息我們不想保存在客戶端的時候;
  ●會話:一個會話對象在一個SESSION中只被用於特定的某個客戶端。在SESSION中,他可以為所有來自該客戶端的請求服務,並且僅僅是這個客戶端的請求。貫穿一個SESSION,兩個請求間的狀態信息必須保存。會話服務通常在內存中保存短暫的狀態,當在服務器失敗的時候可能會丟失。SESSION狀態通常被保存在請求間的服務器的內存中。為了清空內存,SESSION狀態也可以被從內存中釋放(就像在一個對象CACHE)。在該對象中,性能和可量測性都有待提高,因為更新並不是被單獨的寫到磁盤上,並且服務器失敗的時候數據也沒辦法搶救。
  ●緩存:緩存對象在內存中保存狀態,並且使用這個去處理從多客戶端來的請求。緩存服務的實現可以擴展到他們把緩存的是數據備份保存在後端存儲器中(通常是一個關系數據庫)。
  ●獨立的:一個獨立的對象在一個時間內只活躍在集群中的一臺服務器上,處理來自多客戶端的請求。他通常由那些私有的,持久的,在內存中緩寸的數據支持。他同樣也在內存中保持短暫狀態,在服務器失敗的時候要重建或者丟失。當失敗的時候,獨立對象必須在同一個服務器上重起或者移植到另一臺服務器上。

延伸阅读

    评论