為海量文檔自建專用 “網(wǎng)盤”,試過都說 “真香”?
很多人的日常工作中,都會使用在線協(xié)作平臺或云存儲服務來存儲自己的各類文檔。然而當需要通過應用程序來處理、存儲和檢索大量文檔數(shù)據(jù)時,這種做法往往會造成不小的挑戰(zhàn)。此時,電子文檔管理系統(tǒng)(Electronic Document Management System,EDMS)就成了一種更好的解決方案,因為它們在設計上就能以極高的性能和可用性來存儲、索引和檢索不同類型的文檔,甚至能提供可定制的元數(shù)據(jù)和版本控制等功能。
目前市面上有很多基于 SaaS 的 EDMS 解決方案,但為了完全控制自己的數(shù)據(jù),我們也可以借助開源 EDMS 軟件部署自己專用的文檔管理系統(tǒng)。本文將介紹如何在 Linode 平臺上,借助 PostgreSQL 數(shù)據(jù)庫部署高可用的 Mayan EDMS。
延伸閱讀,了解Akamai cloud-computing
出海云服務,選擇Akamai Linode!
EDMS 帶來的好處
如果希望使用基于 Web 應用程序的 EDMS 來存儲和處理海量文檔,并且不希望客戶端安裝任何應用程序,那么這種方式將會是一種理想的選擇。這種中心化運行的 EDMS 能更好地保證:
- 自己數(shù)據(jù)的安全性、隱私性以及完全的控制能力
- 與第三方軟件實現(xiàn)更輕松的集成
- 圍繞業(yè)務流程打造自動化的文檔工作流
為何使用 PostgreSQL?
PostgreSQL 是一個強大且開源的對象關系型數(shù)據(jù)庫管理系統(tǒng),因其可擴展性、安全性和性能而廣受贊譽。為了支持應用程序的端到端擴展,數(shù)據(jù)庫還需要具備高可用性。因此本架構包含了專門用于 PostgreSQL 的數(shù)據(jù)復制工具。
Mayan EDMS 上手
Mayan 是一款使用 Python 開發(fā),基于 Web 的開源 EDMS。按照設計,Mayan 默認可在一臺服務器上安裝和運行,此時應用程序和數(shù)據(jù)庫組件可以位于同一臺服務器或多個 Docker 容器中。這種配置很適合開發(fā)、測試環(huán)境,但在生產環(huán)境中,我們需要更高可用性,并實現(xiàn) SoC(Separation of Concern,關注點分離)這種已經廣為人知的概念。這是構建分層、可擴展應用程序時很重要的一個最佳實踐。我們的參考架構將介紹如何用 Mayan 實現(xiàn)該目標。
1. 優(yōu)勢
- 開源,無需購買許可
- 可輕松存儲、查看和檢索文檔的不同版本
- 使用可定制的“用戶定義的元數(shù)據(jù)” 對文檔進行全文搜索
- 靈活的訪問控制,借此設計有效的用戶角色和權限
- 可定制的工作流,通過事件觸發(fā)器保持文檔處于最新狀態(tài)
2. 不足
- 對于較小的用例來說略顯復雜
- 相比其他解決方案,用戶界面不夠直觀
- 光學字符識別(OCR)功能需要耗費大量 CPU 資源
應用程序參考架構
為了在現(xiàn)實用例中充分優(yōu)化 Mayan 的能力,我們的參考架構使用了下列組件:
- NGINX:Web 服務器
- Prometheus 和 Grafana:監(jiān)控和可觀測性工具
- PostgreSQL:數(shù)據(jù)庫
- Bucardo:PostgreSQL 雙向數(shù)據(jù)庫復制
- Linode Object Storage:兼容 S3 的高可用存儲服務
- keepalived:IP 故障轉移

NodeBalancer 可將流量分配給不同的應用程序節(jié)點。如果一臺應用服務器停機,負載均衡服務即可開始將流量分配到正常運行的節(jié)點。一旦故障節(jié)點恢復正常,負載均衡服務將像故障前那樣分配流量。借此我們可以輕松添加、刪除或更新應用程序服務器,而無需擔心可能導致停機,并且始終維持與 PostgreSQL 數(shù)據(jù)庫節(jié)點的連接。
作為該應用的“大腦”,Mayan 和 NGINX 被部署在同一臺虛擬機中,我們可以借助 Mayan 對 s3boto3 的支持獲得存儲后端,借此將文檔上傳至 Linode 可兼容 S3 的對象存儲服務中。
如果應用程序非常關鍵,并使用 PostgreSQL 作為主后端數(shù)據(jù)庫,那么可以加入 Bucardo 以更好地保障持續(xù)運行時間,并為數(shù)據(jù)庫提供容錯性。
我們還可以借助支持 PostgreSQL 的托管數(shù)據(jù)庫服務來獲得高可用性和復制能力,但是需要注意,大部分 DBaaS 服務的重點都是更新 PostgreSQL 版本并確保數(shù)據(jù)庫集群始終聯(lián)機和可用。因此實施 Bucardo 可以讓我們的 PostgreSQL 數(shù)據(jù)庫在兩個或更多數(shù)據(jù)庫節(jié)點之間進行雙向復制,從而保證數(shù)據(jù)庫的高可用性。
本例中,所有節(jié)點都使用 Cloud Firewalls 進行保護,防范來自公共互聯(lián)網(wǎng)的威脅,這些節(jié)點通過私有 VLAN 實現(xiàn)內部通信。應用程序服務器通過一個共享的浮動 VLAN IP 地址連接到數(shù)據(jù)庫,并通過 Keepalived 實現(xiàn)故障轉移。
Keepalived(或其他 IP 故障轉移系統(tǒng),如 FRRouting (FRR))是在數(shù)據(jù)庫層面上實現(xiàn)的,因此正常運行的數(shù)據(jù)庫節(jié)點將能順利連接至應用程序節(jié)點集群中。
為重要文件實現(xiàn)容錯
EDMS 通常會充當日常工作的中心,其中可能存儲了企業(yè)中最重要的文件。本例介紹的應用程序在每個層面上都建立了冗余,不僅可以容錯,也能進一步優(yōu)化性能:
- 文檔存儲在 Linode 的高可用 Object Storage 服務中
- 數(shù)據(jù)庫位于單獨的節(jié)點上,不僅可以改善性能,而且有助于防止單點故障
- Bucardo 可以在 Postgres 節(jié)點之間自動執(zhí)行數(shù)據(jù)庫復制
探索更多技術內容和架構
Akamai 和 Linode 的解決方案工程團隊會定期分享類似這樣的框架、指南和工具,從而幫助開發(fā)者更輕松地遵循最佳實踐來構建應用程序的軟件架構。
這篇文章的內容感覺還行吧?有沒有想要立即在 Linode 平臺上親自嘗試一下?別忘了,現(xiàn)在注冊可以免費獲得價值 100 美元的使用額度,快點自己動手體驗本文介紹的功能和服務吧↓↓↓
出海云服務,選擇Akamai Linode!
歡迎關注 Akamai ,第一時間了解高可用的 MySQL/MariaDB 參考架構,以及豐富的應用程序示例。




















