This is an automated email from the ASF dual-hosted git repository. kassiez pushed a commit to branch master in repository https://gitbox.apache.org/repos/asf/doris-website.git
The following commit(s) were added to refs/heads/master by this push: new 881f277eb8d Update observability videos link (#2380) 881f277eb8d is described below commit 881f277eb8dec38285a41fd92be3e14308d7e799 Author: KassieZ <139741991+kass...@users.noreply.github.com> AuthorDate: Wed May 14 16:12:29 2025 +0800 Update observability videos link (#2380) ## Versions - [ ] dev - [ ] 3.0 - [ ] 2.1 - [ ] 2.0 ## Languages - [ ] Chinese - [ ] English ## Docs Checklist - [ ] Checked by AI - [ ] Test Cases Built --- docs/observability/overview.mdx | 4 +++- .../current/observability/overview.mdx | 18 ++++++++++-------- .../version-2.1/observability/overview.mdx | 18 ++++++++++-------- .../version-3.0/observability/overview.mdx | 19 ++++++++++--------- versioned_docs/version-2.1/observability/overview.mdx | 5 +++-- versioned_docs/version-3.0/observability/overview.mdx | 5 +++-- 6 files changed, 39 insertions(+), 30 deletions(-) diff --git a/docs/observability/overview.mdx b/docs/observability/overview.mdx index e1bb8c36559..a8cab06e7c1 100644 --- a/docs/observability/overview.mdx +++ b/docs/observability/overview.mdx @@ -150,8 +150,10 @@ The observed business system simulates an [e-commerce website] (https://opentele The Load Generator tool sends continuous requests to the entry service, generating vast volumes of observability data (Logs, Traces, Metrics). These data are collected using OpenTelemetry SDKs in various languages, sent to the OpenTelemetry Collector, preprocessed by Processors, and finally written into Doris via the OpenTelemetry Doris Exporter. Observability visualization tools such as Grafana connects to Doris through the MySQL interface, providing visualized query and analysis capabilities. - +<a href="https://youtu.be/LrR4SNyAlg8"> + <img src="/images/observability/otel_demo_doris.png" alt="Doris OpenTelemetry Demo" /> +</a> Grafana connects to Doris via MySQL datasource, offering unified visualization and analysis of Logs, Traces, and Metrics, including cross-analysis between Logs and Traces. diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/observability/overview.mdx b/i18n/zh-CN/docusaurus-plugin-content-docs/current/observability/overview.mdx index 683f54e2296..af896a4602d 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/observability/overview.mdx +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/observability/overview.mdx @@ -30,15 +30,15 @@ under the License. */} 可观测性平台有下面一些重要的使用场景,对于提升系统稳定性、优化运维效率、支持业务创新非常关键。 -1. **故障排查与根因分析**:通过实时监控、异常检测和链路追踪,快速定位故障点并分析根本原因。例如,在金融行业中,可观测性结合交易链路和AI技术,能缩短故障恢复时间,保障业务连续性。支持混沌工程模拟故障场景,验证系统容错能力。 +1. **故障排查与根因分析**:通过实时监控、异常检测和链路追踪,快速定位故障点并分析根本原因。例如,在金融行业中,可观测性结合交易链路和 AI 技术,能缩短故障恢复时间,保障业务连续性。支持混沌工程模拟故障场景,验证系统容错能力。 2. **性能优化与资源规划:** 分析系统资源利用率、响应时间等指标,识别性能瓶颈并动态调整配置(如负载均衡、自动扩缩容)。基于历史数据预测资源需求,优化云资源分配,降低成本。 -3. **业务决策支持:** 将IT性能数据与业务成果(如用户留存率、交易量)关联,辅助制定业务策略。例如,通过分析用户体验指标优化产品功能。 +3. **业务决策支持:** 将 IT 性能数据与业务成果(如用户留存率、交易量)关联,辅助制定业务策略。例如,通过分析用户体验指标优化产品功能。 4. **安全与合规监控:** 检测异常行为(如零日攻击)并触发自动化响应,提升系统安全性。同时,通过日志审计满足合规要求。 5. **开发与运维协同:** 在灰度发布中,通过流量染色追踪新版本表现,结合调用链分析决定发布进度。帮助开发团队优化代码性能,减少生产环境事故。 **近年来可观测性越来越重要,主要是下面两方面的因素:** -1. **业务和IT系统越来越复杂:** 随着云计算、微服务的发展,业务系统越来越复杂,例如,一个 GenAI 应用的请求可能涉及到 App、服务网关、鉴权服务、计费服务、RAG 引擎、Agent 引擎、向量数据库、业务数据库、分布式缓存、消息队列、大模型 API 等几十个服务,登录服务器查看运行状态和分析故障的方式在复杂系统中已经不再有效,而可观测性平台统一采集和存储Log, Trace, Metrics 数据,提供统一可视化分析,能够有效快速发现问题。 +1. **业务和 IT 系统越来越复杂:** 随着云计算、微服务的发展,业务系统越来越复杂,例如,一个 GenAI 应用的请求可能涉及到 App、服务网关、鉴权服务、计费服务、RAG 引擎、Agent 引擎、向量数据库、业务数据库、分布式缓存、消息队列、大模型 API 等几十个服务,登录服务器查看运行状态和分析故障的方式在复杂系统中已经不再有效,而可观测性平台统一采集和存储 Log, Trace, Metrics 数据,提供统一可视化分析,能够有效快速发现问题。 2. **业务可靠性要求越来越高:** 系统故障对用户体验的影响成本越来越高,因此对故障定位和恢复的效率要求也越来越高,可观测性通过全域数据打通和全景可视化分析,支持团队快速定位问题根源,减少业务中断时间,保障服务可用性,进一步通过全局数据分析和预测,能够提前发现系统资源瓶颈,提早处理避免故障发生。 ## 怎么选择可观测性解决方案 @@ -48,7 +48,7 @@ under the License. */} 1. **数据存储量大且对成本敏感:** 可观测性数据特别是 Log 和 Trace 规模通常非常庞大,且其生产周期呈现不间断的特点,特别是在中大型企业中,每天产生的可观测性数据在 TB 甚至 PB 量级。为了满足业务需求或符合监管要求,数据往往需要存储半年甚至更长时间,存储总量经常达到 PB 级别,产生高昂的存储成本。而随着时间的推移,这些数据的价值也在逐渐下降,因此对于可观测性平台来说,存储成本也变得更加敏感。 2. **数据写入吞吐高且需要实时:** 面对每天 TB 甚至 PB 量级新增数据,要求平台具备 1 ~ 10GB/s、百万 ~ 千万条/s 的高吞吐写入能力,以应对持续迅猛增长的数据;同时,考虑到可观测性数据常用于故障排查、安全追踪等时效要求很高的场景,还要求平台保证秒级写入延迟,确保数据的实时性和可用性。 3. **需要实时分析且支持全文检索:** Log 和 Trace 数据中有大量的文本,如何在其中快速检索关键词和短语是该场景的核心需求。由于数据规模庞大,传统的全量扫描和字符串匹配方式在性能和扩展性上往往无法达到实时响应的要求,特别是在上述高吞吐低延迟实时写入的前提下,实时文本检索更加困难。因此,构建针对文本的倒排索引成为实现秒级查询响应的关键。 -4. **数据模式动态变化且需频繁扩展:** Log 数据最初始的表现形态为非结构化原始日志,以 Free Text 的形式存在,随着技术的发展,进一步产生了以 JSON 为主的半结构化 Log 和 Trace,数据生产者会动态调整 JSON 内部的字段,其Schema 非常灵活。然而,传统数据库和数据仓库难以高效处理此类灵活模式的数据,而数据湖系统虽然在存储方面提供了较大的灵活性,但在处理性能和实时性方面却难以满足需求。 +4. **数据模式动态变化且需频繁扩展:** Log 数据最初始的表现形态为非结构化原始日志,以 Free Text 的形式存在,随着技术的发展,进一步产生了以 JSON 为主的半结构化 Log 和 Trace,数据生产者会动态调整 JSON 内部的字段,其 Schema 非常灵活。然而,传统数据库和数据仓库难以高效处理此类灵活模式的数据,而数据湖系统虽然在存储方面提供了较大的灵活性,但在处理性能和实时性方面却难以满足需求。 5. **需要对接多种数据源和分析工具:** 可观测性生态的数据采集器、可视化分析等工具很多,存储分析引擎需要与不同的生态工具进行对接,满足多样化数据和工具集成的需求。 面对 Elasticsearch、Clickhouse、Doris、云厂商日志服务等,可观测性解决方案该如何选择,选型评估的关键点是哪些呢? @@ -57,7 +57,7 @@ under the License. */} - Elasticsearch 以倒排索引和全文检索著称,提供秒级实时检索的能力,但是在高吞吐下写入性能较低,高峰期容易出现写入拒绝和延迟高的问题。另外,它的聚合统计分析性能也比低。 - 云厂商日志服务通过丰富的资源满足写入和查询性能,同时也带来下面的成本问题。 - Clickhouse 通过列式存储和向量化引擎,能提供很高的写入性能和聚合查询性能,但是全文检索性能比 Elasticsearch 和 Doris 慢几倍到几十倍,且一直处于实验状态达不到生产可用的要求。 - - Doris 采用列式存储和向量化引擎,针对可观测性分析场景优化倒排索引,实现比 Elasticsearch 更好的性能,写入性能提升 5倍左右,查询性能提升 2倍左右。聚合统计分析性能更是达到 Elasticsearch 6 ~ 21 倍。 + - Doris 采用列式存储和向量化引擎,针对可观测性分析场景优化倒排索引,实现比 Elasticsearch 更好的性能,写入性能提升 5 倍左右,查询性能提升 2 倍左右。聚合统计分析性能更是达到 Elasticsearch 6 ~ 21 倍。 2. **成本:包括存储成本和计算成本。** 由于可观测性数据特别是 Log 和 Trace 规模通常非常庞大,中大型企业中每天产生的可观测性数据达到 TB 甚至 PB 量级。为了满足业务需求或监管要求,数据往往需要存储几个月甚至更长时间,存储总量经常达到 PB 甚至 EB 级别,产生高昂的存储成本。相比于业务数据,可观测性数据的存储量更多、价值密度相更低,而且随着时间的推移,这些数据的价值也在逐渐下降,因此存储成本也变的更加敏感。除了存储成本,海量数据写入和查询带来的计算成本也很高,GB/s 的数据写入、TB 甚至 PB 级的数据检索往往需要大量的计算资源。 - Elasticsearch 的成本高是一个非常广泛的痛点问题,它采用原始数据行存 + 倒排索引 + docvalue 列存的存储模式,压缩比通常只有 1.5:1,存储空间和成本很高。此外,由于 JVM 性能开销和构建倒排索引,写入 CPU 占用很高,导致计算资源成本高。 @@ -100,7 +100,7 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 基于 Doris 的可观测性解决方案有下面一些特点和优势: - **高性能** - - **高吞吐、低延迟写入:** 支持每天 PB 级(10GB/s) 的 Log, Trace, Metrics 数据持续稳定写入,同时保持延迟在秒级甚至 1s 以内。 + - **高吞吐、低延迟写入:** 支持每天 PB 级(10GB/s)的 Log, Trace, Metrics 数据持续稳定写入,同时保持延迟在秒级甚至 1s 以内。 - **高性能倒排索引和全文检索:** 支持倒排索引和全文检索,日志场景关键词检索等常见查询秒级响应,比 Clickhouse 快 3 ~ 10 倍。 - **高性能聚合分析:** 通过 MPP 分布式架构和向量化 Pipeline 执行引擎,充分利用集群分布式和 CPU 多线程资源,在 ClickBench 测试中性能全球领先,适用于可观测性场景的趋势分析、监控告警等常见查询。 - **低成本** @@ -115,7 +115,7 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 - **运维方便:** 支持不停服务在线扩缩容、自动均衡,私有化部署提供可视化 Cluster Manager 和 k8s operator 工具,云上提供开箱即用的 Fully managed 服务。 - **开放** - **开源开放**:Doris 是一个 Apache 基金会的顶级开源项目,被全球 5000 多家企业采用,支持 OpenTelemetry Grafana 等可观测性生态。 - - **多云中立:** 全球主流云厂商提供了云上 Doris SaaS 服务 ,为用户提供多云一致的体验。 + - **多云中立:** 全球主流云厂商提供了云上 Doris SaaS 服务,为用户提供多云一致的体验。 ### Demo & Screenshot @@ -125,8 +125,10 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 压力模拟程序 Load Generator 持续请求入口服务,在整个电商系统中产生大量的可观测性数据(Log, Trace, Metrics),这些数据使用 OpenTelemetry 的多语言 SDK 进行采集,发送给 OpenTelemetry Collector,Collector 中的 Processors 进行预处理,然后经过 OpenTelemetry Doris Exporter 写入到 Doris。Doris 通过 MySQL 接口对接上层的分析工具如 Grafana,提供可视化查询分析功能。 - +<a href="https://youtu.be/LrR4SNyAlg8"> + <img src="/zh-CN/images/observability/otel_demo_doris.png" alt="Doris OpenTelemetry Demo" /> +</a> Grafana 通过 MySQL Datasource 连接到 Doris,提供统一的 Log, Trace, Metrics 可视化分析,还可以实现 Log 和 Trace 的联动。 diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/observability/overview.mdx b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/observability/overview.mdx index 683f54e2296..09c51c01e3b 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/observability/overview.mdx +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/observability/overview.mdx @@ -30,15 +30,15 @@ under the License. */} 可观测性平台有下面一些重要的使用场景,对于提升系统稳定性、优化运维效率、支持业务创新非常关键。 -1. **故障排查与根因分析**:通过实时监控、异常检测和链路追踪,快速定位故障点并分析根本原因。例如,在金融行业中,可观测性结合交易链路和AI技术,能缩短故障恢复时间,保障业务连续性。支持混沌工程模拟故障场景,验证系统容错能力。 +1. **故障排查与根因分析**:通过实时监控、异常检测和链路追踪,快速定位故障点并分析根本原因。例如,在金融行业中,可观测性结合交易链路和 AI 技术,能缩短故障恢复时间,保障业务连续性。支持混沌工程模拟故障场景,验证系统容错能力。 2. **性能优化与资源规划:** 分析系统资源利用率、响应时间等指标,识别性能瓶颈并动态调整配置(如负载均衡、自动扩缩容)。基于历史数据预测资源需求,优化云资源分配,降低成本。 -3. **业务决策支持:** 将IT性能数据与业务成果(如用户留存率、交易量)关联,辅助制定业务策略。例如,通过分析用户体验指标优化产品功能。 +3. **业务决策支持:** 将 IT 性能数据与业务成果(如用户留存率、交易量)关联,辅助制定业务策略。例如,通过分析用户体验指标优化产品功能。 4. **安全与合规监控:** 检测异常行为(如零日攻击)并触发自动化响应,提升系统安全性。同时,通过日志审计满足合规要求。 5. **开发与运维协同:** 在灰度发布中,通过流量染色追踪新版本表现,结合调用链分析决定发布进度。帮助开发团队优化代码性能,减少生产环境事故。 **近年来可观测性越来越重要,主要是下面两方面的因素:** -1. **业务和IT系统越来越复杂:** 随着云计算、微服务的发展,业务系统越来越复杂,例如,一个 GenAI 应用的请求可能涉及到 App、服务网关、鉴权服务、计费服务、RAG 引擎、Agent 引擎、向量数据库、业务数据库、分布式缓存、消息队列、大模型 API 等几十个服务,登录服务器查看运行状态和分析故障的方式在复杂系统中已经不再有效,而可观测性平台统一采集和存储Log, Trace, Metrics 数据,提供统一可视化分析,能够有效快速发现问题。 +1. **业务和 IT 系统越来越复杂:** 随着云计算、微服务的发展,业务系统越来越复杂,例如,一个 GenAI 应用的请求可能涉及到 App、服务网关、鉴权服务、计费服务、RAG 引擎、Agent 引擎、向量数据库、业务数据库、分布式缓存、消息队列、大模型 API 等几十个服务,登录服务器查看运行状态和分析故障的方式在复杂系统中已经不再有效,而可观测性平台统一采集和存储 Log, Trace, Metrics 数据,提供统一可视化分析,能够有效快速发现问题。 2. **业务可靠性要求越来越高:** 系统故障对用户体验的影响成本越来越高,因此对故障定位和恢复的效率要求也越来越高,可观测性通过全域数据打通和全景可视化分析,支持团队快速定位问题根源,减少业务中断时间,保障服务可用性,进一步通过全局数据分析和预测,能够提前发现系统资源瓶颈,提早处理避免故障发生。 ## 怎么选择可观测性解决方案 @@ -48,7 +48,7 @@ under the License. */} 1. **数据存储量大且对成本敏感:** 可观测性数据特别是 Log 和 Trace 规模通常非常庞大,且其生产周期呈现不间断的特点,特别是在中大型企业中,每天产生的可观测性数据在 TB 甚至 PB 量级。为了满足业务需求或符合监管要求,数据往往需要存储半年甚至更长时间,存储总量经常达到 PB 级别,产生高昂的存储成本。而随着时间的推移,这些数据的价值也在逐渐下降,因此对于可观测性平台来说,存储成本也变得更加敏感。 2. **数据写入吞吐高且需要实时:** 面对每天 TB 甚至 PB 量级新增数据,要求平台具备 1 ~ 10GB/s、百万 ~ 千万条/s 的高吞吐写入能力,以应对持续迅猛增长的数据;同时,考虑到可观测性数据常用于故障排查、安全追踪等时效要求很高的场景,还要求平台保证秒级写入延迟,确保数据的实时性和可用性。 3. **需要实时分析且支持全文检索:** Log 和 Trace 数据中有大量的文本,如何在其中快速检索关键词和短语是该场景的核心需求。由于数据规模庞大,传统的全量扫描和字符串匹配方式在性能和扩展性上往往无法达到实时响应的要求,特别是在上述高吞吐低延迟实时写入的前提下,实时文本检索更加困难。因此,构建针对文本的倒排索引成为实现秒级查询响应的关键。 -4. **数据模式动态变化且需频繁扩展:** Log 数据最初始的表现形态为非结构化原始日志,以 Free Text 的形式存在,随着技术的发展,进一步产生了以 JSON 为主的半结构化 Log 和 Trace,数据生产者会动态调整 JSON 内部的字段,其Schema 非常灵活。然而,传统数据库和数据仓库难以高效处理此类灵活模式的数据,而数据湖系统虽然在存储方面提供了较大的灵活性,但在处理性能和实时性方面却难以满足需求。 +4. **数据模式动态变化且需频繁扩展:** Log 数据最初始的表现形态为非结构化原始日志,以 Free Text 的形式存在,随着技术的发展,进一步产生了以 JSON 为主的半结构化 Log 和 Trace,数据生产者会动态调整 JSON 内部的字段,其 Schema 非常灵活。然而,传统数据库和数据仓库难以高效处理此类灵活模式的数据,而数据湖系统虽然在存储方面提供了较大的灵活性,但在处理性能和实时性方面却难以满足需求。 5. **需要对接多种数据源和分析工具:** 可观测性生态的数据采集器、可视化分析等工具很多,存储分析引擎需要与不同的生态工具进行对接,满足多样化数据和工具集成的需求。 面对 Elasticsearch、Clickhouse、Doris、云厂商日志服务等,可观测性解决方案该如何选择,选型评估的关键点是哪些呢? @@ -57,7 +57,7 @@ under the License. */} - Elasticsearch 以倒排索引和全文检索著称,提供秒级实时检索的能力,但是在高吞吐下写入性能较低,高峰期容易出现写入拒绝和延迟高的问题。另外,它的聚合统计分析性能也比低。 - 云厂商日志服务通过丰富的资源满足写入和查询性能,同时也带来下面的成本问题。 - Clickhouse 通过列式存储和向量化引擎,能提供很高的写入性能和聚合查询性能,但是全文检索性能比 Elasticsearch 和 Doris 慢几倍到几十倍,且一直处于实验状态达不到生产可用的要求。 - - Doris 采用列式存储和向量化引擎,针对可观测性分析场景优化倒排索引,实现比 Elasticsearch 更好的性能,写入性能提升 5倍左右,查询性能提升 2倍左右。聚合统计分析性能更是达到 Elasticsearch 6 ~ 21 倍。 + - Doris 采用列式存储和向量化引擎,针对可观测性分析场景优化倒排索引,实现比 Elasticsearch 更好的性能,写入性能提升 5 倍左右,查询性能提升 2 倍左右。聚合统计分析性能更是达到 Elasticsearch 6 ~ 21 倍。 2. **成本:包括存储成本和计算成本。** 由于可观测性数据特别是 Log 和 Trace 规模通常非常庞大,中大型企业中每天产生的可观测性数据达到 TB 甚至 PB 量级。为了满足业务需求或监管要求,数据往往需要存储几个月甚至更长时间,存储总量经常达到 PB 甚至 EB 级别,产生高昂的存储成本。相比于业务数据,可观测性数据的存储量更多、价值密度相更低,而且随着时间的推移,这些数据的价值也在逐渐下降,因此存储成本也变的更加敏感。除了存储成本,海量数据写入和查询带来的计算成本也很高,GB/s 的数据写入、TB 甚至 PB 级的数据检索往往需要大量的计算资源。 - Elasticsearch 的成本高是一个非常广泛的痛点问题,它采用原始数据行存 + 倒排索引 + docvalue 列存的存储模式,压缩比通常只有 1.5:1,存储空间和成本很高。此外,由于 JVM 性能开销和构建倒排索引,写入 CPU 占用很高,导致计算资源成本高。 @@ -100,7 +100,7 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 基于 Doris 的可观测性解决方案有下面一些特点和优势: - **高性能** - - **高吞吐、低延迟写入:** 支持每天 PB 级(10GB/s) 的 Log, Trace, Metrics 数据持续稳定写入,同时保持延迟在秒级甚至 1s 以内。 + - **高吞吐、低延迟写入:** 支持每天 PB 级(10GB/s)的 Log, Trace, Metrics 数据持续稳定写入,同时保持延迟在秒级甚至 1s 以内。 - **高性能倒排索引和全文检索:** 支持倒排索引和全文检索,日志场景关键词检索等常见查询秒级响应,比 Clickhouse 快 3 ~ 10 倍。 - **高性能聚合分析:** 通过 MPP 分布式架构和向量化 Pipeline 执行引擎,充分利用集群分布式和 CPU 多线程资源,在 ClickBench 测试中性能全球领先,适用于可观测性场景的趋势分析、监控告警等常见查询。 - **低成本** @@ -115,7 +115,7 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 - **运维方便:** 支持不停服务在线扩缩容、自动均衡,私有化部署提供可视化 Cluster Manager 和 k8s operator 工具,云上提供开箱即用的 Fully managed 服务。 - **开放** - **开源开放**:Doris 是一个 Apache 基金会的顶级开源项目,被全球 5000 多家企业采用,支持 OpenTelemetry Grafana 等可观测性生态。 - - **多云中立:** 全球主流云厂商提供了云上 Doris SaaS 服务 ,为用户提供多云一致的体验。 + - **多云中立:** 全球主流云厂商提供了云上 Doris SaaS 服务,为用户提供多云一致的体验。 ### Demo & Screenshot @@ -125,7 +125,9 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 压力模拟程序 Load Generator 持续请求入口服务,在整个电商系统中产生大量的可观测性数据(Log, Trace, Metrics),这些数据使用 OpenTelemetry 的多语言 SDK 进行采集,发送给 OpenTelemetry Collector,Collector 中的 Processors 进行预处理,然后经过 OpenTelemetry Doris Exporter 写入到 Doris。Doris 通过 MySQL 接口对接上层的分析工具如 Grafana,提供可视化查询分析功能。 - +<a href="https://youtu.be/LrR4SNyAlg8"> + <img src="/zh-CN/images/observability/otel_demo_doris.png" alt="Doris OpenTelemetry Demo" /> +</a> Grafana 通过 MySQL Datasource 连接到 Doris,提供统一的 Log, Trace, Metrics 可视化分析,还可以实现 Log 和 Trace 的联动。 diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-3.0/observability/overview.mdx b/i18n/zh-CN/docusaurus-plugin-content-docs/version-3.0/observability/overview.mdx index 683f54e2296..1521fd13a80 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-3.0/observability/overview.mdx +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-3.0/observability/overview.mdx @@ -30,15 +30,15 @@ under the License. */} 可观测性平台有下面一些重要的使用场景,对于提升系统稳定性、优化运维效率、支持业务创新非常关键。 -1. **故障排查与根因分析**:通过实时监控、异常检测和链路追踪,快速定位故障点并分析根本原因。例如,在金融行业中,可观测性结合交易链路和AI技术,能缩短故障恢复时间,保障业务连续性。支持混沌工程模拟故障场景,验证系统容错能力。 +1. **故障排查与根因分析**:通过实时监控、异常检测和链路追踪,快速定位故障点并分析根本原因。例如,在金融行业中,可观测性结合交易链路和 AI 技术,能缩短故障恢复时间,保障业务连续性。支持混沌工程模拟故障场景,验证系统容错能力。 2. **性能优化与资源规划:** 分析系统资源利用率、响应时间等指标,识别性能瓶颈并动态调整配置(如负载均衡、自动扩缩容)。基于历史数据预测资源需求,优化云资源分配,降低成本。 -3. **业务决策支持:** 将IT性能数据与业务成果(如用户留存率、交易量)关联,辅助制定业务策略。例如,通过分析用户体验指标优化产品功能。 +3. **业务决策支持:** 将 IT 性能数据与业务成果(如用户留存率、交易量)关联,辅助制定业务策略。例如,通过分析用户体验指标优化产品功能。 4. **安全与合规监控:** 检测异常行为(如零日攻击)并触发自动化响应,提升系统安全性。同时,通过日志审计满足合规要求。 5. **开发与运维协同:** 在灰度发布中,通过流量染色追踪新版本表现,结合调用链分析决定发布进度。帮助开发团队优化代码性能,减少生产环境事故。 **近年来可观测性越来越重要,主要是下面两方面的因素:** -1. **业务和IT系统越来越复杂:** 随着云计算、微服务的发展,业务系统越来越复杂,例如,一个 GenAI 应用的请求可能涉及到 App、服务网关、鉴权服务、计费服务、RAG 引擎、Agent 引擎、向量数据库、业务数据库、分布式缓存、消息队列、大模型 API 等几十个服务,登录服务器查看运行状态和分析故障的方式在复杂系统中已经不再有效,而可观测性平台统一采集和存储Log, Trace, Metrics 数据,提供统一可视化分析,能够有效快速发现问题。 +1. **业务和 IT 系统越来越复杂:** 随着云计算、微服务的发展,业务系统越来越复杂,例如,一个 GenAI 应用的请求可能涉及到 App、服务网关、鉴权服务、计费服务、RAG 引擎、Agent 引擎、向量数据库、业务数据库、分布式缓存、消息队列、大模型 API 等几十个服务,登录服务器查看运行状态和分析故障的方式在复杂系统中已经不再有效,而可观测性平台统一采集和存储 Log, Trace, Metrics 数据,提供统一可视化分析,能够有效快速发现问题。 2. **业务可靠性要求越来越高:** 系统故障对用户体验的影响成本越来越高,因此对故障定位和恢复的效率要求也越来越高,可观测性通过全域数据打通和全景可视化分析,支持团队快速定位问题根源,减少业务中断时间,保障服务可用性,进一步通过全局数据分析和预测,能够提前发现系统资源瓶颈,提早处理避免故障发生。 ## 怎么选择可观测性解决方案 @@ -48,7 +48,7 @@ under the License. */} 1. **数据存储量大且对成本敏感:** 可观测性数据特别是 Log 和 Trace 规模通常非常庞大,且其生产周期呈现不间断的特点,特别是在中大型企业中,每天产生的可观测性数据在 TB 甚至 PB 量级。为了满足业务需求或符合监管要求,数据往往需要存储半年甚至更长时间,存储总量经常达到 PB 级别,产生高昂的存储成本。而随着时间的推移,这些数据的价值也在逐渐下降,因此对于可观测性平台来说,存储成本也变得更加敏感。 2. **数据写入吞吐高且需要实时:** 面对每天 TB 甚至 PB 量级新增数据,要求平台具备 1 ~ 10GB/s、百万 ~ 千万条/s 的高吞吐写入能力,以应对持续迅猛增长的数据;同时,考虑到可观测性数据常用于故障排查、安全追踪等时效要求很高的场景,还要求平台保证秒级写入延迟,确保数据的实时性和可用性。 3. **需要实时分析且支持全文检索:** Log 和 Trace 数据中有大量的文本,如何在其中快速检索关键词和短语是该场景的核心需求。由于数据规模庞大,传统的全量扫描和字符串匹配方式在性能和扩展性上往往无法达到实时响应的要求,特别是在上述高吞吐低延迟实时写入的前提下,实时文本检索更加困难。因此,构建针对文本的倒排索引成为实现秒级查询响应的关键。 -4. **数据模式动态变化且需频繁扩展:** Log 数据最初始的表现形态为非结构化原始日志,以 Free Text 的形式存在,随着技术的发展,进一步产生了以 JSON 为主的半结构化 Log 和 Trace,数据生产者会动态调整 JSON 内部的字段,其Schema 非常灵活。然而,传统数据库和数据仓库难以高效处理此类灵活模式的数据,而数据湖系统虽然在存储方面提供了较大的灵活性,但在处理性能和实时性方面却难以满足需求。 +4. **数据模式动态变化且需频繁扩展:** Log 数据最初始的表现形态为非结构化原始日志,以 Free Text 的形式存在,随着技术的发展,进一步产生了以 JSON 为主的半结构化 Log 和 Trace,数据生产者会动态调整 JSON 内部的字段,其 Schema 非常灵活。然而,传统数据库和数据仓库难以高效处理此类灵活模式的数据,而数据湖系统虽然在存储方面提供了较大的灵活性,但在处理性能和实时性方面却难以满足需求。 5. **需要对接多种数据源和分析工具:** 可观测性生态的数据采集器、可视化分析等工具很多,存储分析引擎需要与不同的生态工具进行对接,满足多样化数据和工具集成的需求。 面对 Elasticsearch、Clickhouse、Doris、云厂商日志服务等,可观测性解决方案该如何选择,选型评估的关键点是哪些呢? @@ -57,7 +57,7 @@ under the License. */} - Elasticsearch 以倒排索引和全文检索著称,提供秒级实时检索的能力,但是在高吞吐下写入性能较低,高峰期容易出现写入拒绝和延迟高的问题。另外,它的聚合统计分析性能也比低。 - 云厂商日志服务通过丰富的资源满足写入和查询性能,同时也带来下面的成本问题。 - Clickhouse 通过列式存储和向量化引擎,能提供很高的写入性能和聚合查询性能,但是全文检索性能比 Elasticsearch 和 Doris 慢几倍到几十倍,且一直处于实验状态达不到生产可用的要求。 - - Doris 采用列式存储和向量化引擎,针对可观测性分析场景优化倒排索引,实现比 Elasticsearch 更好的性能,写入性能提升 5倍左右,查询性能提升 2倍左右。聚合统计分析性能更是达到 Elasticsearch 6 ~ 21 倍。 + - Doris 采用列式存储和向量化引擎,针对可观测性分析场景优化倒排索引,实现比 Elasticsearch 更好的性能,写入性能提升 5 倍左右,查询性能提升 2 倍左右。聚合统计分析性能更是达到 Elasticsearch 6 ~ 21 倍。 2. **成本:包括存储成本和计算成本。** 由于可观测性数据特别是 Log 和 Trace 规模通常非常庞大,中大型企业中每天产生的可观测性数据达到 TB 甚至 PB 量级。为了满足业务需求或监管要求,数据往往需要存储几个月甚至更长时间,存储总量经常达到 PB 甚至 EB 级别,产生高昂的存储成本。相比于业务数据,可观测性数据的存储量更多、价值密度相更低,而且随着时间的推移,这些数据的价值也在逐渐下降,因此存储成本也变的更加敏感。除了存储成本,海量数据写入和查询带来的计算成本也很高,GB/s 的数据写入、TB 甚至 PB 级的数据检索往往需要大量的计算资源。 - Elasticsearch 的成本高是一个非常广泛的痛点问题,它采用原始数据行存 + 倒排索引 + docvalue 列存的存储模式,压缩比通常只有 1.5:1,存储空间和成本很高。此外,由于 JVM 性能开销和构建倒排索引,写入 CPU 占用很高,导致计算资源成本高。 @@ -100,7 +100,7 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 基于 Doris 的可观测性解决方案有下面一些特点和优势: - **高性能** - - **高吞吐、低延迟写入:** 支持每天 PB 级(10GB/s) 的 Log, Trace, Metrics 数据持续稳定写入,同时保持延迟在秒级甚至 1s 以内。 + - **高吞吐、低延迟写入:** 支持每天 PB 级(10GB/s)的 Log, Trace, Metrics 数据持续稳定写入,同时保持延迟在秒级甚至 1s 以内。 - **高性能倒排索引和全文检索:** 支持倒排索引和全文检索,日志场景关键词检索等常见查询秒级响应,比 Clickhouse 快 3 ~ 10 倍。 - **高性能聚合分析:** 通过 MPP 分布式架构和向量化 Pipeline 执行引擎,充分利用集群分布式和 CPU 多线程资源,在 ClickBench 测试中性能全球领先,适用于可观测性场景的趋势分析、监控告警等常见查询。 - **低成本** @@ -115,7 +115,7 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 - **运维方便:** 支持不停服务在线扩缩容、自动均衡,私有化部署提供可视化 Cluster Manager 和 k8s operator 工具,云上提供开箱即用的 Fully managed 服务。 - **开放** - **开源开放**:Doris 是一个 Apache 基金会的顶级开源项目,被全球 5000 多家企业采用,支持 OpenTelemetry Grafana 等可观测性生态。 - - **多云中立:** 全球主流云厂商提供了云上 Doris SaaS 服务 ,为用户提供多云一致的体验。 + - **多云中立:** 全球主流云厂商提供了云上 Doris SaaS 服务,为用户提供多云一致的体验。 ### Demo & Screenshot @@ -125,8 +125,9 @@ Doris 针对可观测性场景的特点,增加了倒排索引以及极速全 压力模拟程序 Load Generator 持续请求入口服务,在整个电商系统中产生大量的可观测性数据(Log, Trace, Metrics),这些数据使用 OpenTelemetry 的多语言 SDK 进行采集,发送给 OpenTelemetry Collector,Collector 中的 Processors 进行预处理,然后经过 OpenTelemetry Doris Exporter 写入到 Doris。Doris 通过 MySQL 接口对接上层的分析工具如 Grafana,提供可视化查询分析功能。 - - +<a href="https://youtu.be/LrR4SNyAlg8"> + <img src="/zh-CN/images/observability/otel_demo_doris.png" alt="Doris OpenTelemetry Demo" /> +</a> Grafana 通过 MySQL Datasource 连接到 Doris,提供统一的 Log, Trace, Metrics 可视化分析,还可以实现 Log 和 Trace 的联动。 diff --git a/versioned_docs/version-2.1/observability/overview.mdx b/versioned_docs/version-2.1/observability/overview.mdx index e1bb8c36559..7d2709d415a 100644 --- a/versioned_docs/version-2.1/observability/overview.mdx +++ b/versioned_docs/version-2.1/observability/overview.mdx @@ -150,8 +150,9 @@ The observed business system simulates an [e-commerce website] (https://opentele The Load Generator tool sends continuous requests to the entry service, generating vast volumes of observability data (Logs, Traces, Metrics). These data are collected using OpenTelemetry SDKs in various languages, sent to the OpenTelemetry Collector, preprocessed by Processors, and finally written into Doris via the OpenTelemetry Doris Exporter. Observability visualization tools such as Grafana connects to Doris through the MySQL interface, providing visualized query and analysis capabilities. - - +<a href="https://youtu.be/LrR4SNyAlg8"> + <img src="/images/observability/otel_demo_doris.png" alt="Doris OpenTelemetry Demo" /> +</a> Grafana connects to Doris via MySQL datasource, offering unified visualization and analysis of Logs, Traces, and Metrics, including cross-analysis between Logs and Traces. diff --git a/versioned_docs/version-3.0/observability/overview.mdx b/versioned_docs/version-3.0/observability/overview.mdx index e1bb8c36559..7d2709d415a 100644 --- a/versioned_docs/version-3.0/observability/overview.mdx +++ b/versioned_docs/version-3.0/observability/overview.mdx @@ -150,8 +150,9 @@ The observed business system simulates an [e-commerce website] (https://opentele The Load Generator tool sends continuous requests to the entry service, generating vast volumes of observability data (Logs, Traces, Metrics). These data are collected using OpenTelemetry SDKs in various languages, sent to the OpenTelemetry Collector, preprocessed by Processors, and finally written into Doris via the OpenTelemetry Doris Exporter. Observability visualization tools such as Grafana connects to Doris through the MySQL interface, providing visualized query and analysis capabilities. - - +<a href="https://youtu.be/LrR4SNyAlg8"> + <img src="/images/observability/otel_demo_doris.png" alt="Doris OpenTelemetry Demo" /> +</a> Grafana connects to Doris via MySQL datasource, offering unified visualization and analysis of Logs, Traces, and Metrics, including cross-analysis between Logs and Traces. --------------------------------------------------------------------- To unsubscribe, e-mail: commits-unsubscr...@doris.apache.org For additional commands, e-mail: commits-h...@doris.apache.org