产品介绍
指南针数据质量平台是网易云信推出的一款专为私有云客户设计的数据质量监测与分析工具。该平台旨在帮助开发者和运维人员实时掌握 SDK 产品的线上运行状况,通过多维度的质量指标分析,快速定位并解决潜在问题,从而提升产品性能和用户体验。
产品概述
指南针主要针对产品集成上线运行阶段遇到的产品质量不清楚、发现问题排查路径长且效率低下、系统风险问题没有额外措施保障等一系列问题,提供全方位的产品上线运行质量监测、指标监控分析和异常问题诊断为一体的整体解决方案,致力于帮助开发者用户清晰掌握产品质量、发现问题并排查定位问题原因,最终提升产品质量和用户体验。
产品特点
安全私密
数据传输采用 RSA 高强度加密及国密算法,确保数据安全。支持数据隔离,满足企业对信息安全的严格要求。
极强的开放性和扩展性
提供 OpenAPI 接口,支持与第三方系统集成,方便客户根据自身需求进行定制化开发。
专业全面的服务体系
提供专业的部署、培训及技术支持服务,简化客户运维工作,确保平台稳定运行。
产品架构
指南针数据质量平台的架构以音视频通话为基础,结合网易云信的技术优势,打造了一套高效、灵活、可扩展的数据质量监测与分析系统。平台架构分为数据采集层、数据处理层、存储层、分析层和展示层,各层之间通过标准化接口进行交互,确保系统的高内聚低耦合。
数据采集层
数据采集层负责从多个数据源收集 SDK 的运行数据,包括但不限于:
-
SDK 运行数据:通过 SDK 内置的监控模块,实时收集 SDK 的运行状态、性能指标、错误日志等数据。
-
服务器日志:从服务器端收集与 SDK 相关的日志数据,包括请求响应时间、错误码、网络状况等。
-
第三方数据源:支持接入第三方数据源,如用户行为数据、业务系统数据等,以便进行更全面的分析。
数据采集层通过多种协议(如 HTTP、HTTPS、WebSocket 等)与数据源进行通信,确保数据的实时性和完整性。同时,数据采集层还具备数据预处理功能,对采集到的数据进行初步清洗和格式化,去除无效数据和噪声数据,提高数据质量。
数据处理层
数据处理层负责对采集到的数据进行实时处理和分析,主要功能包括:
-
实时计算引擎:采用高性能的实时计算框架(如 Apache Flink、Storm 等),对流式数据进行实时计算和分析,生成实时的质量指标和告警信息。
-
批处理引擎:对于需要进行深度分析的历史数据,采用批处理框架(如 Apache Spark、Hadoop 等)进行离线处理,生成详细的分析报告和趋势图。
-
数据融合:将来自不同数据源的数据进行融合,形成统一的数据视图,以便进行多维度的分析和挖掘。
数据处理层具备高并发处理能力,能够应对大规模数据的实时处理需求。同时,数据处理层还支持动态扩展,可以根据业务需求灵活调整计算资源,确保系统的稳定性和性能。
存储层
存储层负责存储采集到的原始数据和处理后的分析结果,主要功能包括:
-
实时数据存储:采用内存数据库(如 Redis、Memcached 等)存储实时数据,确保数据的快速读写和低延迟。
-
历史数据存储:采用分布式文件系统(如 HDFS、Ceph 等)和关系型数据库(如 MySQL、PostgreSQL 等)存储历史数据,确保数据的持久性和可靠性。
-
数据备份与恢复:提供数据备份和恢复功能,定期对数据进行备份,确保数据的安全性和完整性。在数据丢失或损坏时,能够快速恢复数据,减少业务中断时间。
存储层具备高可用性和高扩展性,能够满足不同规模的数据存储需求。同时,存储层还支持多种存储介质和存储策略,可以根据数据的特点和业务需求灵活选择存储方案。
分析层
分析层负责对存储的数据进行深入分析,主要功能包括:
-
质量指标分析:对 SDK 的运行质量进行多维度分析,包括 IM 登录成功率、音视频卡顿率、消息发送成功率等,生成详细的质量指标报告。
-
通话调查分析:对房间通话进行多维度分析,包括异常事件统计、卡顿分析、多维质量分析等,生成通话质量报告。
-
实时监控分析:对业务质量及体验进行实时监控,包括 TOP 房间质量及体验指标监控、多维度实时数据辅助等,生成实时监控报告。
-
告警通知分析:对业务风险和异常进行实时识别和分析,生成告警通知,帮助运营及技术支持快速响应跟进问题处理。
-
数据接入三方分析:对第三方数据进行分析,支持 OpenAPI 调用方式,对接 Grafana 数据平台 / UI 内嵌等多种方式,生成第三方数据接入报告。
分析层具备强大的数据分析能力,能够对大规模数据进行快速处理和分析。同时,分析层还支持多种分析算法和模型,可以根据业务需求灵活选择和调整分析方法。
展示层
展示层负责将分析结果以直观的方式展示给用户,主要功能包括:
-
仪表盘:提供实时仪表盘,展示关键质量指标、实时监控数据、告警信息等,帮助用户快速了解业务运行状况。
-
报告:生成详细的质量指标报告、通话质量报告、实时监控报告、告警通知报告等,支持 PDF、HTML、Excel 等多种格式,方便用户下载和分享。
-
图表:提供丰富的图表展示功能,包括折线图、柱状图、饼图、地图等,帮助用户直观了解数据变化趋势和分布情况。
-
自定义视图:支持用户自定义视图,根据业务需求选择和组合不同的数据指标和图表,生成个性化的展示界面。
展示层具备良好的用户体验,界面简洁直观,操作方便快捷。同时,展示层还支持多种终端访问,包括 PC 端、移动端、平板等,确保用户随时随地获取所需信息。
产品优势
关键指标全方位监测,产品质量轻松掌控
透过质量指标统计分析,总览业务质量,了解业务健康状态及用户体验变化,随时掌控产品质量整体情况。
-
多维度、多指标监测整体用户的产品体验,判断产品质量及业务健康度状态。
-
随时查看不同地区、不同版本或客户端的指标明细,了解质量指标详情。
通话调查分级式下钻,问题排查高效应对
通过通话调查相关能力,可以快速分析、发现通话问题,低门槛、高效定位问题原因。
-
音视频通话调查,可通过 指标 - 问题 - 调查 的分层路径,监测定位通话质量并进行归因分析。
-
端到端还原用户行为和体验情况,帮助您高效处理通话问题并回溯历史背景原貌。
核心指标自动化监控,业务稳定实时监控
通过音视频指标实时监控,您可以及时监测在线业务规模、用户体验及通话质量,借助监控保障业务稳定。
-
可从用户、房间、用户进房体验、通话质量等多视角监控产品整体质量。
-
提供多维度、分钟级颗粒度的实时数据分析,助您及时关注业务趋势。
核心功能
质量指标
-
应用级别用量和质量回溯查询:提供应用级别用量和质量回溯查询功能,支持画像分析和全局总结,帮助客户全面了解 SDK 的使用情况和质量表现。
-
时间变化趋势和多维度分布查询:支持查询核心质量情况的时间变化趋势和关键多维度的分布情况,为客户呈现质量数据的动态变化和分布特征。
-
全链条问题分析下钻:支持从质量分析指标到错误码统计、错误采样明细、原始采样记录的全链条问题分析下钻,帮助客户快速定位问题根源。
-
历史数据回溯:最早可回溯 90 天周期的业务用量和质量数据,支持天级别的质量数据查看,为客户提供了丰富的历史数据参考。
IM 指标范围
IM 登录成功率是指单位时间内 IM 模块(不包含聊天室、圈组)所有登录行为中成功连接的占比。
指标 | 说明 |
---|---|
登录错误码 | 登录 IM 过程中发生错误而返回的错误码。 |
百条数据同步延时 | IM 模块登录并同步百条信息的时延数据。 |
聊天室登录 (初始化) 成功率是指聊天室模块所有登录行为中成功连接的占比。
指标 | 说明 |
---|---|
登录错误码 | 登录聊天室过程中发生错误而返回的错误码。 |
聊天室 | 聊天室消息延时 |
单聊消息发送成功率是指单聊模块内的消息发送成功占所有消息的占比。
指标 | 说明 |
---|---|
消息发送错误码 | 单聊过程中发生错误而返回的错误码。 |
未送达原因 | 单聊过程中消息未送达原因。 |
单聊消息送达率 | 单聊消息在当天的到达率。 |
单聊消息延时 | 单聊消息发送到在线用户接收的时长。 |
群聊消息发送成功率是指群聊模块内的消息发送成功占所有消息的占比。
指标 | 说明 |
---|---|
消息发送错误码 | 群聊过程中发生错误而返回的错误码。 |
群聊消息延时 | 群聊消息发送到在线成员接收的时长。 |
文件上传下载成功率是指使用网易云信文件存储时,文件上传成功的占比。
指标 | 说明 |
---|---|
文件下载成功率 | 使用网易云信文件存储时,文件下载成功的占比。 |
文件上传速率 | 使用网易云信文件存储时,每秒的比特数(单位 Mbps)。 |
文件下载速率 | 使用网易云信文件存储时,每秒的比特数(单位 Mbps)。 |
客户端版本支持范围
质量指标名称 | iOS 最低版本 | 安卓最低版本 | web 最低版本 | 微信小程序最低版本 | Windows 最低版本 | macOS 最低版本 |
---|---|---|---|---|---|---|
IM 登录成功率 | 9.11.0 | 9.11.0 | 9.11.0 | 同 web 保持一致 | 9.4.0 | 同 Windows 保持一致 |
百条数据同步延时 | 9.10.1 | 9.11.0 | 9.10.1 | 9.10.0 | ||
单聊消息发送成功率 | 9.6.0 | 9.6.0 | 9.6.0 | 9.6.0 | ||
群聊消息发送成功率 | 9.6.0 | 9.6.0 | 9.6.0 | 9.6.0 | ||
单聊消息延时 | 9.10.1 | 9.10.1 | 9.10.1 | 9.10.1 | ||
群聊消息延时 | 9.10.1 | 9.10.1 | 9.10.1 | 9.10.1 | ||
文件上传速率 | 9.10.1 | 9.11.0 | 9.10.0 | 9.10.0 | ||
文件上传成功率 | 9.10.1 | 9.11.0 | 9.10.0 | 9.10.0 | ||
文件下载速率 | 9.10.1 | 9.11.0 | 9.10.0 | 9.10.0 | ||
文件下载成功率 | 9.10.1 | 9.11.0 | 9.10.0 | 9.10.0 |
通话调查
-
房间通话维度分析:作为一款房间通话维度的分析诊断工具,支持任一通话的异常事件统计、卡顿分析、多维质量分析,帮助客户深入了解通话质量情况。
-
全貌视角排查:支持主播端(发送端)与观众端(接收端)的通话全貌视角排查,结合质量指标与原始操作事件组合分析,提高排查效率。
-
关键数据辅助定位:通话详情支持音视频发送流、码率、上下行丢包率、分辨率、渲染卡顿时长等关键数据辅助根因定位,并支持异常行为事件自动诊断,为客户快速解决问题提供有力支持。
指标详情:
指标 | 说明 |
---|---|
通话持续时长 | 从房间开始到房间结束经过的时间,也就是从房间内第一个用户进入到最后一个用户离开经过的时间。 |
房间累计人数 | 加入过该房间的用户总数。 |
5s 进房成功率 | 进房耗时小于 5s 的样本数 / 进房的总样本数。 |
音频首帧时长 | 从请求订阅音频流到完成第一帧渲染的间隔耗时。 |
视频首帧时长 | 从请求订阅视频流到完成第一帧渲染的间隔耗时。 |
音频网络延时 | 指从发送端到接收端之间的传输延时,通常应低于 400ms。 |
视频网络延时 | 指从发送端到接收端之间的传输延时,通常应低于 400ms。 |
音频卡顿率 | 指音频发生卡顿的时长 / 总音频时长,音频无渲染持续时间超过 200ms 视为音频卡顿。 |
视频卡顿率 | 指视频发生卡顿的时长 / 总视频时长,连续渲染的两帧视频之间间隔时间超过 500ms 视为视频卡顿。 |
实时监控
-
业务质量及体验动态掌握:实时监控业务质量及体验动态,秒级别更新频率,帮助客户及时发现业务异常、提升服务稳定性。
-
TOP 房间质量及体验指标监控:对 TOP 房间质量及体验指标进行实时监控,极大限度降低高危业务风险,保障整体服务平稳运行。
-
多维度实时数据辅助:提供透明、多维度的实时数据,辅助开发者及业务人员高效应对大型线上活动的服务及用户体验,确保业务的顺利进行。
指标范围:
板块 | 指标 | 说明 |
---|---|---|
在线规模 | 在线用户数 | 某一时刻各房间正在进行通话的总人数。 |
在线房间数 | 某一时刻房间的总数。 | |
进房体验 | 5s 进房成功率 | 进房耗时小于 5s 的样本数 / 进房的总样本数,每次登录房间时长 <=5s 就算一次 5s 进房成功。 |
实时通话质量 | 音频网络延时 | 指从发送端到接收端之间的音频数据传输延时,通常应低于 400ms。 |
视频网络延时 | 指从发送端到接收端之间的视频数据传输延时,通常应低于 400ms。 | |
音频卡顿率 | 指音频发生卡顿的时长 / 总音频时长,音频无渲染持续时间超过 200ms 视为音频卡顿。 | |
视频卡顿率 | 指视频发生卡顿的时长 / 总视频时长,连续渲染的两帧视频之间间隔时间超过 500ms 视为视频卡顿。 | |
Top 20 房间排行 | 通话用户数排行 | 房间按当前房间通话用户的数量从多到少排列。 |
用户平均进房时长排行 | 房间按用户加入房间的时间从长到短排行。 | |
音频卡顿率排行 | 房间按照音频卡顿率从高到低排列。 | |
视频卡顿率排行 | 房间按照视频卡顿率从高到低排列。 | |
音频网络延时排行 | 房间按照音频网络延时高到低排列。 | |
视频网络延时排行 | 房间按照视频网络延时高到低排列。 | |
实时分布 | 5s 进房成功率 | 进房耗时小于 5s 的样本数 / 进房的总样本数。 |
音频卡顿率 | 指音频发生卡顿的时长 / 总音频时长,音频无渲染持续时间超过 200ms 视为音频卡顿。 | |
视频卡顿率 | 指视频发生卡顿的时长 / 总视频时长,连续渲染的两帧视频之间间隔时间超过 500ms 视为视频卡顿。 |
告警通知
-
灵活自定义告警规则:支持多条件灵活自定义告警规则,配合多种告警渠道帮助实时监控异常问题,满足客户个性化的告警需求。
-
实时主动识别与通知:实时主动识别业务风险或异常,自动实时通知告警,帮助运营及技术支持快速响应跟进问题处理,减少业务损失。
-
多方式告警推送:通过邮件、短信及 Webhook 回调等多种方式及时推送告警接收人员,确保关键信息不遗漏,保障业务的连续性。
数据接入三方
-
多种数据接入方案:提供多种数据接入第三方 / 集成方案,满足多场景下的开发者数据管理诉求,方便客户将指南针数据质量平台与现有系统进行集成。
-
OpenAPI 调用与 Grafana 对接:支持 OpenAPI 调用方式,对接 Grafana 数据平台 / UI 内嵌等多种方式,将业务数据接入第三方业务数据库,根据自定义业务管理场景,形成自己的数据助手或监控大盘,为客户提供了灵活的数据管理方案。
应用场景
场景一:开发运维常规质量监测
负责 SDK 产品研发的开发者和运维人员,需要经常了解产品 SDK 的线上运行状况,进一步挖掘产品性能优化空间。
借助指南针的数十项质量指标多维分析和问题下钻能力(如 IM 登录成功率、音视频卡顿率等),开发运维可以更高效发现 SDK 代码及业务逻辑的问题和处理优化方案。
场景二:大型活动互动效果跟进
针对大型线上或线下直播赛、多人语音聊天室等在内的中大型用户活动,极致的互动体验能够在平台日活和付费转化路径上有着良好的贡献价值。
借助指南针的实时监控大盘,产品策划及运营人员可以随时监控用户互动的音视频卡顿率、网络延时、首帧耗时等关键质量体验指标,更及时追踪赛事活动效果、做好灵活响应。
场景三:高危风险问题快速告警
应用 SDK 产品在线上运行过程中的质量故障或用户互动中断,若处理不及时导致的用户量下滑、投诉率增加等问题,给开发运维人员提出了较大的挑战。
借助指南针的自定义告警通知能力,开发运维可以提前预设不同风险等级及多样化告警策略(如邮件、短信等),大大降低处理不及时带来的业务运营损耗。