原始音频数据 - IM 即时通讯（含 UI）

开发者中心

IM 即时通讯（含 UI）

集成开发

原始音频数据

更新时间： 2024/03/15 17:25:06

NERTC SDK 的音频模块会严格控制声音设备的采集和播放逻辑，同时支持对采集到的音视频原始数据进行自定义的前处理和后处理，获取想要的播放效果。适用于非标设备接入、自定义音频效果、语音处理、语音识别等场景。

前处理：在音频数据发送到编码器前获取原始的音频数据进行修改，主要针对本地麦克风采集到的音频数据或自定义外部音频流。
后处理：即在音频数据发送给解码器后获取原始的音频数据进行修改，主要针对接收到的远端用户音频数据。

NERTC SDK 通过提供 NERtcAudioFrameObserver 类，实现采集、修改原始音频数据功能。

注意事项

采集回调 onAudioFrameDidRecord、播放回调 onAudioFrameWillPlayback 中的原始音频数据可进行处理，例如美声变声。
混音回调 onMixedAudioFrame 和某一用户的播放回调 onPlaybackAudioFrameBeforeMixing 中的原始音频数据不能进行处理。

前提条件

在使用原始数据功能前，请确保您已在项目中实现基本的实时音视频功能。

技术原理

实现方法

API 调用时序

以实现修改采集音频的音频数据为例，API 调用时序如下图所示。

配置步骤

加入房间前基于 INERtcAudioFrameObserver 接口类实现一个 NERtcAudioFrameObserver 类，并调用 setAudioFrameObserver 方法注册语音观测器。
设置回调的音频采样率。
- 调用 setRecordingAudioFrameParameters 方法修改回调的采集音频采样率，并将回调的音频数据设置为只读模式或读写模式。
- 调用 setPlaybackAudioFrameParameters 方法修改回调的播放音频采样率，并将回调的音频数据设置为只读模式或读写模式。
- 调用 setMixedAudioFrameParameters 方法，设置 onMixedAudioFrame 回调中的混音音频采样率。
SDK 返回回调。
- SDK 收到输入的采集数据和播放的音频数据时，返回 onAudioFrameDidRecord 和 onAudioFrameWillPlayback 回调。
- SDK 收到音频采集与播放混合后数据帧时，返回 onMixedAudioFrame 回调；SDK 收到某一远端用户播放的音频数据时，返回 onPlaybackAudioFrameBeforeMixing 回调。
用户拿到音频数据后，需要根据场景自行进行处理。
完成音频数据处理后，您可以直接进行自播放，或根据场景需求再通过 onAudioFrameDidRecord 和 onAudioFrameWillPlayback 回调发送给 SDK。

示例代码

您可以参考下面的示例代码片段，在项目中实现音频原始数据功能：

class AudioFrameObserver : public INERtcAudioFrameObserver
{
public:
    void onAudioFrameDidRecord(NERtcAudioFrame *frame) {
        FILE *fd = getFileDescr("Record", frame->format);
        
        if (NULL != fd) {
            fwrite(frame->data, frame->format.bytes_per_sample * frame->format.channels,
                   frame->format.samples_per_channel, fd);
        }
    }

    void onAudioFrameWillPlayback(NERtcAudioFrame *frame) {
        FILE *fd = getFileDescr("Playback", frame->format);

        if (NULL != fd) {
            fwrite(frame->data, frame->format.bytes_per_sample * frame->format.channels,
                   frame->format.samples_per_channel, fd);
        }
    }

    void onMixedAudioFrame(nertc::NERtcAudioFrame *frame) {
        FILE *fd = getFileDescr("Mixed", frame->format);

        if (NULL != fd) {
            fwrite(frame->data, frame->format.bytes_per_sample * frame->format.channels,
                   frame->format.samples_per_channel, fd);
        }
    }

    void onPlaybackAudioFrameBeforeMixing(nertc::uid_t uid, nertc::NERtcAudioFrame *frame) {
        FILE *fd = getFileDescr(std::to_string(uid), frame->format);

        if (NULL != fd) {
            fwrite(frame->data, frame->format.bytes_per_sample * frame->format.channels,
                   frame->format.samples_per_channel, fd);
        }
    }

    AudioFrameObserver(const std::string &record_file_dir) : m_record_file_dir(record_file_dir) {}

    virtual ~AudioFrameObserver()
    {
        for (auto &fd : m_fds)
        {
            fclose(fd.second.fd);
            fd.second.fd = NULL;
        }
        m_fds.clear();
    }

private:
    struct file_descr {
        FILE *fd;
        nertc::NERtcAudioFormat fmt;
    };

    FILE *getFileDescr(const std::string &id, const nertc::NERtcAudioFormat &fmt) {
        if (m_fds.end() == m_fds.find(id)) {
            m_fds[id] = file_descr();
            m_fds[id].fd = NULL;
        } else if ((m_fds[id].fmt.sample_rate != fmt.sample_rate) ||
                   (m_fds[id].fmt.channels != fmt.channels) ||
                   (m_fds[id].fmt.type != fmt.type)) {
            if (NULL != m_fds[id].fd) {
                fclose(m_fds[id].fd);
                m_fds[id].fd = NULL;
            }
        }

        if (NULL == m_fds[id].fd) {
            time_t now = time(0);
            tm *ltm = localtime(&now);
            std::ostringstream oss;
            oss << m_record_file_dir << "/audio-frame-" << id << "-" << fmt.sample_rate << "-ch" << fmt.channels;
            oss << "-" << ltm->tm_year + 1900;
            oss << std::setfill('0') << std::setw(2) << ltm->tm_mon + 1;
            oss << std::setfill('0') << std::setw(2) << ltm->tm_mday;
            oss << std::setfill('0') << std::setw(2) << ltm->tm_hour;
            oss << std::setfill('0') << std::setw(2) << ltm->tm_min;
            oss << std::setfill('0') << std::setw(2) << ltm->tm_sec;
            oss << ".pcm";

            m_fds[id].fd = fopen(oss.str().c_str(), "wb");
            m_fds[id].fmt = fmt;
        }

        return m_fds[id].fd;
    }

    std::map<std::string /*id*/, file_descr> m_fds;
    std::string m_record_file_dir;
};

AudioFrameObserver *audioFrameObserver = new AudioFrameObserver("/dir/for/recor_file");
rtc_engine_->setAudioFrameObserver(audioFrameObserver);

API 参考

方法	功能描述
`setRecordingAudioFrameParameters`	设置回调的采集音频采样率
`setPlaybackAudioFrameParameters`	设置回调的播放音频采样率
`setMixedAudioFrameParameters`	设置回调的混音音频采样率
`setAudioFrameObserver`	注册语音观测器
`onAudioFrameDidRecord`	接收本端输入的采集音频数据回调
`onAudioFrameWillPlayback`	接收本端输入的播放音频数据播放回调
`onMixedAudioFrame`	接收采集与播放音频混合数据帧回调
`onPlaybackAudioFrameBeforeMixing`	接收远端播放的音频数据帧回调

在线咨询

微信咨询

电话咨询

此文档是否对你有帮助？

有帮助

去反馈

注意事项
前提条件
技术原理
实现方法
API 调用时序
配置步骤
示例代码
API 参考