吏部侍郎

我见青山多妩媚,料青山见我应如是

0%

工作知识记录

工作中遇到的概念

记录一些工作中遇到的名词缩写及概念&硬件知识&软件知识。

POC测试,即Proof of Concept,属于概念验证。是业界流行的针对客户具体应用的验证性测试,根据用户对采用系统提出的性能要求和扩展需求的指标,在选用服务器上进行真实数据的运行,对承载用户数据量和运行时间进行实际测算,并根据用户未来业务扩展的需求加大数据量以验证系统和平台的承载能力和性能变化。

IVR(Interactive Voice Response)即互动式语音应答,您只须用电话即可进入服务中心,可以根据操作提示收听手机娱乐产品,也可以根据用户输入的内容播放有关的信息。

UAP:UAP是华为的自动排队机名称,是自动呼叫分配(Automatic Call Distribution,ACD)的一种,是现代呼叫中心的组成模块,也是其核心技术。

SEO(Search Engine Optimization):汉译为搜索引擎优化。是一种方式:利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名

ASR语音识别(Automatic Speech Recognition),将口述音频转换为文本,通过API调用识别不同音频源发来的实时音频,或识别音频文件。

OA系统的英文全称是:Office Automation System ,意为办公自动化系统。

硬件知识

CPU和GPU

理解 GPU 和 CPU 之间区别的一种简单方式是比较它们如何处理任务。CPU 由专为顺序串行处理而优化的几个核心组成,而 GPU 则拥有一个由数以千计的更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。

GPU的特点是有大量的核(多达几千个核)和大量的高速内存,最初被设计用于游戏,计算机图像处理等。GPU主要擅长做类似图像处理的并行计算,所谓的“粗粒度并行(coarse-grainparallelism)”。这个对于图像处理很适用,因为像素与像素之间相对独立,GPU提供大量的核,可以同时对很多像素进行并行处理。但这并不能带来延迟的提升(而仅仅是处理吞吐量的提升)。比如,当一个消息到达时,虽然GPU有很多的核,但只能有其中一个核被用来处理当前这个消息,而且GPU核通常被设计为支持与图像处理相关的运算,不如CPU通用。GPU主要适用于在数据层呈现很高的并行特性(data-parallelism)的应用,比如GPU比较适合用于类似蒙特卡罗模拟这样的并行运算。

CPU和GPU本身架构方式和运算目的不同导致了CPU和GPU之间的不同,主要不同点列举如下。

更形象点的说法是:

现在全班要去春游,你有一辆保时捷和一辆大巴:保时捷只有四个座位,但半个小时就到了;大巴有50个座位,但要一个多小时。为了让全班尽早过去,大巴一定是首选。从计算的角度看,各位的CPU就是保时捷,GPU就是大巴。GPU每个核心都很弱,但众多的核心还是让GPU在并行计算上拥有了相当的优势。另外一点,GPU有相当的价格优势。单纯从浮点数计算能力来看,不到300块的GT430(91.564G)已经接近于一两千块的i7(107.6G)。

参考

音频存储的计算方式

每通电话3min,存储的音频是整通电话中客户说话识别交互的音频(8k格式),按1min计算,每天进线量按34万通计算

计算方式:(8K*1min*60s*340000通)/1024= 159375MB≈155.64G

识别过程中会进行端点检查,除掉30%左右空音频,除掉后约为108.948G。

每日按110G数据;每月产生110G*30=3300G≈3.2T,按每月产生3.2T数据计算。

声音的知识

音频采样所得的PCM都含有三个要素:声道(channel)、采样率(sample rate)、样本格式(sample rate)

声道

常见的声道有:

  1. 单声道,mono
  2. 双声道,stereo,最常见的类型,包含左声道以及右声道
  3. 2.1声道,在双声道基础上加入一个低音声道
  4. 5.1声道,包含一个正面声道、左前方声道、右前方声道、左环绕声道、右环绕声道、一个低音声道,最早应用于早期的电影院
  5. 7.1声道,在5.1声道的基础上,把左右的环绕声道拆分为左右环绕声道以及左右后置声道,主要应用于BD以及现代的电影院

采样率

音频采样,是把声音从模拟信号转换为数字信号。采样率,就是每秒对声音进行采集的次数,同样也是所得的数字信号的每秒样本数。在对声音进行采样时,常用的采样率有:

  • 8,000 Hz - 电话所用采样率, 对于人的说话已经足够;
  • 11,025 Hz - AM调幅广播所用采样率;
  • 22,050 Hz和24,000 Hz - FM调频广播所用采样率;
  • 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率;
  • 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率;
  • 47,250 Hz - 商用 PCM 录音机所用采样率;
  • 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率;
  • 50,000 Hz - 商用数字录音机所用采样率;
  • 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率;
  • 2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

采样越高,声音的还原就越真实越自然,人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。

采样位数

音频在经过采样得到样本后,还需要对该样本执行两个步骤:

1.量化。音频量化的量化位数常用的有:

  • 8bit (也就是1字节) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
  • 16bit (也就是2字节) 可以细到 65536 个数, 这已是 CD 标准了;
  • 32bit (也就是4字节) 能把振幅细分到 4294967296 个等级, 实在是没必要了;

量化位数又叫做采样位数位深度分辨率, 它是指声音的连续强度被数字表示后可以分为多少级。N-bit的意思声音的强度被均分为2^N级。16-bit的话,就是65535级。这是一个很大的数了,人可能也分辨不出六万五千五百三十五分之一的音强差别。也可以说是声卡的分辨率,它的数值越大,分辨率也就越高,所发出声音的能力越强。这里的采样倍数主要针对的是信号的强度特性,采样率针对的是信号的时间(频率)特性这是两个不一样的概念。

2.二进制编码。也就是把量化所得的结果,即单个声道的样本,以二进制的码字进行存放。其中有两种存放方式:

直接以整形来存放量化结果,即Two’s complement code;

以浮点类型来存放量化结果,即Floating point encoding code。

大多数格式的PCM样本数据使用整形来存放,而在对一些对精度要求高的应用方面,则使用浮点型来表示PCM 样本数据。

欢迎关注我的其它发布渠道