Blackfin的学习心得（转载）-Blackfin-技术中心-国内专业ADI仿真器，Blackfin开发板，DSP芯片，软件算法，解决方案提供商-北京四维卓信电子有限公司

上海妇科疾病研究所上海女性不孕医院上海引产医院无痛引产痛不痛上海人流医院白癜风治疗医院上海小儿脑瘫医院上海女子医院

用户名：

密码：

主页

设为首页

加入收藏

您的当前位置：ADSP开源社区 >> 技术中心 >> Blackfin

今天是：

技术中心

产品导航

销售网络

Blackfin

Blackfin的学习心得（转载）

[ 作者： ] [ 来源：ADSP开源社区 ] [ 发布时间：2018/4/19 ]

    呵，学习DSP，特别是Blackfin系列的，没数据手册简直是没法学的。
    该系列基本上只有英文资料，而就我目前翻过的所有教材基本上都是从数据手册上摘录一个片段，翻译一下就完事了，连个总结都没有。很多关键的地方（比如中断），要想理解完整，必须同时参考多个数据手册，因此只看教材基本上是云里雾里的。
    附件里是bf548与bf533的相关手册，与bf561大部分是一样的。bf561是双核的，在编译与链接库参考手册（6389974860119950_BF_cc_man.pdf）里有关于双核编程的指导。
    好吧，再讲讲Blackfin DSP与ARM的区别。
    可以把嵌入式分成DSP与MCU两种
        MCU一般用于管理任务，更注重代码密度，而不是性能的极限（比如只做一个管理系统，更多的是对外设读写，而外设一般是很慢（想想IIC，SPI，速度再快也不过几M比特）的，因此大部分时间都在等待，很少需要考虑算法的优化），ARM便是这类MCU。
DSP一般用于处理图像、音频、视频（不仅是读写，而是处理，比如编码解码，或者从图像完成人脸检测），它更注重地是发挥处理器的极限性能，而其架构（后讲）也自然地与MCU有较大区别。
    以前的话，大部分DSP对管理任务的能力很差，而像ARM这种MCU对于算法性能要求高的（比如图像处理）的任务基本是无能为力。于是，既能有MCU出色的管理功能，又能有DSP出色的计算性能便是很多人的一个目标，Blackfin DSP便是这样诞生的。它既能作为100%的MCU使用，也能作为100%的DSP使用（这句是从U-boot的应用笔记抄的，呵，100%，哥可不敢乱说）。
    好的，以一个例子说明一下图像处理的艰巨来体现DSP的必要性。
    我们现在拍摄的图像再一般都是动辄130W像素，或者300W像素，假设想要从图像中识别出人脸（或车牌号识别，都是一样的）。那么便需要用一些图像处理与机器视觉的算法对图像进行处理。无论对图像作怎样简单的处理，都需要遍历每个像素，对于130W像素的图像，再快也得运算130W次（计算上寻址之类，得130W*3~7）。那么对于PC的单核3G的CPU来说，一秒只能遍历几千次图像（这里只是举例说明，实际上由于现代CPU的架构良好，GPU、协处理器的存在，速度并不会这么慢）。把遍历一次图像看成一次加法，那么3G的CPU就相当于一个只能计算几千次加法的CPU，这样的处理速度难以满足实时要求。而DSP便是为解决这些问题而存在的。
    这里看一下Blackfin DSP的一些特点（为了防止太多废话，这里假设大家有一点CPU的架构知识与汇编知识）：

零周期循环：
for (i = 0; i < 1000;i++)
for (j = 0; j < 1000 ;j++)
x = 0;

    看上例，对于一般的CPU来说，循环都是模拟实现的，即判断是否计数完成，然后减计数，再JUMP，这至少得３个周期（更要命的是，流水线必须重新填充，这个隐含了更多的周期浪费），也就是说上面的执行至少得消费4M(3 * 1000 000 + 1000 000)个周期。
    而Blackfin DSP使用硬件循环，上面的两个for不消耗周期，即只消费了1M个周期，这个节省是很可观的。
    同时Blackfin DSP还使用一个缓存区存放循环体内的4条指令，以进一步提高效率。

循环寻址：
for (i = 0; i < 1000;i++)
a[i % 100] += 1;

大家要知道，%运算不是由硬件支持（对于PC与DSP都一样）的，它的执行效率很低，对于DSP，估计一次得上百个周期。在形态学图像处理中，循环寻址是很常见的，而每理一个像素要上百个周期，这对DSP是无法接受的。因此DSP提供了一组寄存器，叫DAG，通过合适的配置，可以使地址循环，为了让大家更明白，将上例改成DSP的实现形式：

p = a;
for (i = 0; i < 1000;i++)
*p++ += 1;

这里假设p已经配置好循环长度为１００（这里其实应该用汇编写，不过只是为了演示，而忽略了晦涩的细节），当p累加到100时（依此类推），会自动把p重设为a的起地址。相比于上面的代码，每执行一次循环可节省１００多个周期。

特别设计的指令集（对应于特别设计的架构）：
１、一些高效指令：
Blackfin DSP有两个MAC，可以在一个周期内同时完成２个16位乘法，而PC的CPU一般是几个周期完成一次乘法。
各种专为视频流处理设置的指令（至今没用过，没法细讲）。
更多高效指令与细节，参考指令集参考手册。
2 、并行指令：
一个周期内最高可以同时实现一条32位指令加两条16位指令。这里通过一个例子，大家去体会其中的独到之处：
A1+=R0.L*R2.H,A0+=R0.L*R2.L || R2.L=W[I2++] || R0=[I1--] ;
这是一条汇编指令，在单周期内完成，它完成了两次乘法，并累加到专用累加器，完成两次数据存取，同时移动两次指针。将它换到PC上实现，至少得１０个周期。
更多的关于DSP与众不同之处就不多说了，数据手册多看些自然也就明白了。

    那么学习Blackfin DSP应该学什么？
    虽然它既能完成MCU的功能，又有DSP的强悍，我认为还是侧重DSP的方面的学习，因为它比较贵，还有想学MCU，学ARM更合适，资料多。
    要学会DSP，至少得学会汇编（Blackfin的汇编与C类似，好学，但是加了限制），才能深刻理解它的架构（有人说，不会汇编的DSP工程师称不上合格的工程师，而一般一个高度优化的DSP项目的核心部分都会包含一部分汇编）。不会汇编去看架构，我认为最多只能走马观花（至少不会汇编前，哥是看得糊里糊涂）。
    然后实践一些比较需要DSP的例子（一边看例子，一边学汇编），比如FFT、形态学处理之类的。更深入的也就不用说了，入门后大家就会渐渐明白适合自己的了。
谈得比较空泛，更具体的还是只能通过实际的例子才讲得明白。

联系我们 | 关于我们 | 免责声明 | 诚征英才 | 友情链接