搜索
编程论坛
→
开发语言
→
『 C语言论坛 』
→ 高性能矩阵乘代码编写问题
标题:
高性能矩阵乘代码编写问题
取消只看楼主
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
结帖率:
100%
楼主
已结贴
√
问题点数:20 回复次数:7
高性能矩阵乘代码编写问题
我目前在做BLAS数学库中dgemm函数的c语言实现,虽然目前有很多高性能的数学库开源代码,但大部分都是用汇编代码和fortran代码实现。我在用c语言实现的时候,在Intel平台上测试性能很低,只达到理论峰值的三分之一,希望在这方面有研究的大侠高手多多指教,比较急切,谢谢各位!!
搜索更多相关主题的帖子:
矩阵
编写
代码
高性能
2010-03-08 22:29
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
2
楼
得分:0
自己顶下!
2010-03-09 09:26
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
3
楼
得分:0
实现双精度矩阵矩阵程,类似于C=A×B+C,其中A,B,C都是矩阵。
2010-03-09 15:58
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
4
楼
得分:0
假设A,B,C都是N*N的矩阵,按列主行方式存储,一般矩阵-矩阵乘算法如下:
for(k=0;k<N;k++)
for(i=0;i<N;i++)
for(j=0;j<N;j++)
C[j*N+i]+=A[k*N+i]*B[j*N+k];
考虑到按列主存的方式矩阵B的访问不连续,已经事先做过转置拷贝,但是效果仍然很不理想,虽然比原来没拷贝有所提高,但是离峰值还是很远。。。。。。
我觉大部分开销都浪费到访存上,但是不知道怎么处理,
我是用Inter ICC 编译器编译的
2010-03-09 16:24
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
5
楼
得分:0
发的什么?
2010-03-09 18:20
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
6
楼
得分:0
我想问下用指针代替数组索引是不是会提高代码效率
用宏代替部分编码呢?
2010-03-10 10:30
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
7
楼
得分:0
非常感谢楼上分享的代码
我原来问题算的是性能(也就是gflops) ,假设矩阵i,j,k的规模为M*N*K,那么矩阵乘算法的主要操作就是在C=A*B+C;中包含的一次乘法和一次加法,
这样总得运算量应该至少为2×M×N×K次,然后用系统提供的时间函数测出multy函数的运行时间t,(2×M×N×K)/ t 换算下单位就可以得到gflops
而且矩阵的规模一般都很大,还要考虑访存的延迟,所以不做循环展开之类的优化操作,性能是不会很好的。。。。。。
2010-03-10 16:50
traz_
等 级:
新手上路
帖 子:9
专家分:0
注 册:2010-3-8
第
8
楼
得分:0
非常感谢 我想C也的确是不能再提升了,我目前还是考虑单cpu呵呵
2010-03-10 19:50
8
1/1页
1
参与讨论请移步原网站贴子:
https://bbs.bccn.net/thread-298868-1-1.html
关于我们
|
广告合作
|
编程中国
|
清除Cookies
|
TOP
|
手机版
编程中国
版权所有,并保留所有权利。
Powered by
Discuz
, Processed in 0.211919 second(s), 8 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved