读CSAPP(2) - 程序性能优化
高效的程序需要做到
- 合适的数据结构与算法
- 编写出编译器能够有效优化以转换成高效可执行代码的源码。
- 将运算量特别大的计算,可以分成多部分,这些部分可以在多核多处理器的某种组合上并行处理
本篇主要以第二点进行讨论,编译器在优化的时候只会做最坏打算,做各种假设。为了保证程序的准确性,舍弃性能优化。
编译器的优化限制
内存别名的使用
void twiddle1(long *xp, long *yp)
{
*xp += *yp;
*xp += *yp;
}
void twiddle2(long *xp, long *yp)
{
*xp += 2* *yp;
}
上面两个程序twiddle2(读xp,读yp,写xp)优于twiddl1(读2次xp,读2次yp,写2次xp)。 看起来编译器也许会将twiddle1优化成twiddle2的形式。但假设xp和yp是引用的同一个内存地址:&xp = &yp
void twiddle1(long *xp, long *yp){
*xp += *xp;
*xp += *xp;
}
void twiddle2(long *xp, long *yp){
*xp += 2* *xp;
}
代码则可以写成上面这样,这时候两个函数的意义就不同了,twiddle1将xp增加了4倍,twiddle2将xp增加了3倍。 两个指针指向同一个内存地址,称之为:内存别名使用,编译器必须假设不同指针可能指向相同地址,限制了优化策略
函数调用
long f();
long func1(){
return f() + f() + f() + f()
}
long func2(){
return 4*f()
}
看起来两个函数结果是相同的,但假设函数f内部为:
long counter = 0;
long f(){
return counter ++;
}
那么func1和func2返回结果就不同了,而且修改全局状态也不同。 大多数编译器不会试图判断一个函数是否没有副作用,如果没有,可能被优化成func2的形式。否则假设最糟糕的情况,保持不变。
用内联函数减少开销,也对展开代码做了优化。
对一段代码的优化案例
下面程序是将元素累加,之后我们对combine1函数进行一步步优化
int get_vec_element(vec_ptr v, long index, data_t *dest){
if (index < 0 || index >= v->len)
return 0;
*dest = v->data[index]
return 1;
}
long vec_length(vec_ptr v){
return v->len;
}
void combine1(vec_ptr v, data_t *dest){
long i;
*dest = 0;
for(i = 0; i < vec_length(v); i++ )
{
data_t val;
get_vec_element(v, i, &val);
*dest = *dest + val;
}
}
1. 消除循环的低效率
将幂等函数移动出循环
void combine2(vec_ptr v, data_t *dest){
long i;
*dest = 0;
long length = vec_length(v);
for(i = 0; i < length; i++ )
{
data_t val;
get_vec_element(v, i, &val);
*dest = *dest + val;
}
}
2. 减少过程调用
get_vec_element中对边界检查,虽然很有用,但在本例中能明显看出所有引用都是合法,可以去除
void combine3(vec_ptr v, data_t *dest){
long i;
*dest = 0;
long length = vec_length(v);
data_t *data = v->data; //获取首地址
for(i = 0; i < length; i++ )
{
*dest = *dest + data[i];
}
}
3. 消除不必要的内存引用
combine3将计算值累积在指针dest位置,每次循环都会进行三步操作
- 读取dest值
- 读取data[i]值
- 写入dest所在内存
从dest读取的值,就是上次写入dest的值,加上个临时的变量
- 读data[i]值,计算结果放到临时内存
- 内存的值不写入,当循环完毕最后在写入到dest
优化后每次循环只需要读取一次data[i]值即可。
void combine4(vec_ptr v, data_t *dest){
long i;
data_t acc = 0;
long length = vec_length(v);
data_t *data = v->data; //获取首地址
for(i = 0; i < length; i++ )
{
acc = acc + data[i];
}
*dest = acc;
}
编译器应该也会帮我们优化成combine4的形式,但由于内存别名的使用,可能会有不同行为。 比如 *dest引用的是data的地址,那结果会有区别,所以不会优化。
4. 循环展开
增加每次循环迭代计算的元素数量,减少迭代次数。
void combine5(vec_ptr v, data_t *dest){
long i;
data_t acc = 0;
long length = vec_length(v) - 1;
data_t *data = v->data; //获取首地址
for(i = 0; i < length; i+=2 )
{
acc = (acc + data[i])+ data[i+1];
}
*dest = acc;
}
编译器一般会帮助我们进行循环展开操作,只要优化等级3或更高。
5. 提高并行性
在代码层面,下面三行是一条条按序执行,但cpu发现a和b的赋值操作是互不影响的,会同时执行a和b,这种现象叫做:指令级并行。
int a = 1;
int b = 2;
int c = a + b;
所以我们可以将combine5的代码再进行一次优化:
void combine6(vec_ptr v, data_t *dest){
long i;
data_t acc0 = 0;
data_t acc1 = 0;
long length = vec_length(v) - 1;
data_t *data = v->data; //获取首地址
for(i = 0; i < length; i+=2 )
{
acc0 = acc0 + data[i];
acc1 = acc1 + data[i+1];
}
*dest = acc0 + acc1;
}
combine5的循环展开,将循环次数减少了一半,提高了效率。但是cpu执行还是按序执行,无法进行并行操作,因为新的acc值总要依靠上一个acc,必须按顺序执行,才能获取。 现在将奇数索引的值赋给acc0,偶数索引的值赋给acc1,两个变量互不影响,cpu就可以进行并行操作了,最后将结果相结合
循环展开的数量并不是越多效率越高,循环的变量一旦超过可用寄存器数量,效率反而会更慢。
6. 分支预测
案例
下面代码,对数组值大于等于128的进行求和。求和前进行排序要比不进行排序直接求和效率要高3倍左右。
#include <algorithm>
#include <ctime>
#include <iostream>
int main()
{
// 随机产生整数,用分区函数填充,以避免出现分桶不均
const unsigned arraySize = 32768;
int data[arraySize];
for (unsigned c = 0; c < arraySize; ++c)
data[c] = std::rand() % 256;
// !!! 排序后下面的Loop运行将更快
std::sort(data, data + arraySize);
// 测试部分
clock_t start = clock();
long long sum = 0;
for (unsigned i = 0; i < 100000; ++i)
{
// 主要计算部分,选一半元素参与计算
for (unsigned c = 0; c < arraySize; ++c)
{
if (data[c] >= 128)
sum += data[c];
}
}
double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;
std::cout << elapsedTime << std::endl;
std::cout << "sum = " << sum << std::endl;
}
cpu对分支进行预测,猜测下一步走哪个分支。如果猜对,cpu不会暂停一直运行,猜错,就要停止-回滚-热启动。 cpu根据历史进行猜测下一步走向。有序的数组,预测判断条件的结果更加准确,无序数组无法预测,命中率低,导致效率低。
优化方案
- 如果可以的话移除分支
//用位运算 替换 if判断
int t = (data[c] - 128) >> 31;
sum += ~t & data[c];
- 提高分支的可预测性,比如上面先排序
优化总结
- 消除函数调用
- 消除不必要的内存引用
- 循环展开
- 提高指令并行
- 提高分支的预测性