符号

什么是符号?为什么要有符号?

链接的本质就是把多个不同的目标文件之间相互“粘”到一起,就像是拼图一样,你要把每一块“目标文件”拼接成一个完整的“程序”。
在链接中,目标文件之间相互拼合实际上就是目标文件之间地址的引用,即对函数和变量的地址的引用。我们将函数和变量统称为符号,函数名或变量名就是符号名
在我的上一篇博客:目标文件详解中介绍了重定位表,其就储存了一些需要重定位的符号的地址信息。

符号的类型

定义在本目标文件的全局符号:可被其他目标文件引用
外部符号:在本目标文件中引用的全局符号
段名:这个符号又编译器产生,其值为该段的起始地址。
局部符号:只在编译单元内部可见,其他目标文件不可见

特殊符号

当我们在linux下使用ld作为链接器来链接可执行文件时,它会为我们定义很多符号,并且我们可以引用它们。这些符号我们称之为特殊符号
以下是几个很具有代表性的特殊符号:

__executable_strat:代码段的起始地址
__etext或_etext或etext:代码段的结束地址
_edata或edata:数据段的结束地址
_end或end:程序的结束

ELF符号表结构

typedef struct
{
	Elf32_Word st_name;
	Elf32_Addr st_value;
	Elf32_Word st_size;
	unsigned char st_info;
	unsigned char st_other;
	Elf32_Half st_shndx;
}Elf32_Sym

符号修饰与函数签名

为了避免和库文件中的符号发生符号冲突,就出现了符号修饰机制。

UNIX下的C语言规定,C语言中的符号经过编译后需要在在符号名前加上下划线“_“。
int func()
	{
		...
	}

以上函数名被修饰成 “_func”

在C++中则增加了名称空间  namespace

C++中的符号修饰

因为C++支持重载的特征,所以函数符号修饰相对复杂,我们引入术语函数签名来表示C++中函数的符号修饰。

函数签名包含了一个函数的信息,包括函数名、参数类型、所在类、以及名称空间。

以下是linux下函数签名的规则
所有符号都以_Z开头,在名称空间或类中后面紧跟N,再以E结尾

比如一个名称空间foo中的全局变量bar就会被修饰为_ZN3foo3barE

C++解决与C的兼容问题——extern

刚刚介绍了,C和C++中的符号修饰是不同的,所以就存在不兼容问题,为了解决这个兼容问题,C++中有一个用来声明或定义一个C符号的extern “C” 关键字用法。
以下是一个示例:

extern “C”只能定义在全局范围,不能定义在函数内
extern "C"
{
	int func(int);
	int var;
}

同时C++编译器会在编译C++文件时默认定义一个宏**“__cplusplus”**,来使得能够兼容C语言的头文件,这也是我们为什么能在C++中使用#include<stdio.h>的原因。

强符号和弱符号

在编程中会出现多个目标文件中含有相同名字全局符号的定义,这种情况就叫符号重复定义。为了解决这个问题,引入了强符号和弱符号规则。
在C/C++语言中,编译器默认函数和初始化了的全局变量为强符号,未初始化的全局变量为弱符号
以下是发生符号重复定义的处理规则

强符号与强符号之间:编译器报错
强符号与弱符号之间:编译器选择强符号
弱符号与弱符号之间:编译器选择其中占用空间最大的一个

强引用和弱引用

在编译器对引用的外部符号进行决议时,如果没有找到该符号定义,编译器就会报符号未定义错误的称之为强引用,如果没有找到该符号定义,编译器就默认其为0的称之为弱引用

库中定义的弱符号可以被用户定义的强符号所覆盖,使得用户可以让程序使用自定义版本的库函数

参考文献

[1] 俞甲子 石凡 潘爱明.程序员的自我修养.电子工业出版社,2009.4.