本文首发于微信公众号【程序员江湖】

作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于2018 年秋招拿到 BAT 头条、网易、滴滴等 8 个大厂 offer

个人擅长领域 :自学编程、技术校园招聘、软件工程考研(关注公众号后回复”资料“即可领取 3T 免费技术学习资源)


Java代码需要编译成class文件然后运行在JVM中。

Javac是什么

javac是一种编译器,把java源代码转换成jvm能够识别的class文件。然后有JVM再把JVM语言转换成当前及其能够识别的机器语言。

Java语言屏蔽了目标及其相关的细节,语言执行和平台无关,这一特点让Java很流行,最大的体现就是Android使用java语言开发。

javac的任务是把Java源码编译成class字节码,表面上看是二进制数字流,实际上只有JVM能识别它的真正含义

javac编译器的基本结构

javac编译器的作用就是将符合Java语言规范的源代码转换成字节码。

1 首先,读取源代码,按字节读取,识别语法关键词比如if else等,判断其是否合法,这一步就是词法分析

词法分析的结果就是从代码中找出一些规范的token流。就像一句话我们要知道哪些是标点,动词,名词等。

2 接着,对这些token进行语法分析,这一步是检查这些关键词组合在一起是不是符合Java的语言规范,比如if后面是否是boolean表达式。类似英语中判断主谓宾关系是否正确。

语法分析的结果就是形成一个符合java规范的抽象语法树,它把语言的主要词法组织在一起,对这个语法树后面可以根据新的规则重组。这也是编译器的关键所在(重组成其他语言)

3 语义分析开始时已经不存在语法问题了,但是语义不一定正确,语义分析主要把复杂难懂的语法转为更简单的语法,类似于把文言文转换为白话文,或者注解一些成语。

也就是我们让一个句子既通顺又易懂。

语义分析的结果是复杂语法编程简单语法,比如foreach编程for循环,以及注解等,最后形成一个注解过后的抽象语法树。

4 最后,通过字节码生成器生成字节码,经过注解的抽象语法树生成字节码。就像是把中文翻译为英文

javac工作原理分析

词法分析器

生成token流

语法分析器

生成语法树

语义分析器

语法分析器生成的语法树太粗糙了,离字节码还有差距,我们要在此基础上做一些处理,比如给类加上默认构造函数,检查类型匹配,检查操作可达,检查异常和语法糖等。

这些操作完成后就可以按照这个完整的语法树生成字节码了。

实际上,ide就是利用语义分析,才能检查出我们代码中的错误。

代码生成器

1 将java方法中的代码块转化为符合JVM语法的命令格式,由于JVM是基于栈操作的,所以必须是入栈出栈的命令序列

2 按照JVM的文件组织个事将字节码输出到以class为扩展名的文件中。

设计模式值访问者模式

编译原理之自动机

在词法,语法分析的过程中,是如何进行的呢?一句话,程序语言是怎么形成的,其解析过程就是其“逆袭”的过程。

这就到了形式语言和自动机的舞台。

形式语言:按一定规律构成的句子或符号串的有限或无限的集合,是为了描述语言的一种理论模型。它只考虑语法,词法,而不考虑语义。

在形式语言中,有字母表,有状态集合,有从字母到字符串的规则,这其中包含,文法。字母表中的字母按照文法构成句子。文法又有不同的要求等级,对应的可以构成不同的语言,例如三型文法,构成正则语言。计算机语言学中为了识别文法构成的不同,引入自动机,把自动机作为语言识别器,用来研究各种形式语言。

总之,形式语言,自动机都是编译程序拿来检测程序设计语言的工具。我们只要明白这个就够了。