使用PHP-Parser生成AST抽象语法树

0、前言

最近项目的流程逐渐清晰,但是很多关键性的技术没有掌握,也只能一步一步摸索。

由于要做基于数据流分析的静态代码分析,所以前端的工作如:词法分析、语法分析必不可少。YaccLex什么的就不再考虑了,查了一天的资料,发现两款比较适合,一款是Java下的ANTLR,另一款是专门做PHP AST生成的PHP-Parser

ANTLR是编译原理领域比较著名的工具了,相对于YaccLex,更加实用。但是对PHP的语法文件只有一个,折腾了半天才生成调通,发现不太适合,对于$a=1生成tokens竟然是[$,a,=,1],无法识别assignment,做得过于粗糙,令人无比失望。

相比之下,PHP-Parser更加专业一些,毕竟专注PHP的词法、语法分析工作。

 

1、介绍

PHP-Parser的项目主页是https://github.com/nikic/PHP-Parser。可以对多版本的PHP进行完美解析,生成一颗抽象语法树。

对于词法分析,PHP有个内置函数token_get_all()可以用来获取TOKENS,作为语法分析的输入,这个开源项目也是用的token_get_all()生成的token流。

 

2、安装

安装也很简单,这里我是使用的PHP中的包管理工具composer添加的,在项目目录中执行以下命令即可:

php composer.phar require nikic/php-parser

如果没有下载Composer,应该先执行下面的命令:

Curl -s http://getcomposer.org/installer | php  

 

3、生成AST

使用composer添加php-parser之后,就可以方便使用。

首先介绍一下PHP-Parser中定义的一些节点类型:

(1)PhpParser\Node\Stmt是语句节点,不带任何返回信息(return)的结构,如赋值语句$a = $b ;

(2)PhpParser\Node\Expr是表达式节点,可以返回一个值的语言结构,如$varfunc()

(3)PhpParser\Node\Scalar是常量节点,可以用来表示任何常量值。如string,0,以及常量表达式。

(4)还有一些节点没有包括进去,如参数节点(PhpParser\Node\Arg)

一些节点类的名称使用了下划线,这是为了避免和PHP关键字冲突。

PHP-parserHelloWorld程序如下,该代码片段会生成AST

技术分享

输出结果为:


<span style="font-size:12px;">Array
(
    [0] => PhpParser\Node\Stmt\Echo_ Object
    (
            [subNodes:protected] => Array
                (
                    [exprs] => Array
                        (
                            [0] => PhpParser\Node\Scalar\String Object
                                (
                                    [subNodes:protected] => Array
                                        (
                                            [value] => 1+2
                                        )

                                    [attributes:protected] => Array
                                        (
                                            [startLine] => 1
                                            [endLine] => 1
                                        )

                                )

                            [1] => PhpParser\Node\Scalar\String Object
                                (
                                    [subNodes:protected] => Array
                                        (
                                            [value] => chongrui
                                        )

                                    [attributes:protected] => Array
                                        (
                                            [startLine] => 1
                                            [endLine] => 1
                                        )

                                )

                        )

                )

            [attributes:protected] => Array
                (
                    [startLine] => 1
                    [endLine] => 1
                )

        )

)</span>

可以看到,这课AST只有一个节点Echo_,此节点有一个子节点exprs,可以使用$stmts[0]->exprs进行访问。

对于节点中的attributes信息是用来存储startLineendLine以及comments的。可以使用getAttributes(),getAttribute(startLine),setAttribute(),hasAttribute()方法进行访问。

开始行号startLine可以通过getLine()/setLine()方法进行访问(也可以getAttribute(startLine))。注释信息可以使用getDocComment()获取。

访问节点上的值:如访问值“chongrui”,使用$stmts[0]->exprs[1]->value;即可。

 

 

4、节点遍历

对抽象语法树的遍历非常方便,使用PhpParser\NodeTraverser类即可。同时,支持自定义的Visitor对象。因为在实际应用中,对PHP源码进行分析,往往是不知道AST的具体结构,这时需要动态的去判断每个节点的类型信息。

这些判断统一写到MyNodeVisitor中,该类继承了一个父类NodeVisitorAbstract,这个类中有一些方法:

技术分享

(1)beforeTraverse()方法用于遍历之前,通常用来在遍历前对值进行重置。

(2)afterTraverse()方法和(1)相同,唯一不同的地方是遍历之后才触发。

(3)enterNode()leaveNode()方法在对每个节点访问时触发。

enterNode在进入节点时触发,比如在访问节点的子节点之前。这个方法可以返回NodeTraverser::DONT_TRAVERSER_CHILDREN,用来跳过该节点的孩子节点。

leaveNode在遍历节点完成之后触发。它可以返回

NodeTraverser::REMOVE_NODE,这种情况下,当前节点会被删除。如果返回一个节点的集合,那么这些节点会并入到父节点的array中,比如array(A,B,C),B节点被array(X,Y,Z)替换,变成array(A,X,Y,Z,C) .

下面的代码片段对$code进行解析,生成AST,并且在遍历时,当发现遍历节点时String类型时,就进行输出。

结果会输出1,2

技术分享

5、其他AST表示

有时候会将AST进行文本化持久保存,这个功能PHP-Parser也支持。

(1)简单的进行序列化

使用serialize()unserialize()进行序列化和反序列化操作,可以对AST进行持久保存。 

(2)易于阅读的保存形式

分别是完美打印和XML持久存储,在这里不做详细介绍,有需要的时候可以看项目的文档:

https://github.com/nikic/PHP-Parser/blob/master/doc/3_Other_node_tree_representations.markdown

 

 

6、总结

至少在PHP静态分析方面,PHP-Parser在功能方面大大优于ANTLR。如何构建一个PHP自动化审计系统,这个PHP-Parser肯定会发挥不小的作用:)~


郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。