非常感谢韬涵能把小讲第一百期的机会给我,这是我的荣幸,也很激动。说到一百,习总书记在建党一百周年的时候,就说我们经过了一百年的奋斗,基本实现了小康社会,那么接下来将开启新的一百年的征程。正所谓百尺竿头更进一步,韬涵小讲第一百期既是一个小结,也是一个新的开始。我也很荣幸能够作为一份子参与到其中,希望能够跟着韬涵一起来见证韬涵小讲新的征程的开始。
今天我分享的题目是《人工智能深度学习在法学研究与法律服务中的应用》。就人工智能我今天想跟大家分享的主要是三个部分的内容。
一、人工智能是什么
什么是人工智能?人工智能英文是artificial intelligence,简称 AI,这就是人工智能 AI的由来。它是计算机科学的当中的一个现在非常热门的一个分支,其中主要研究的内容包括机器人、语音识别、图像识别、自然语言处理和专家系统。可以说的上是我们目前人类科技智慧的集大成者,也是在未来很长的一段时间里非常重要的一个发展的方向和领域。
人工智能是多种学科的集合,目前已经超出了单纯的计算机技术范畴。它的应用是一种交叉性很强的一个学科,包括控制论自动化、仿生学、生物学、心理学、逻辑学语言学哲学等等,既有自然科学,也有社会科学,是非常非常复杂的一门学科。
人工智能的研究过程中使用的方法很多,自然科学的、人文社会科学的研究方法都会使用。对于人工智能与法律,其实在前些年人工智能这个话题刚刚兴起的时候,已经引发过法学界的一些讨论。当时主要的争议点在于人工智能这样一个新兴事物它在法律上的定位,或者说它在法律上的属性是怎样的?比如就人工智能将来能否成为法律上的行为主体,就有很多的争议。
其中比较有代表性的观点,像华东政法大学的刘宪权老师,他之前写过很多的文章,他主张人工智能是可以有主体身份,也就是说在未来人工智能有可能会成为我们刑事领域一个责任承担的主体。刘宪权老师是基于人工智能领域内的标准,把人工智能分为了强人工智能和弱人工智能。强人工智能其实就类似于我们在科幻电影里看到,跟人基本上是一样的,有自己的思想,可以独立的思考,独自的完成学习和做成一件事情。而弱人工智能其实就是目前我们现阶段所使用的所谓的“人工智能”,本质上仍然只是一种工具,没有达到智能化的标准。
所以,在法律上来讲,争议的点就在于以后的强人工智能是不是能够成为一种刑法上或者法律上的一种主体资格。当然,我们目前还没有看到什么时候能真的实现强人工智能,所以目前在讨论强人工智能属性或者是法律上地位的时候,基本上属于一种屠龙之术,主要着眼于未来,而那个未来什么时候到来我们犹未可知。
那么我们现在的弱人工智能时代,对于他是不是要能够独立承担刑事责任,基本上没有太大争议,因为他本质上是一种工具。比如我们现在很多汽车上已经使用了自动驾驶的技术,如果一个人在开自动驾驶的汽车的时候出了车祸,这个车祸的刑事责任,包括民事责任究竟应该由谁来承担?问题只在于是由坐在这个车里的驾驶员,还是由开发这套人工系统的程序员或者是公司去承担?不过我今天要讲的不是人工智能法律属性的问题,而是它的应用问题。
二、人工智能为什么不“智能”?
我相信就目前而言,作为我们法律从业者都接触过一些所谓的一些人工智能的应用。但仅就我个人感受而言,我觉得这些都不算很智能,不知道大家有没有相同的感受。很多打着智能旗号的东西,其实用起来并不是很智能,或者说只实现了一半,只有人工没有智能。因为很多应用,比如现在的类案检索,检索完了还是有大量的工作需要我们自己去做,并不是很智能。那究竟是为什么人工智能不智能?这就需要去探究一下人工智能的工作逻辑。
人工智能基于计算机技术,跟计算机技术原理都是想通的。我们对一台计算机发出指令,然后它应当给出我们想要的结果。过去我们在微机房输入电脑做计算,与现在的人工智能两者之间有什么区别呢?最主要的区别就在于使用的语言不同。
过去使用计算机做计算,我们使用的是计算机语言。以前我们学计算机课的时候都学过DOS系统,输入各种指令“/......”。那就是纯粹的计算机语言,也就是我们使用的都是计算机能直接读懂的东西,是经过简单的二进制代码转换的,是计算机的语言。
可是在人工智能时代,我们想要达到的是使用我们人类自己的语言,直接跟计算机进行对话,然后再让计算机得出一个我们能够直接看得懂的东西出来,而无需我们再对计算机语言进行翻译了。等于说这些翻译的过程都是计算机自己在做,他能直接听得懂我们说的话,也就是所谓的自然语言,比如我现在所讲的中文,外国人可能讲英文法语或其他的语言,不管是哪种语言,只要是人类用的,直接对着一台电脑说出指令,然后电脑也能够反馈给我们一个能够直接看得懂、听得懂的结果。这就是人工智能跟过去的计算机一个非常大的区别。但想要达到这样的效果,其实是非常困难的。比如我对这台计算机说,我明天要做韬涵小讲请你给我做一份PPT。它首先要听得懂我讲这句话是什么意思,我讲的这些中文表达的含义是什么,因为它需要把这些自然语言翻译成计算机能听得懂的语言,然后还要识别我想要的东西是什么,“帮我做一个PPT”,比如主题是关于人工智能的,然后人工智能自己会去检索“人工智能”是什么,再根据所有的检索结果,自己学习、理解什么是“人工智能”,再然后是做什么样的PPT等等。经过这一系列的学习过程,最后他能做出一个东西交给我。这一系列的过程,主要涉及到三方面的东西:第一、数据库。要有一个非常非常庞大的数据库供人工智能“学习”;第二、算法模型。也就是基于数据库“学习”的能力。比如我要做一个关于人工智能的 PPT,就需要人工智能根据一定的标准从海量的材料中检索有关的内容,然后进行分析,哪些是内容是与目标最相关的、最合适的;第三、计算。根据自己检索的结果做一个PPT出来,整个过程全部由计算机自己做出来。这就是为什么现在的人工智能的实现非常困难的原因。人工智能目前在法学领域中,首先是在法学研究当中的应用,主要利用这样的新技术辅助研究,属于实证研究的一类。这种新兴的实证研究有很多名字,比如分析法学、计算法学、计量法学或者数据法学,通过人工智能对海量的数据进行分析,以前我们人力没有办法统计的一些数据,依靠人工智能的力量进行分析,无限接近于全样本的研究。所谓的全样本就是与研究相关的全部数据,根据统计学的观点,数据越接近于全样本,得出来的结论正确率越高。以前人工时代我们几乎不可能做到全样本研究,但是现在大数据的发展,人工智能技术的成熟,就使得我们可以现在接近实现全样本研究。比如我们现在基于一些个案做类案的研究,过去的方法是进行抽样调查,例如从1万个案件当中抽取1000个或2000个样本进行研究。现在借助人工智能,我们可以对所有相关判例进行分析。这个工作量如果是用人工的话将无法想象,但是借助人工智能就可以实现。
第二个是我们律师都比较熟悉的一些应用,例如智慧法院等司法工具,现在已经有很多法院在做,包括我们使用平时使用的阿尔法系统也都属于人工智能的应用。未来可能有当事人直接到法院说对着人工智能机器人说我想立案,这个机器人就可以跟他交流,问她想立什么案子,民事还是刑事,说出你的立案理由等,然后这个机器人就可以帮他去立案,甚至可以直接帮他出一份起诉书。现在有些应用已经接近于实现这些目标了。
就人工智能的应用而言,以我自己为例,去年我发表的一篇文章就使用了人工智能大数据分析技术。这篇论文以新中国成立以来所颁布的法律做为研究样本,大概有34万条法律文本。通过对这些样本进行关键词的检索之后,得出约8万份与“营商环境”相关的,最后再对这8万份样本进行分析。这项研究使用了LDA、TF-IDF等算法检索出现频率较高的关键词,根据关键词出现的频率,计算每个文本跟目标文本之间的关联度,最后根据关联度做可视化分布图。例如下面这张图,上面有20个聚类,代表着20个主题,图上每一个点代表着一个文本,也就是一个法律法规。比如编号15的聚类的关键词是“税收”,中心点就是跟这个关键词关系最为紧密的一份法律法规,而其他与这个关键词相关的文本依其与中心点文本关联度聚集在周围,离这个中心越近的说明跟“税收”这个词关联度越高,靠边上的就代表关联度稍低一些。不同颜色代表着不同的主题聚类。
上述人工智能在法学研究中的应用使用了一项核心技术叫“自然语言分析”,英文叫做 NLP (natural language processing) 。人工智能之所以难,就在于要让计算机能听懂我们的自然语言,计算机理解自然语言的技术就被称为自然语言分析。回到刚才讲的“工智能为什么不智能”的问题,与自然语言分析这项技术目前在中文领域内的发展缓慢有很大关系。原因有以下几方面:
第一、汉语的难度。汉语是表意文字,不像英文是表音文字,每一个汉字都有它自己的含义。输入每一个汉字的时候,计算机都需要去理解这个字的含义,当这些文字组合在一起时,难度也会大幅提高。
第二、法律语言不统一。我国的法律语言目前还没有实现统一化,相信大家也能够感受得到,比如我们在法庭上辩论的时候,或者在写法律文书的时候,很多概念或理论并没有统一的定义或用法。再比如一些外文的法律词汇,每个学者都可以提出自己的翻译版本。甚至会为了创造新词而故意使用一个新概念。
第三、法律语料库不完备。这个问题与前两个问题相关,因为我们没有统一的法律语言或者法律术语,所以无法建立完备的语料库。另外一个很重要的原因,中国的法学本科生大都是文科背景,导致了法学人才缺乏理工科的知识背景,更缺少计算机科学与法学的交叉人才,因此这方面的技术发展是比较滞后的。法律自然语言分析的发展需要既懂计算机技术、又懂法律的专门人才才能做好。
第四、专用算法模型的欠缺,这个问题与第三个问题类似,不再展开了。
第五、个人非常在意的一个原因是预设价值的缺失。每一次自然语言分析,也就是人工智能需要确定找哪些东西的时候,都是需要我们对其进行价值预设,即应该依照怎样的标准去理解目标内容。这个理解的过程其实就是在进行价值判断,当一个词有不同的理解方式时,选择哪种理解方式或内容就代表着不同的价值取向,传达了不同的价值观。所以每一次做自然语言分析,特别是法律自然语言分析,如果要让计算机明白法律词汇的含义,一个前提是对有争议的概念确定其含义。而应当由谁去确定?谁又有权去确定?是不是只能由国家去解释,或者是做这些技术的人去解释,目前仍然没有定论。这是目前对于人工智能,特别是在司法中应用的时候,不仅是我们国家,在全世界都有这样的担忧。例如,其中的人工智能算法是否需要公开的问题。如果公开算法,很容易被有些人针对该算法诱导人工智能做出有利于自己的判断;但如果不公开,因为公众不知道一个结论是怎么算出的,难以消除公众对其中暗箱操作的怀疑。
三、个人看法
以下面两个图片为例:
第一个图片相信很多人不陌生,是权力游戏里的主角——龙妈,她身后是一条龙,彰显她的权力。
第二个图片,是中国古代皇帝身上穿的龙袍。这条龙印在龙袍身上同样是权力的象征。
这两个东西都是龙,也都是权力的象征。龙的英文是Dragon ,可是当我们说dragon的时候具体指的是哪条龙?对一个词义的理解的影响不是单纯地仅限于这一个词而已,它代表着是一种话语权。英文当中的dragon其实指是西方文化里边的龙,它往往是邪恶的象征,在西方神话里出现的时候通常是反派角色。而中国的龙恰恰相反,是祥瑞的象征,跟西方dragon的含义完全不同,所以我们有了一个专用词,Loong。这个Loong在清朝末期就出现了,就是为了对抗西方给我们贴的标签。所以对于同样的一个词怎么去解释,不仅仅是一个解释的问题,更是一种争夺话语权的问题。
这个问题可以结合下面的事例进一步说明。今年的2月25日,习总书记在中央政治局第三十七次集体学习上的讲话,专门讲到了人权的话题。这个话题以前很敏感的,但是今年是破冰之年,习总书记专门讲到,要“坚定不移的走中国人权发展道路,更好推动我国人权事业发展”,强调“人权是历史的、具体的、现实的,不能脱离不同国家的社会政治条件和历史文化传统空谈人权。评价一个国家是否有人权,不能以别的国家标准来衡量,更不能搞双重标准,甚至把人权当作干涉别国内政的政治工具。”而且还提出要“发展我国人权学科体系、学术体系、话语体系”。所以对于这样一个法律概念——人权。我们怎么去解释它,就不仅仅是一个学术问题,更是一个争夺话语权的问题。所以,在未来,我认为同时也是现在的当务之急之一,我国的法律职业共同体应推动法律术语的统一化、标准化。
首先要探索在通用语向法律术语转化的生成机制,即日常用语如何转化为法律术语。
其次,实现法律体系内部的统一性、完备性。至少要统一已有词汇的含义,这其实是非常有意义的:第一,可以避免很多无畏的争议;第二,限制司法权,通过对一些词义的标准化解释,可以限制司法解释不当的扩张。如果业届和学界对一个词的含义形成共识,司法解释就不能够随意的进行扩大或限缩。
再次,要开发专项的检索体系,推动案例汇编。现在在推进案例检索、类案检索、同案同判的工作,而在一些案件中,某一关键事实的定性,或者某一个关键事物的解释,就会对案件走向有很大影响。因此,未来也许不仅限于检索类案,可能会具体到对某一个词的含义怎么理解,某一个行为或者是某一个物品怎么理解进行检索,并提供给法官。
最后,建立中国特色社会主义法律话语体系。目前随着我国法治建设的发展,我们已经提出了很多专有的概念、理念,但还没有建立我国专属的法律话语体系。我国业界和学界在跟国外交流的时候还习惯用别人的观点、别人的概念。未来我们应该提出我们对某一个概念的看法和定义,这是一种话语权的争夺,对未来业界和学界的发展至关重要。