3) natural language understanding system
自然语言理解系统
5) nature language understanding
自然语言理解
1.
A model of Web mining based on nature language understanding;
一种基于自然语言理解的Web挖掘模型
2.
Practice of web mining based on nature language understanding;
自然语言理解在Web数据挖掘中的应用
3.
By nature language understanding,such as morpho.
提出了一种面向概念设计的专利知识挖掘方法,建立了统一的专利技术特征表示模型,利用词法分析、句法分析、语义分析等自然语言理解技术,抽取专利技术特征信息,通过不同层次的知识挖掘形成专利知识空间。
6) pseudo-nature language understanding
类自然语言理解
补充资料:自然语言书面理解系统
指人和计算机之间用自然语言书面对话的系统。从20世纪60年代初开始研究,早期使用关键词和模式匹配的方法,计算机只能应答有限的、固定格式的输入句,没有句法、语义分析和知识推理。70年代初取得突破。70年代中期到80年代初又继续有所进展。建成的系统较多,各自使用了不同的语法理论和计算机程序。其中有代表性的分述如下。
J.维诺格拉德的语言观及其SHRDLU系统
维诺格拉德于1972年在美国麻省理工学院建成SHRDLU系统,把语言分析和知识推理综合在一起,在自然语言理解的研究中跨出了重要的一步。维诺格拉德认为,人听到或看到一个句子是运用了全部知识和智力来理解的,包括句法、语义、上下文、主题知识和推理。计算机要理解自然语言也必须具有这些知识并使之相互作用。句法需要解决的问题是"语言究竟是怎样组织起来表达意义的?"而不是"怎样分析一个孤立的句子结构?"句法必须跟语义、推理密切配合,语义根据对客观世界的认识作出推论以指示句法分析。语义学是句法学和逻辑推理之间的桥梁,语义学的目的是研究意义的表达形式。
SHRDLU系统采用韩礼德的"系统语法",计算机根据句法特征识别输入句的态、式、语气等,按句型逐层分解到词为止;语义分析和知识推理同时配合,以排除歧义和误解。获取语义信息后查询知识库,执行指定的操作或作出应答。这个系统贮存 200条英语单词,能理解较复杂的英语句子。背景是 8块颜色、形状、大小各不相同的积木,一个放积木的盒子和一只机械手,因此一般称之为"积木世界"。计算机能根据人打字输入的指令或问题在屏幕上显示操作或应答。例如根据指令抓起红色长方形大积木,回答某块积木之上是否放着某种颜色的积木等。
W.A.伍兹的扩充转移网络及其LUNAR系统 伍兹于1970年提出 扩充转移网络(简称ATN),1972年在美国BBN 公司建成LUNAR系统。ATN是一种句法分析方法,也是一种计算机处理程序。生成语法缺乏短语结构中的规则和结构之间的直接联系;根据转换规则可能生成的语句又过多,构成"组合爆炸",而把生成语句的过程颠倒为分析语句的过程困难也不少,因此计算机无法应用。ATN 建立了英语部分句型的有限状态转移线路网络,同时设置了某些操作技术,使上下文相关,并能重新组合结构成分包括复写、添加、删略、换位等。如此即可应用转换规则,充分发挥转换语法的效能。图1~3是简化了的扩充转移网络示意图。
图1是句型网络。S是初始态,有两个走向:句首是名词短语就转入状态q1,如为助动词则转入状态q2。q1又有两个走向:连接动词到达q4,或连接助动词转入q3再连接动词到q4。q4是终结态(用斜线表示),句子可在此结束(不及物动词句),也可再连接NP到达终结态q5(及物动词句)。q5后还可能连接多个介词短语再回到q5。图2是名词短语网络。NP是初始态,也有两个走向:一条线路以限定词开始转入状态q6,q6可连接多个形容词之后再连接名词到达终结态q7,q7之后还可连接多个介词短语再回到q7。另一条线路是专名或代词,直接到达终结态q8。图3是介词短语网络。PP是初始态,由介词转入q9,连接名词短语到达终结态q10。
LUNAR系统贮存英语单词3500条,主题是查询阿波罗登月舱带回的月球泥石采样的化学成分,为地质学家检索信息服务。语句输入,由ATN分析,求出深层结构,凭以解释语义,并将语义信息编译成一种谓词演算查询语言,检索数据库求得答案输出。例如人问:"有多少种角砾岩含有橄榄石?"机答:"5种。"如再问是哪5种,即列举该5种样品的编号。LUNAR是第1个面向应用而又设计完善的系统。ATN已成为自然语言理解研究中广泛采用的著名方法,此后建成的不少系统,包括语音理解系统HWIM在内都以 ATN为基础。
R.C.尚克的概念从属论及据此建成的诸系统 美国学者尚克于1973年提出概念从属论(简称CD),同时在美国斯坦福人工智能实验室建成MARGIE系统;1975年尚克和他的同事在耶鲁大学建成SAM系统,1978年建成PAM系统,1979年建成FRUMP系统,1980年建成IPP系统。
CD的主要内容是:人脑中存在着某种概念基础,语言理解的过程就是把语句映射到概念基础中去的过程。概念基础具有完善的结构,能根据初始的输入预期可能的后续信息。要使计算机理解自然语言就必须研究概念结构及其映射规则。句法只起一个指引作用,无需详细分析。概念结构由概念及其从属关系构成。常用动词和形容词可抽象为少数"语义基元",表示行为和状态的基本概念。采用美国C.菲尔莫尔(1929~ )的"格语法",区分 5种格关系。 概念结构用图像标记法构成 CD表达式,而句中任何隐含的信息都必须在CD表达式中表现出来。例如:John eats the ice cream with a spoon(约翰用勺吃冰淇淋)的 CD表达式为:匔表示施动关系,INGEST表示"摄入"的语义基元。包括"吃 、喝 、吞、咽......"等词。表示受动关系,O是宾格。表示方向关系,D是方向格。表示工具关系,I是工具格。右端出现语义基元MOVE(移动),右下角出现名词 mouth(嘴),而句中并无这类词语,因为用勺不断把冰淇淋送入口中是本句固有的语义信息。这是CD跟其他析句方法的根本区别,在解释语句和演绎推理时获得显著成效。根据上述,将概念从属关系编入词典。语句输入,由句法指引找出主要动词和名词,查词典获得解释。例如输入Johnate the steak,查 eat条的注解为:代入句中名词(X代以John,Y代以steak)即可得到理解。 MARGIE系统按照概念从属论建成,是一个推理和语句解释的模型,能根据输入句推论出若干事实,包括原因、结果等。例如:输入"约翰给了玛丽一些阿司匹林",计算机即输出:"约翰相信玛丽需要阿司匹林。玛丽病了。"语句解释即计算机能用其他词来解释输入句。例如输入:"约翰杀了玛丽,是掐死的。"输出则为"约翰扼死了玛丽。约翰掐住玛丽,玛丽死了,因为她不能呼吸"。
此后尚克学派将概念从属论加以发展,用于篇章分析,提出"模本"、"计划"、"目的"和"主题"等概念,使计算机能理解简单的故事。一个模本概述一种日常活动中的标准事件序列,如"餐馆模本"包括顾客走进饭馆,坐在餐桌前,服务员送菜单,顾客点菜,吃饭,付款等。计划是完成目的的手段,如"去某处"是总目的,完成这一目的的各种方法如骑车、坐公共汽车、开小卧车等是子目的,应列入总目的项下。主题则是背景信息,可据以预期行为的目的,如"爱情主题"隐含彼此保护、避免对方遭受伤害的目的。
SAM 系统根据模本建成,能解释故事情节,回答问题,进行推论,并作出英语、汉语、俄语、荷兰语和西班牙语的摘要。例如输入"约翰走进一家饭馆。他坐了下来。他生气了。他走了。"输出为:"约翰饿了。他决定到饭馆去。他走进一家馆子。服务员没理他。约翰生气了。他决定离开这家饭馆。他走了。"计算机推论约翰离开饭馆是由于没有得到服务。因为"餐馆模本"中有服务员送菜单一条,而输入句中无此内容,却有约翰生气的句子。
PAM 系统由美国学者R.威林斯基建成,以目的和计划为理解故事的基础。也能解释故事情节,回答问题,作出推论和摘要。但无需模本中的事件序列,只提出目的和计划。如营救一个被巨龙拖走的人,只在"营救"这个总目的项下列举若干子目的,包括到达巨龙巢穴和杀死巨龙的各种方法,即可预期下一步的行为。同时能根据主题推论目的,例如输入"约翰爱玛丽。玛丽被巨龙拖走了。" PAM系统即可预期约翰要采取行动营救玛丽。句中虽无此内容,但据"爱情主题"可作出推论。
尚克学派又进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经验,综合句法、语义、知识、推理为一体,再建成FRUMP和IPP两个快速阅读系统。贮存2000多条英语单词,对输入故事无需逐字分析,而是跳过某些词语提取主要信息。目前已能从报刊上摘录一些新闻故事。
G.亨德雷克斯的LIFER分析法以及据此建成的系统 LIFER 分析法由美国学者 G.亨德雷克斯于 1977年在美国斯坦福研究所设计而成,提供了部分英语句型的句法 -语义框架,同时采用N.乔姆斯基的重写规则和伍兹的ATN 分析输入句。下图是3种句型的转移树,〈L.T.G〉是 LIFER top grammar 的缩写,表示初始符:其中〈ATTRIBUTE〉(属性),〈PERSON〉(人名)等非终结符属于语义成分。这种将某些语义成分嵌入句型的方法称为"语义语法"。用户可自行定义语义成分,构成语句以切合自己的用途,因而任何用户、任何主题均可应用。例如定义〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age, tall}, 即可理解输入句 What is the age of John?(约翰的年龄是多少?)Whatis Mary's height?(玛丽的身高是多少?)How tallis Bill? (比尔多高?)
根据 LIFER分析法已建成若干系统,包括医药咨询、作业安排、资源分布等主题。最庞大复杂的是斯坦福研究所的LADDER系统(1977),能联结美国各地许多计算机的数据库,用户无需知道数据贮存在何处及其贮存方式,直接用英语查询即可得到回答。斯坦福研究所的另一系统 HAWKEYE(1977)则属于图像识别和自然语言理解的综合模型,计算机能根据图像回答问题。例如指着地图问:"从这儿到那儿的距离是多少?"
预计80年代自然语言书面理解的研究将在篇章模型和综合模型两方面发展,并建立一些应用系统。篇章模型如尚克学派正在进一步研究的故事理解,综合模型如斯坦福研究所的 HAWKEYE。此外,联邦德国汉堡大学于1981年建成一个"交通动态对话系统",由彩色电视输入动态情景,用德语问答,主题是询问街上的交通情况。关于汉语书面理解的研究,见汉语书面理解系统。
参考书目
范继淹、徐志敏:《自然语言理解的理论和方法》,载《国外语言学》,1980,第 5期。
A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence, Pitman, London, 1981.
J.维诺格拉德的语言观及其SHRDLU系统
维诺格拉德于1972年在美国麻省理工学院建成SHRDLU系统,把语言分析和知识推理综合在一起,在自然语言理解的研究中跨出了重要的一步。维诺格拉德认为,人听到或看到一个句子是运用了全部知识和智力来理解的,包括句法、语义、上下文、主题知识和推理。计算机要理解自然语言也必须具有这些知识并使之相互作用。句法需要解决的问题是"语言究竟是怎样组织起来表达意义的?"而不是"怎样分析一个孤立的句子结构?"句法必须跟语义、推理密切配合,语义根据对客观世界的认识作出推论以指示句法分析。语义学是句法学和逻辑推理之间的桥梁,语义学的目的是研究意义的表达形式。
SHRDLU系统采用韩礼德的"系统语法",计算机根据句法特征识别输入句的态、式、语气等,按句型逐层分解到词为止;语义分析和知识推理同时配合,以排除歧义和误解。获取语义信息后查询知识库,执行指定的操作或作出应答。这个系统贮存 200条英语单词,能理解较复杂的英语句子。背景是 8块颜色、形状、大小各不相同的积木,一个放积木的盒子和一只机械手,因此一般称之为"积木世界"。计算机能根据人打字输入的指令或问题在屏幕上显示操作或应答。例如根据指令抓起红色长方形大积木,回答某块积木之上是否放着某种颜色的积木等。
W.A.伍兹的扩充转移网络及其LUNAR系统 伍兹于1970年提出 扩充转移网络(简称ATN),1972年在美国BBN 公司建成LUNAR系统。ATN是一种句法分析方法,也是一种计算机处理程序。生成语法缺乏短语结构中的规则和结构之间的直接联系;根据转换规则可能生成的语句又过多,构成"组合爆炸",而把生成语句的过程颠倒为分析语句的过程困难也不少,因此计算机无法应用。ATN 建立了英语部分句型的有限状态转移线路网络,同时设置了某些操作技术,使上下文相关,并能重新组合结构成分包括复写、添加、删略、换位等。如此即可应用转换规则,充分发挥转换语法的效能。图1~3是简化了的扩充转移网络示意图。
图1是句型网络。S是初始态,有两个走向:句首是名词短语就转入状态q1,如为助动词则转入状态q2。q1又有两个走向:连接动词到达q4,或连接助动词转入q3再连接动词到q4。q4是终结态(用斜线表示),句子可在此结束(不及物动词句),也可再连接NP到达终结态q5(及物动词句)。q5后还可能连接多个介词短语再回到q5。图2是名词短语网络。NP是初始态,也有两个走向:一条线路以限定词开始转入状态q6,q6可连接多个形容词之后再连接名词到达终结态q7,q7之后还可连接多个介词短语再回到q7。另一条线路是专名或代词,直接到达终结态q8。图3是介词短语网络。PP是初始态,由介词转入q9,连接名词短语到达终结态q10。
LUNAR系统贮存英语单词3500条,主题是查询阿波罗登月舱带回的月球泥石采样的化学成分,为地质学家检索信息服务。语句输入,由ATN分析,求出深层结构,凭以解释语义,并将语义信息编译成一种谓词演算查询语言,检索数据库求得答案输出。例如人问:"有多少种角砾岩含有橄榄石?"机答:"5种。"如再问是哪5种,即列举该5种样品的编号。LUNAR是第1个面向应用而又设计完善的系统。ATN已成为自然语言理解研究中广泛采用的著名方法,此后建成的不少系统,包括语音理解系统HWIM在内都以 ATN为基础。
R.C.尚克的概念从属论及据此建成的诸系统 美国学者尚克于1973年提出概念从属论(简称CD),同时在美国斯坦福人工智能实验室建成MARGIE系统;1975年尚克和他的同事在耶鲁大学建成SAM系统,1978年建成PAM系统,1979年建成FRUMP系统,1980年建成IPP系统。
CD的主要内容是:人脑中存在着某种概念基础,语言理解的过程就是把语句映射到概念基础中去的过程。概念基础具有完善的结构,能根据初始的输入预期可能的后续信息。要使计算机理解自然语言就必须研究概念结构及其映射规则。句法只起一个指引作用,无需详细分析。概念结构由概念及其从属关系构成。常用动词和形容词可抽象为少数"语义基元",表示行为和状态的基本概念。采用美国C.菲尔莫尔(1929~ )的"格语法",区分 5种格关系。 概念结构用图像标记法构成 CD表达式,而句中任何隐含的信息都必须在CD表达式中表现出来。例如:John eats the ice cream with a spoon(约翰用勺吃冰淇淋)的 CD表达式为:匔表示施动关系,INGEST表示"摄入"的语义基元。包括"吃 、喝 、吞、咽......"等词。表示受动关系,O是宾格。表示方向关系,D是方向格。表示工具关系,I是工具格。右端出现语义基元MOVE(移动),右下角出现名词 mouth(嘴),而句中并无这类词语,因为用勺不断把冰淇淋送入口中是本句固有的语义信息。这是CD跟其他析句方法的根本区别,在解释语句和演绎推理时获得显著成效。根据上述,将概念从属关系编入词典。语句输入,由句法指引找出主要动词和名词,查词典获得解释。例如输入Johnate the steak,查 eat条的注解为:代入句中名词(X代以John,Y代以steak)即可得到理解。 MARGIE系统按照概念从属论建成,是一个推理和语句解释的模型,能根据输入句推论出若干事实,包括原因、结果等。例如:输入"约翰给了玛丽一些阿司匹林",计算机即输出:"约翰相信玛丽需要阿司匹林。玛丽病了。"语句解释即计算机能用其他词来解释输入句。例如输入:"约翰杀了玛丽,是掐死的。"输出则为"约翰扼死了玛丽。约翰掐住玛丽,玛丽死了,因为她不能呼吸"。
此后尚克学派将概念从属论加以发展,用于篇章分析,提出"模本"、"计划"、"目的"和"主题"等概念,使计算机能理解简单的故事。一个模本概述一种日常活动中的标准事件序列,如"餐馆模本"包括顾客走进饭馆,坐在餐桌前,服务员送菜单,顾客点菜,吃饭,付款等。计划是完成目的的手段,如"去某处"是总目的,完成这一目的的各种方法如骑车、坐公共汽车、开小卧车等是子目的,应列入总目的项下。主题则是背景信息,可据以预期行为的目的,如"爱情主题"隐含彼此保护、避免对方遭受伤害的目的。
SAM 系统根据模本建成,能解释故事情节,回答问题,进行推论,并作出英语、汉语、俄语、荷兰语和西班牙语的摘要。例如输入"约翰走进一家饭馆。他坐了下来。他生气了。他走了。"输出为:"约翰饿了。他决定到饭馆去。他走进一家馆子。服务员没理他。约翰生气了。他决定离开这家饭馆。他走了。"计算机推论约翰离开饭馆是由于没有得到服务。因为"餐馆模本"中有服务员送菜单一条,而输入句中无此内容,却有约翰生气的句子。
PAM 系统由美国学者R.威林斯基建成,以目的和计划为理解故事的基础。也能解释故事情节,回答问题,作出推论和摘要。但无需模本中的事件序列,只提出目的和计划。如营救一个被巨龙拖走的人,只在"营救"这个总目的项下列举若干子目的,包括到达巨龙巢穴和杀死巨龙的各种方法,即可预期下一步的行为。同时能根据主题推论目的,例如输入"约翰爱玛丽。玛丽被巨龙拖走了。" PAM系统即可预期约翰要采取行动营救玛丽。句中虽无此内容,但据"爱情主题"可作出推论。
尚克学派又进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经验,综合句法、语义、知识、推理为一体,再建成FRUMP和IPP两个快速阅读系统。贮存2000多条英语单词,对输入故事无需逐字分析,而是跳过某些词语提取主要信息。目前已能从报刊上摘录一些新闻故事。
G.亨德雷克斯的LIFER分析法以及据此建成的系统 LIFER 分析法由美国学者 G.亨德雷克斯于 1977年在美国斯坦福研究所设计而成,提供了部分英语句型的句法 -语义框架,同时采用N.乔姆斯基的重写规则和伍兹的ATN 分析输入句。下图是3种句型的转移树,〈L.T.G〉是 LIFER top grammar 的缩写,表示初始符:其中〈ATTRIBUTE〉(属性),〈PERSON〉(人名)等非终结符属于语义成分。这种将某些语义成分嵌入句型的方法称为"语义语法"。用户可自行定义语义成分,构成语句以切合自己的用途,因而任何用户、任何主题均可应用。例如定义〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age, tall}, 即可理解输入句 What is the age of John?(约翰的年龄是多少?)Whatis Mary's height?(玛丽的身高是多少?)How tallis Bill? (比尔多高?)
根据 LIFER分析法已建成若干系统,包括医药咨询、作业安排、资源分布等主题。最庞大复杂的是斯坦福研究所的LADDER系统(1977),能联结美国各地许多计算机的数据库,用户无需知道数据贮存在何处及其贮存方式,直接用英语查询即可得到回答。斯坦福研究所的另一系统 HAWKEYE(1977)则属于图像识别和自然语言理解的综合模型,计算机能根据图像回答问题。例如指着地图问:"从这儿到那儿的距离是多少?"
预计80年代自然语言书面理解的研究将在篇章模型和综合模型两方面发展,并建立一些应用系统。篇章模型如尚克学派正在进一步研究的故事理解,综合模型如斯坦福研究所的 HAWKEYE。此外,联邦德国汉堡大学于1981年建成一个"交通动态对话系统",由彩色电视输入动态情景,用德语问答,主题是询问街上的交通情况。关于汉语书面理解的研究,见汉语书面理解系统。
参考书目
范继淹、徐志敏:《自然语言理解的理论和方法》,载《国外语言学》,1980,第 5期。
A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence, Pitman, London, 1981.
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条