1) Natural Language Generation System
自然语言生成系统
1.
According to the problems that Natural Language Generation System must be re-designed when task domain waschanged, on the basis of research from task domain processing, linguistics processing and text generation, it was proposed anew method of transplantable Natural Language Generation System based on special task domain.
针对自然语言生成系统在任务域不同时需要对系统进行重新设计的问题,本文从可移植的角度,对自然语言生成系统中的任务域处理模块、语言学处理模块、文本生成模块进行了研究,提出了一种基于特定任务域具有可移植的自然语言生成系统的实现方法,并通过实验验证了该方法的可行性。
2) natural language generation
自然语言生成
1.
The Multi-View Architecture of Natural Language Generation System;
自然语言生成系统的多视图体系结构
2.
In this paper, the transplantable design method of natural language generation system is presented based on the research from task domain processing , linguistics processing and text generation, furthermore, by the experiment, we could concluded that the new design method is effective and reasonable, preliminary results are provided.
从系统可移植性的角度对自然语言生成系统的任务域处理模块、语言学处理模块、文本生成模块进行研究 ,提出了具有一定可移植性的自然语言生成系统的设计方法 ,并通过实验验证了方法的可行性 ,最后给出了实验结
3) NLG
自然语言生成
1.
Natural language generation(NLG)technology is a branch of artificial intelligence(AI) ,its application foreground is very wide.
自然语言生成技术是人工智能(AI)中应用前景非常广阔的一个领域,利用该技术实现作战文书“智能”式的生成,是文书生成的一个有效方法,它包括内容规划、句子规划和表层实现三个部分。
2.
Natural language generation (NLG) technology is meant the computer automatic production of a segment text.
自然语言生成技术就是模仿人自动产生一段文本 ,它是人工智能 (AI)中应用前景非常广阔的一个领域 ,利用该技术实现作战文书“智能”式的生成 ,是文书生成的一种有效方
3.
It will be an effective method to generate Operation Document by Natural Language Generating (NLG)theory.
作战文书拟制是 C3I系统中的重要工作 ,利用自然语言生成理论实现作战文书的自动生成可大大提高文书拟制的效率。
4) nonnatural language system
非自然语言系统
5) natural language system
自然语言系统
补充资料:自然语言书面理解系统
指人和计算机之间用自然语言书面对话的系统。从20世纪60年代初开始研究,早期使用关键词和模式匹配的方法,计算机只能应答有限的、固定格式的输入句,没有句法、语义分析和知识推理。70年代初取得突破。70年代中期到80年代初又继续有所进展。建成的系统较多,各自使用了不同的语法理论和计算机程序。其中有代表性的分述如下。
J.维诺格拉德的语言观及其SHRDLU系统
维诺格拉德于1972年在美国麻省理工学院建成SHRDLU系统,把语言分析和知识推理综合在一起,在自然语言理解的研究中跨出了重要的一步。维诺格拉德认为,人听到或看到一个句子是运用了全部知识和智力来理解的,包括句法、语义、上下文、主题知识和推理。计算机要理解自然语言也必须具有这些知识并使之相互作用。句法需要解决的问题是"语言究竟是怎样组织起来表达意义的?"而不是"怎样分析一个孤立的句子结构?"句法必须跟语义、推理密切配合,语义根据对客观世界的认识作出推论以指示句法分析。语义学是句法学和逻辑推理之间的桥梁,语义学的目的是研究意义的表达形式。
SHRDLU系统采用韩礼德的"系统语法",计算机根据句法特征识别输入句的态、式、语气等,按句型逐层分解到词为止;语义分析和知识推理同时配合,以排除歧义和误解。获取语义信息后查询知识库,执行指定的操作或作出应答。这个系统贮存 200条英语单词,能理解较复杂的英语句子。背景是 8块颜色、形状、大小各不相同的积木,一个放积木的盒子和一只机械手,因此一般称之为"积木世界"。计算机能根据人打字输入的指令或问题在屏幕上显示操作或应答。例如根据指令抓起红色长方形大积木,回答某块积木之上是否放着某种颜色的积木等。
W.A.伍兹的扩充转移网络及其LUNAR系统 伍兹于1970年提出 扩充转移网络(简称ATN),1972年在美国BBN 公司建成LUNAR系统。ATN是一种句法分析方法,也是一种计算机处理程序。生成语法缺乏短语结构中的规则和结构之间的直接联系;根据转换规则可能生成的语句又过多,构成"组合爆炸",而把生成语句的过程颠倒为分析语句的过程困难也不少,因此计算机无法应用。ATN 建立了英语部分句型的有限状态转移线路网络,同时设置了某些操作技术,使上下文相关,并能重新组合结构成分包括复写、添加、删略、换位等。如此即可应用转换规则,充分发挥转换语法的效能。图1~3是简化了的扩充转移网络示意图。
图1是句型网络。S是初始态,有两个走向:句首是名词短语就转入状态q1,如为助动词则转入状态q2。q1又有两个走向:连接动词到达q4,或连接助动词转入q3再连接动词到q4。q4是终结态(用斜线表示),句子可在此结束(不及物动词句),也可再连接NP到达终结态q5(及物动词句)。q5后还可能连接多个介词短语再回到q5。图2是名词短语网络。NP是初始态,也有两个走向:一条线路以限定词开始转入状态q6,q6可连接多个形容词之后再连接名词到达终结态q7,q7之后还可连接多个介词短语再回到q7。另一条线路是专名或代词,直接到达终结态q8。图3是介词短语网络。PP是初始态,由介词转入q9,连接名词短语到达终结态q10。
LUNAR系统贮存英语单词3500条,主题是查询阿波罗登月舱带回的月球泥石采样的化学成分,为地质学家检索信息服务。语句输入,由ATN分析,求出深层结构,凭以解释语义,并将语义信息编译成一种谓词演算查询语言,检索数据库求得答案输出。例如人问:"有多少种角砾岩含有橄榄石?"机答:"5种。"如再问是哪5种,即列举该5种样品的编号。LUNAR是第1个面向应用而又设计完善的系统。ATN已成为自然语言理解研究中广泛采用的著名方法,此后建成的不少系统,包括语音理解系统HWIM在内都以 ATN为基础。
R.C.尚克的概念从属论及据此建成的诸系统 美国学者尚克于1973年提出概念从属论(简称CD),同时在美国斯坦福人工智能实验室建成MARGIE系统;1975年尚克和他的同事在耶鲁大学建成SAM系统,1978年建成PAM系统,1979年建成FRUMP系统,1980年建成IPP系统。
CD的主要内容是:人脑中存在着某种概念基础,语言理解的过程就是把语句映射到概念基础中去的过程。概念基础具有完善的结构,能根据初始的输入预期可能的后续信息。要使计算机理解自然语言就必须研究概念结构及其映射规则。句法只起一个指引作用,无需详细分析。概念结构由概念及其从属关系构成。常用动词和形容词可抽象为少数"语义基元",表示行为和状态的基本概念。采用美国C.菲尔莫尔(1929~ )的"格语法",区分 5种格关系。 概念结构用图像标记法构成 CD表达式,而句中任何隐含的信息都必须在CD表达式中表现出来。例如:John eats the ice cream with a spoon(约翰用勺吃冰淇淋)的 CD表达式为:匔表示施动关系,INGEST表示"摄入"的语义基元。包括"吃 、喝 、吞、咽......"等词。表示受动关系,O是宾格。表示方向关系,D是方向格。表示工具关系,I是工具格。右端出现语义基元MOVE(移动),右下角出现名词 mouth(嘴),而句中并无这类词语,因为用勺不断把冰淇淋送入口中是本句固有的语义信息。这是CD跟其他析句方法的根本区别,在解释语句和演绎推理时获得显著成效。根据上述,将概念从属关系编入词典。语句输入,由句法指引找出主要动词和名词,查词典获得解释。例如输入Johnate the steak,查 eat条的注解为:代入句中名词(X代以John,Y代以steak)即可得到理解。 MARGIE系统按照概念从属论建成,是一个推理和语句解释的模型,能根据输入句推论出若干事实,包括原因、结果等。例如:输入"约翰给了玛丽一些阿司匹林",计算机即输出:"约翰相信玛丽需要阿司匹林。玛丽病了。"语句解释即计算机能用其他词来解释输入句。例如输入:"约翰杀了玛丽,是掐死的。"输出则为"约翰扼死了玛丽。约翰掐住玛丽,玛丽死了,因为她不能呼吸"。
此后尚克学派将概念从属论加以发展,用于篇章分析,提出"模本"、"计划"、"目的"和"主题"等概念,使计算机能理解简单的故事。一个模本概述一种日常活动中的标准事件序列,如"餐馆模本"包括顾客走进饭馆,坐在餐桌前,服务员送菜单,顾客点菜,吃饭,付款等。计划是完成目的的手段,如"去某处"是总目的,完成这一目的的各种方法如骑车、坐公共汽车、开小卧车等是子目的,应列入总目的项下。主题则是背景信息,可据以预期行为的目的,如"爱情主题"隐含彼此保护、避免对方遭受伤害的目的。
SAM 系统根据模本建成,能解释故事情节,回答问题,进行推论,并作出英语、汉语、俄语、荷兰语和西班牙语的摘要。例如输入"约翰走进一家饭馆。他坐了下来。他生气了。他走了。"输出为:"约翰饿了。他决定到饭馆去。他走进一家馆子。服务员没理他。约翰生气了。他决定离开这家饭馆。他走了。"计算机推论约翰离开饭馆是由于没有得到服务。因为"餐馆模本"中有服务员送菜单一条,而输入句中无此内容,却有约翰生气的句子。
PAM 系统由美国学者R.威林斯基建成,以目的和计划为理解故事的基础。也能解释故事情节,回答问题,作出推论和摘要。但无需模本中的事件序列,只提出目的和计划。如营救一个被巨龙拖走的人,只在"营救"这个总目的项下列举若干子目的,包括到达巨龙巢穴和杀死巨龙的各种方法,即可预期下一步的行为。同时能根据主题推论目的,例如输入"约翰爱玛丽。玛丽被巨龙拖走了。" PAM系统即可预期约翰要采取行动营救玛丽。句中虽无此内容,但据"爱情主题"可作出推论。
尚克学派又进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经验,综合句法、语义、知识、推理为一体,再建成FRUMP和IPP两个快速阅读系统。贮存2000多条英语单词,对输入故事无需逐字分析,而是跳过某些词语提取主要信息。目前已能从报刊上摘录一些新闻故事。
G.亨德雷克斯的LIFER分析法以及据此建成的系统 LIFER 分析法由美国学者 G.亨德雷克斯于 1977年在美国斯坦福研究所设计而成,提供了部分英语句型的句法 -语义框架,同时采用N.乔姆斯基的重写规则和伍兹的ATN 分析输入句。下图是3种句型的转移树,〈L.T.G〉是 LIFER top grammar 的缩写,表示初始符:其中〈ATTRIBUTE〉(属性),〈PERSON〉(人名)等非终结符属于语义成分。这种将某些语义成分嵌入句型的方法称为"语义语法"。用户可自行定义语义成分,构成语句以切合自己的用途,因而任何用户、任何主题均可应用。例如定义〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age, tall}, 即可理解输入句 What is the age of John?(约翰的年龄是多少?)Whatis Mary's height?(玛丽的身高是多少?)How tallis Bill? (比尔多高?)
根据 LIFER分析法已建成若干系统,包括医药咨询、作业安排、资源分布等主题。最庞大复杂的是斯坦福研究所的LADDER系统(1977),能联结美国各地许多计算机的数据库,用户无需知道数据贮存在何处及其贮存方式,直接用英语查询即可得到回答。斯坦福研究所的另一系统 HAWKEYE(1977)则属于图像识别和自然语言理解的综合模型,计算机能根据图像回答问题。例如指着地图问:"从这儿到那儿的距离是多少?"
预计80年代自然语言书面理解的研究将在篇章模型和综合模型两方面发展,并建立一些应用系统。篇章模型如尚克学派正在进一步研究的故事理解,综合模型如斯坦福研究所的 HAWKEYE。此外,联邦德国汉堡大学于1981年建成一个"交通动态对话系统",由彩色电视输入动态情景,用德语问答,主题是询问街上的交通情况。关于汉语书面理解的研究,见汉语书面理解系统。
参考书目
范继淹、徐志敏:《自然语言理解的理论和方法》,载《国外语言学》,1980,第 5期。
A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence, Pitman, London, 1981.
J.维诺格拉德的语言观及其SHRDLU系统
维诺格拉德于1972年在美国麻省理工学院建成SHRDLU系统,把语言分析和知识推理综合在一起,在自然语言理解的研究中跨出了重要的一步。维诺格拉德认为,人听到或看到一个句子是运用了全部知识和智力来理解的,包括句法、语义、上下文、主题知识和推理。计算机要理解自然语言也必须具有这些知识并使之相互作用。句法需要解决的问题是"语言究竟是怎样组织起来表达意义的?"而不是"怎样分析一个孤立的句子结构?"句法必须跟语义、推理密切配合,语义根据对客观世界的认识作出推论以指示句法分析。语义学是句法学和逻辑推理之间的桥梁,语义学的目的是研究意义的表达形式。
SHRDLU系统采用韩礼德的"系统语法",计算机根据句法特征识别输入句的态、式、语气等,按句型逐层分解到词为止;语义分析和知识推理同时配合,以排除歧义和误解。获取语义信息后查询知识库,执行指定的操作或作出应答。这个系统贮存 200条英语单词,能理解较复杂的英语句子。背景是 8块颜色、形状、大小各不相同的积木,一个放积木的盒子和一只机械手,因此一般称之为"积木世界"。计算机能根据人打字输入的指令或问题在屏幕上显示操作或应答。例如根据指令抓起红色长方形大积木,回答某块积木之上是否放着某种颜色的积木等。
W.A.伍兹的扩充转移网络及其LUNAR系统 伍兹于1970年提出 扩充转移网络(简称ATN),1972年在美国BBN 公司建成LUNAR系统。ATN是一种句法分析方法,也是一种计算机处理程序。生成语法缺乏短语结构中的规则和结构之间的直接联系;根据转换规则可能生成的语句又过多,构成"组合爆炸",而把生成语句的过程颠倒为分析语句的过程困难也不少,因此计算机无法应用。ATN 建立了英语部分句型的有限状态转移线路网络,同时设置了某些操作技术,使上下文相关,并能重新组合结构成分包括复写、添加、删略、换位等。如此即可应用转换规则,充分发挥转换语法的效能。图1~3是简化了的扩充转移网络示意图。
图1是句型网络。S是初始态,有两个走向:句首是名词短语就转入状态q1,如为助动词则转入状态q2。q1又有两个走向:连接动词到达q4,或连接助动词转入q3再连接动词到q4。q4是终结态(用斜线表示),句子可在此结束(不及物动词句),也可再连接NP到达终结态q5(及物动词句)。q5后还可能连接多个介词短语再回到q5。图2是名词短语网络。NP是初始态,也有两个走向:一条线路以限定词开始转入状态q6,q6可连接多个形容词之后再连接名词到达终结态q7,q7之后还可连接多个介词短语再回到q7。另一条线路是专名或代词,直接到达终结态q8。图3是介词短语网络。PP是初始态,由介词转入q9,连接名词短语到达终结态q10。
LUNAR系统贮存英语单词3500条,主题是查询阿波罗登月舱带回的月球泥石采样的化学成分,为地质学家检索信息服务。语句输入,由ATN分析,求出深层结构,凭以解释语义,并将语义信息编译成一种谓词演算查询语言,检索数据库求得答案输出。例如人问:"有多少种角砾岩含有橄榄石?"机答:"5种。"如再问是哪5种,即列举该5种样品的编号。LUNAR是第1个面向应用而又设计完善的系统。ATN已成为自然语言理解研究中广泛采用的著名方法,此后建成的不少系统,包括语音理解系统HWIM在内都以 ATN为基础。
R.C.尚克的概念从属论及据此建成的诸系统 美国学者尚克于1973年提出概念从属论(简称CD),同时在美国斯坦福人工智能实验室建成MARGIE系统;1975年尚克和他的同事在耶鲁大学建成SAM系统,1978年建成PAM系统,1979年建成FRUMP系统,1980年建成IPP系统。
CD的主要内容是:人脑中存在着某种概念基础,语言理解的过程就是把语句映射到概念基础中去的过程。概念基础具有完善的结构,能根据初始的输入预期可能的后续信息。要使计算机理解自然语言就必须研究概念结构及其映射规则。句法只起一个指引作用,无需详细分析。概念结构由概念及其从属关系构成。常用动词和形容词可抽象为少数"语义基元",表示行为和状态的基本概念。采用美国C.菲尔莫尔(1929~ )的"格语法",区分 5种格关系。 概念结构用图像标记法构成 CD表达式,而句中任何隐含的信息都必须在CD表达式中表现出来。例如:John eats the ice cream with a spoon(约翰用勺吃冰淇淋)的 CD表达式为:匔表示施动关系,INGEST表示"摄入"的语义基元。包括"吃 、喝 、吞、咽......"等词。表示受动关系,O是宾格。表示方向关系,D是方向格。表示工具关系,I是工具格。右端出现语义基元MOVE(移动),右下角出现名词 mouth(嘴),而句中并无这类词语,因为用勺不断把冰淇淋送入口中是本句固有的语义信息。这是CD跟其他析句方法的根本区别,在解释语句和演绎推理时获得显著成效。根据上述,将概念从属关系编入词典。语句输入,由句法指引找出主要动词和名词,查词典获得解释。例如输入Johnate the steak,查 eat条的注解为:代入句中名词(X代以John,Y代以steak)即可得到理解。 MARGIE系统按照概念从属论建成,是一个推理和语句解释的模型,能根据输入句推论出若干事实,包括原因、结果等。例如:输入"约翰给了玛丽一些阿司匹林",计算机即输出:"约翰相信玛丽需要阿司匹林。玛丽病了。"语句解释即计算机能用其他词来解释输入句。例如输入:"约翰杀了玛丽,是掐死的。"输出则为"约翰扼死了玛丽。约翰掐住玛丽,玛丽死了,因为她不能呼吸"。
此后尚克学派将概念从属论加以发展,用于篇章分析,提出"模本"、"计划"、"目的"和"主题"等概念,使计算机能理解简单的故事。一个模本概述一种日常活动中的标准事件序列,如"餐馆模本"包括顾客走进饭馆,坐在餐桌前,服务员送菜单,顾客点菜,吃饭,付款等。计划是完成目的的手段,如"去某处"是总目的,完成这一目的的各种方法如骑车、坐公共汽车、开小卧车等是子目的,应列入总目的项下。主题则是背景信息,可据以预期行为的目的,如"爱情主题"隐含彼此保护、避免对方遭受伤害的目的。
SAM 系统根据模本建成,能解释故事情节,回答问题,进行推论,并作出英语、汉语、俄语、荷兰语和西班牙语的摘要。例如输入"约翰走进一家饭馆。他坐了下来。他生气了。他走了。"输出为:"约翰饿了。他决定到饭馆去。他走进一家馆子。服务员没理他。约翰生气了。他决定离开这家饭馆。他走了。"计算机推论约翰离开饭馆是由于没有得到服务。因为"餐馆模本"中有服务员送菜单一条,而输入句中无此内容,却有约翰生气的句子。
PAM 系统由美国学者R.威林斯基建成,以目的和计划为理解故事的基础。也能解释故事情节,回答问题,作出推论和摘要。但无需模本中的事件序列,只提出目的和计划。如营救一个被巨龙拖走的人,只在"营救"这个总目的项下列举若干子目的,包括到达巨龙巢穴和杀死巨龙的各种方法,即可预期下一步的行为。同时能根据主题推论目的,例如输入"约翰爱玛丽。玛丽被巨龙拖走了。" PAM系统即可预期约翰要采取行动营救玛丽。句中虽无此内容,但据"爱情主题"可作出推论。
尚克学派又进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经验,综合句法、语义、知识、推理为一体,再建成FRUMP和IPP两个快速阅读系统。贮存2000多条英语单词,对输入故事无需逐字分析,而是跳过某些词语提取主要信息。目前已能从报刊上摘录一些新闻故事。
G.亨德雷克斯的LIFER分析法以及据此建成的系统 LIFER 分析法由美国学者 G.亨德雷克斯于 1977年在美国斯坦福研究所设计而成,提供了部分英语句型的句法 -语义框架,同时采用N.乔姆斯基的重写规则和伍兹的ATN 分析输入句。下图是3种句型的转移树,〈L.T.G〉是 LIFER top grammar 的缩写,表示初始符:其中〈ATTRIBUTE〉(属性),〈PERSON〉(人名)等非终结符属于语义成分。这种将某些语义成分嵌入句型的方法称为"语义语法"。用户可自行定义语义成分,构成语句以切合自己的用途,因而任何用户、任何主题均可应用。例如定义〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age, tall}, 即可理解输入句 What is the age of John?(约翰的年龄是多少?)Whatis Mary's height?(玛丽的身高是多少?)How tallis Bill? (比尔多高?)
根据 LIFER分析法已建成若干系统,包括医药咨询、作业安排、资源分布等主题。最庞大复杂的是斯坦福研究所的LADDER系统(1977),能联结美国各地许多计算机的数据库,用户无需知道数据贮存在何处及其贮存方式,直接用英语查询即可得到回答。斯坦福研究所的另一系统 HAWKEYE(1977)则属于图像识别和自然语言理解的综合模型,计算机能根据图像回答问题。例如指着地图问:"从这儿到那儿的距离是多少?"
预计80年代自然语言书面理解的研究将在篇章模型和综合模型两方面发展,并建立一些应用系统。篇章模型如尚克学派正在进一步研究的故事理解,综合模型如斯坦福研究所的 HAWKEYE。此外,联邦德国汉堡大学于1981年建成一个"交通动态对话系统",由彩色电视输入动态情景,用德语问答,主题是询问街上的交通情况。关于汉语书面理解的研究,见汉语书面理解系统。
参考书目
范继淹、徐志敏:《自然语言理解的理论和方法》,载《国外语言学》,1980,第 5期。
A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence, Pitman, London, 1981.
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条