中文地址识别及标准化处理方法开题报告

 2021-08-14 02:08

1. 研究目的与意义(文献综述)

随着互联网的发展,网络上的数据呈现指数级地增长,其中包括大量的地址数据。地址是一个涵盖丰富信息的变量,大部分中文地址都是基于自由文本式的、无显式的结构且隐含语义性地附加说明信息,这使得使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段,因此具有重要的现实意义。

20世纪60年代中期,美国国情普查局开发的“双重独立地图编码系统”(dime),在gis技术的发展史上具有里程碑的意义。之后,dime系统发展为著名的地址地理编码与参照系统(tiger),成为美国地址地理编码的标准。在地址地理编码技术的发展过程中,工业界的推动起到了很大的作用。国外几大gis软件产商都在软件产品中加入了地址地理编码模块,比如,arcgis的geoc-oding和mapinfo的mapmaker。澳大利亚以高质量的全国地址地理编码库为基础,构建了基于隐马尔可夫的地址要素解析器和基于规则的地址匹配器,开发了较为实用的

地址地理编码系统。国际标准化组织开放地理信息系统协会(ogc)制定了一系列的规范,定义了地址地理编码的整体框架,基于xml的地址地理编码服务、地址地理编码请求、服务接口以及地名与地理坐标的转换服务等等。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1.研究的基本内容

2.1.1.自由文本

结构化文本或半结构化文本是指具有良好的布局结构,其中特定的关系目标易于通过一个固定的模式进行描述的文本。XML和HTML文件都是我们常见的结构化文本文件。因此计算机比较容易自动化处理这类文本。

自由文本是指是指由合乎某种语言的表达规范的自然语言语句

组成的文本。与结构化文本不同,即使对同一类事件,自由文本的表达方式也是灵活多样,因而很难直接从未经任何处理的自由文本中学出关系模式。因此,要对自由文本进行相应的语法和语义处理后,才能够进一步挖掘其中的信息。

2.1.2.自然语言处理

自然语言理解又被称为自言语言处理或计算语言学,它是人工智能领域中的前言难题之一。自然语言理解研究可以使得计算机在一定程度上理解人类自然语言,从而帮助人们完成机器翻译、信息提取、信息检索、文本分类等各项工作。

自然处理技术最大的难点在于自然语言中有各种级别的歧义难以消除,包括词汇级别、句法级别和语义级别。歧义的存在使计算机在“理解”自然语言时发生了困难,并可能出现了错误。由于中文本身的特点,中文分词、歧义处理等工作的难度大大增加。

1.1.3.自由文本地址数据处理

自由文本地址的识别是解析出文本中包含的地址和附加说明信息;标准化是将地址切分标注成语义地址元素集。文本地址通常隐含由地址语义元素组成的语义模式,例如“省”,“市”,“区”,“街道”,“方位信息”等。然而,中文地址元素之间无明确的分隔符,并且中文地址元素识别面临着完整性、多样性、歧义性等多种困难。因此将纯文本地址切分识别成标准化的语义地址元素要做很多工作。

2.2.研究目标

将自由文本地址数据正确地依次分割成省、地区、县区、街镇乡、路、路号、楼号、单元号、户号、备注数据。

例如:将“博罗县园洲镇园洲大道如一酒店正对面(老锦记火锅城隔壁)”分割成:

地区

县区

街道乡

路号

楼号

单元号

户号

备注数据

广东省

惠州市

博罗县

园洲镇

园洲大道

如一酒店

Null

Null

Null

正对面老锦记火锅城隔壁

2.3.拟采用的技术方案

采用基于规则的方法进行中文地址识别和标准化。中文地址基本上按照地址要素的地理区域范围由大到小排列,包括四个构成部分:

(1)行政区划:由乡镇以上的行政区域由大到小排序。按照“中华人民共和国行政区代码”(GB2260-1995),行政区划划分为四级:第一级为省、自治区、直辖市和特别行政区;第二级为市、地区、自治州、盟及国家直辖市所属市辖区和县;第三级为县、市辖区、县级市、旗;第四级为乡、镇、村。

(2)街道:主要是指路名和街道名。

(3)门楼牌号:主要是指楼号、单元号、户号等。

(4)补充信息:在描述地址的时候,人们往往会提供一些其他的信息,如:方位、参照物等。

由于地址的每个构成部分都有自己独特的特征字,如:省、市、县、区、路、号等,所以可以根据这些特征字对地址数据进行分割和标准化,步骤如下:

1)构建全国省、市、区(县)地址数据库,用于补全缺省信息。

2)构建地址要素特征字和附属特征字集合。

3)制定地址要素解析规则。

4)进行数据清洗。

5)对自由文本地址数据进行中文分词。

6)基于规则解析地址数据。

3. 研究计划与安排

1)2016/3/5—2016/3/8:进一步阅读文献,并分析和总结;优化技术路线;

2)2016/3/9—2016/3/12:进行需求分析,完成需求分析报告;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]姚心宇,吕岳.中文地址识别系统中的地址表达与匹配

[2]宋子辉.自然语言理解的中文地址匹配算法,遥感学报,2013年04期

[3]张雪英基于规则的中文地址要素解析方法,地球信息科学学报,2010年2月

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。