从保加利亚医学文献谈起结构化信息抽取外文翻译资料

 2022-11-24 16:01:23

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


VERSITA

保加利亚科学院

控制论与信息技术第12卷,第4卷

索菲亚·2012 印刷ISSN:1311-9702;在线ISSN:1314-4081.

DOI:102478/CAIT-2012-030

从保加利亚医学文献谈起结构化信息抽取

斯维特拉博伊切娃

保加利亚美国大学,1 Georgi Izmirliev Sq.,布拉戈耶夫格勒2700

电子邮件:sBytCheVaa@ Aubg.bg

摘要:从保加利亚患者病历(PRS)中提出了一种信息抽取方法。电子格式中的专有名词与资源匮乏是当前病人任务中的一些障碍。结构化格式的状态数据提取非常具有挑战性。N-grams的使用和搭配和单词的距离使我们能够处理这个问题并且自动提取具有较高精度的属性值对。

关键词:人工智能,语言建模,健康信息学。

  1. 介绍

病人记录(PRS)是病人相关数据的基本来源。每个病人的重要医疗信息提供完整的病史。通常这些不允许在治疗条件、诊断和投诉之间的关系中自动处理和派生更复杂的数据的信息只在文本中描述,并且在医院信息系统中不以结构化格式呈现。PRS状态描述包含局部、躯体和专业患者状态。本研究的主要目的是在结构化中提取患者的状态数据。格式(属性值)。“属性”是解剖学器官,主要解剖学在入场中的的系统、特点及其在医师考核中的实施。“价值”描述了病人的实际情况。因此,病人状态的结构化呈现可以被表示为“属性值”元组。

为了检测属性和它们的值,使用统计方法,通过检查在文本中的N个程序的频率分布来绘制“有用”短语(n个单词的序列)、词语搭配和单词的距离。

本文的组织如下:第2节描述了在保加利亚和用于处理的数据中PRS的细节。第3节介绍了N-gram和详细介绍了所使用的方法,第4节报告结果,讨论评估和相关工作,第5部分包含结论和草图及进一步的工作。

  1. 材料

在保加利亚,出院信件结构对所有医院都是强制性的。(它在国民健康保险基金与保加利亚医学和牙科之间协会中作为法律协议第190条第(3)款在《官方宪报》上公布)〔1〕:个人详细资料;诊断;病历(个人医疗)历史,包括当前的抱怨,过去的疾病,家庭病史,过敏,危险因素;病人状况,包括体检结果;实验室和其他检验结果;医学鉴定人;辩论;治疗和建议。

我们实验中的输入文本是出院信件的关于PRS的患者状态部分的免费文本部分。状态中的平均句子数区间数为19.918,最小数为8个句子,最大数为37个句子。训练语料库包含1300个PRS,测试语料库包含6200个。由UsHATE提供的匿名的PRS信件(医科大学附属内分泌治疗专科医院),医科大学,Sofia。

各种状态描述提供了许多关键属性,但那是仅在身体有并发症的情况下描述的属性。一些常见属性的例子有:性别、身高、体重、体重指数、皮肤,肌肉骨骼系统、四肢等。在我们的语料库中有四种属性类型及其值表示〔2〕:

一般的:通过给出一些缺省值,例如:6e3 патологични промени,без особености(无病理改变,无特异性)或者със запазена/нормална характеристика(保存的/现在的/正常的特征)等。

明确的:PR文本包含特定的特定值。特点名称可能丢失,因为属性足以识别该特征等。“外周动脉”的“保留周边脉动”代替“保存的脉动”。属性通过各种表达式来描述,例如,

对于“甲状腺体积”,“正常”的值可以表示为“不放大,摸不着放大,摸不着”。

部分的:正文包含关于器官部分的描述,而不是关于主要解剖器官部分的描述。例如,肢体状态可以表示为,“腿部皮肤萎缩,胫骨前水肿”。

通过诊断:有时给出诊断而不是器官描述,例如“甲真菌病,足癣”。

主要问题是我们的语料库有开放的词汇。因此许多“未知”的单词可以出现在测试语料库中,但不会出现在培训语料库中。另一方面,许多稀有属性可以因低频在预处理阶段被消除。

这使得自动提取成对“属性值”的任务变得相当艰巨。解剖器官没有本体论的复杂。状态描述在拉丁语中包含许多术语,这进一步阻碍了问题的解决。PRS包含保加利亚语和拉丁语的混合术语。用西里尔字母誊写拉丁医学术语。还有很多拉丁语和保加利亚语中的缩略语。进一步的具体问题是由于保加利亚语的词形变化;术语出现在文本中,有多种词。这是典型的保加利亚语的典型形式。其他的障碍是缺乏可用的电子格式资源。因此,任务以结构化格式提取当前患者状态数据是相当的具有挑战性的。PRS在保加利亚的唯一优点是文本呈现使用标准部分的结构化格式。这允许将PRS分成部分高精度和识别病人的状态描述。

  1. 方法

最近有几种非监督和监督的方法用于“属性值”对和其他关系元组提取。如:最大值熵分类器〔3〕,基于监督方法的分类器〔4〕,语言学基于模式的关系提取器〔5〕,半监督关系抽取〔6, 7〕。N-gram方法成功地用于“属性值”提取应用程序,例如对维基百科[ 8 ],网页中的产品描述[9, 10 ]和评论[11 ]中的地理对象提取信息。

N-gram可用于[12 ]在符号和字序列方法。我们使用统计方法提取有用短语,基于N-gram的频率分布(单字(unigRAM),单词对(二重码))字三元组(卦)和字四元组(四进制)。

我们的领域中的属性的N-gram的一些例子是:

单字(unigram):ръст, тегло, итм, тургур, еластичност,глава, език, шия, слезка, крайници, корем (height, weight, BMI, turgor, elasticity,head, tongue, neck, spleen, legs, abdomen);

词对(二重码):видими лигавици, очни ябълки, видима възраст,щитовидна жлеза, черен дроб, сукусио реналис (visible mucous membranes,eyeballs, apparent age, thyroid, liver, sucusio renalis);

词三元组(三元组): костно мускулна система, сърдечно-съдова система (musculoskeletal system, cardiovascular system ).

我们的任务执行以下步骤,(1)超过1300词的PRs的训练语料库作为输入,PRs的截面分割和病人状态部分的识别。(2)对PRS的所有状态数据进行处理;(3)所有状态da集合中提取单词S = {w1 , w2 ,hellip;, wn };(4)从S集中筛选所有的原始数据,设置Num和S1 = S minus; Num;(5)过滤C节点和缩写NS,设置CA和S2 = S1 minus; CA 我们不会丢失精度,因为我们在“属性”中实际上是医学术语。(6)用LO W频率(稀有字)对W进行滤波,设置R W,求S3=S2~RW;(7)寻找对(bigrams, 2-grams),设置P;(8)寻找三元组(trigrams, 3-grams),设置T(9)从集合T中过滤N个候选,设置T1;(10)从集合P中过滤N个候选,设置P1;(11)从集合S3中过滤N个候选,设置S4;(12)从P、T和S 4中选择N个候选属性,设置A。

Step 1

Step 8

Step 9

bull; PRs sectio ns

bull; Finding tripl es

bull; Filtering top N

splitting

candidates fro m

triples

Step 2

Step 7

Step 10

bull;

Collection of all

bull; Finding paris

bull;

Filtering top N

Status data f rom

candidates fro m

PRs

pairs

Step 3

Step 6

Step 11

bull;

bull; Filterring words

bull;

Filtering top N

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22548],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版