中文环境下记录链接法在医学信息学中应用的研究
项目介绍
AI项目解读
基本信息
- 批准号:81701794
- 项目类别:青年科学基金项目
- 资助金额:20.0万
- 负责人:
- 依托单位:
- 学科分类:H2806.医学信息系统与远程医疗
- 结题年份:2020
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2020-12-31
- 项目参与者:殷鹏; 艾红; 綦鹏; 唐柳;
- 关键词:
项目摘要
In medical research, such as public health or epidemiology, the required data are often from different sources. Combining the distributed data can be performed by comparing identification information in patients’ records in order to identify which records refer to the same patients. However, the identification information to compare are sometimes subject to typographical errors that lead to false non-matches, which influence the linkage quality and effectivity. This research project is based on the understanding and previous studies of string approximate comparison and record linkage methods, with application of machine learning, statistics and probability theories, aims to propose an effective and adapted record linkage method for Chinese medical system and Chinese characters, so that one can perform data combination despite inaccurate identification information in records. This project includes the following tasks: proposition of algorithms based on different rules for measuring Chinese characters similarities according to their spellings and pronunciations; adaptation and improvement of the existing record linkage methods to make them applicable to Chinese language system, and assessment of their linkage accuracy; implementation of parallel computation algorithms and optimization record pairs comparison rules in order to improve the efficiency of linkages. The researches in this project will provide theoretical support for linking medical data from different sources, and provide an important technical support for acquiring accurately and efficiently required data for different medical researches.
在公共卫生和流行病学等医学研究中,我们所需的数据时常来自于不同的数据源。上述数据的整合可通过比对各数据源中患者数据的身份识别类信息,来识别并链接多个数据源中涉及同一患者的数据记录。然而,身份识别信息输入的偏差会导致记录链接缺失,从而影响数据的有效整合。本项目在对当前字母语言字符串比对方法与记录链接方法的深入了解和研究的基础上,结合机器学习、概率及统计学理论,提出适合中国医疗体系和汉语文字的有效的记录链接方法,在部分身份识别信息录入不准确的情况下,仍可完成记录匹配或链接。具体的研究内容包括:提出基于不同比对规则的汉字串拼写及发音相似度的计算算法;适配并改进现有记录链接法使其更加适用于汉语言系统,并对其链接准确性进行评估;实施并行运算与优化记录比对规则以提高记录链接的效率。本项目的研究将为有效整合不同数据源中的医疗数据提供理论支持,为各类医学研究中所需数据准确高效的获取提供重要的技术保障。
结项摘要
在公共卫生和流行病学等医学研究中,我们所需的数据时常来自不同的数据源。上述数据的整合可以通过比对各数据源中患者数据的身份识别类信息,以识别并链接多个数据源中涉及同一患者的记录。然而,身份识别信息的缺失或输入的偏差会导致记录无法链接,从而影响数据的有效整合。记录链接法可以较为有效的解决上述问题。目前,基于拉丁语系的记录链接法的研究与应用已得到了较好的发展,但针对中文环境下的记录链接的相关研究却相对较少。汉字作为象形文字,与拉丁语系文字有截然不同的表现形式,因此其相似度度量无法直接使用文献中针对拉丁语系文字的相关方法。本研究提出了有效的基于中文环境的概率记录链接法,主要研究内容包括:提出了基于改进版本音形码的中文字符串相似度算法,将汉字转化为音型码,从而应用音型码来度量中文字符串之间的相似度,并利用EM算法对Winkler概率记录链接法中的匹配概率与不匹配概率的参数进行估计,从而进行记录链接。与已有的记录链接方法相比较,所提出的方法显著地降低了错误不匹配数量,其中精确度为0.884,召回率为0.902。此外,在链接信息出现缺失数据时,现有记录链接方法不能高效的完成记录链接,本项目提出了基于对数似然比的缺失数据字段的权重计算方法,使用此方法可以显著的降低错误不匹配率。本项目为整合不同数据源中的数据提供一个较为合理的方法,拓展了记录链接在中文环境下的研究与应用,利用本研究提出的方法,可以有效地减少多源数据匹配时的人力与时间成本。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Field Weights Computation for Probabilistic Record Linkage in Presence of Missing Data
存在缺失数据时概率记录链接的字段权重计算
- DOI:10.1142/s0218001420590466
- 发表时间:2020-04
- 期刊:International Journal of Pattern Recognition and Artificial Intelligence
- 影响因子:1.5
- 作者:Yinghao Zhang;Senlin Xu;Mingfan Zheng;Xinran Li
- 通讯作者:Xinran Li
String Comparators for Chinese-Characters-Based Record Linkages
基于汉字的记录链接的字符串比较器
- DOI:10.1109/access.2020.3047927
- 发表时间:2021-01-01
- 期刊:IEEE ACCESS
- 影响因子:3.9
- 作者:Xu, Senlin;Zheng, Mingfan;Li, Xinran
- 通讯作者:Li, Xinran
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
金纳米粒子组装体系中偶联单分子层膜结构的SERS光谱表征与分析
- DOI:--
- 发表时间:--
- 期刊:Acta Physico - Chimica Sinica
- 影响因子:--
- 作者:曹晓卫;刘文华;李欣然;王荣;吴霞琴
- 通讯作者:吴霞琴
基于实测响应轨迹稳定边界的电力系统暂态不稳定识别
- DOI:10.16339/j.cnki.hdxbzkb.2017.04.010
- 发表时间:2017
- 期刊:湖南大学学报(自然科学版)
- 影响因子:--
- 作者:李欣然;韦肖燕;范力泉;钱军;宋军英
- 通讯作者:宋军英
储能电池参与电网快速调频的经济性分析
- DOI:10.16628/j.cnki.2095-8188.2017.23.014
- 发表时间:2017
- 期刊:电器与能效管理技术
- 影响因子:--
- 作者:黄际元;刘博;李欣然;常敏;杨俊;崔曦文
- 通讯作者:崔曦文
肿瘤家族史对贲门腺癌患者术后预后的影响
- DOI:10.13705/j.issn.1671-6825.2018.12.078
- 发表时间:2019
- 期刊:郑州大学学报(医学版)
- 影响因子:--
- 作者:雷玲玲;王献增;魏锦昌;程锟;李吉林;周福有;韩月霞;李欣然;赵学科;李贝;宋昕;王建坡;王立东
- 通讯作者:王立东
噻拉嗪对山羊不同脑区ATP酶活性的影响
- DOI:--
- 发表时间:2014
- 期刊:中国兽医杂志
- 影响因子:--
- 作者:高利;张宇;魏成威;刘子睿;吴越;于东序;刘沫;姜仁礼;李欣然;王冠颖
- 通讯作者:王冠颖
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}