A Document Processing System
文档处理系统
基本信息
- 批准号:8344939
- 负责人:
- 金额:$ 7.99万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:
- 资助国家:美国
- 起止时间:至
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
A system of C++ language programs has been developed for the purpose of finding the closely related documents in Medline and for the purpose of performing machine learning on sets of documents. The system has a number of unique features: 1) It is based on a number of C++ classes and highly modular so that alterations in the system are relatively simple to perform. 2) The system currently processes PubMed data by extracting from the Sybase repositories using a C++ interface to Sybase. However, a change in the interface portion of the system would allow it to be applied to any large database consisting of discrete textual records. 3) Data processed by the system is stored as compressed file structures, etc. These structures are updatable so that new data may be continually added to the system as it becomes available. 4) Documents are compared with each other using a Bayesian form of analysis. 5) The latest work on this system has involved adding the ability to generate themes using an EM algorithm approach. Also recently code has been multithreaded and memory mapping capabilities added to speed up processing.
The system described here is now not only being used to process all of MEDLINE for our research purposes, but also to produce the related documents for arbitrary pieces of text by other groups here in the NLM and outside of the NLM. The system is currently proving useful in testing different retrieval parameters and methods on the PubMedHealth records.
已经开发了C ++语言程序的系统,目的是在MEDLINE中查找密切相关的文档,并为了在一组文档上执行机器学习。该系统具有许多独特的功能:1)它基于许多C ++类,并且高度模块化,因此系统中的更改相对较简单。 2)该系统当前通过使用SYBASE的C ++接口从SYBASE存储库中提取PubMed数据。但是,系统的接口部分的更改将允许将其应用于由离散文本记录组成的任何大型数据库。 3)系统处理的数据被存储为压缩文件结构等。这些结构可更新,因此可以在系统中不断添加新数据。 4)使用贝叶斯的分析形式将文档相互比较。 5)该系统的最新工作涉及使用EM算法方法添加生成主题的能力。最近,代码也是多线程,并添加了内存映射功能以加快处理。
现在,此处描述的系统不仅用于为我们的研究目的处理所有MEDLINE,而且还用于制作NLM和NLM外部其他组的任意文本的相关文档。目前,该系统在PubMedHealth记录上测试不同的检索参数和方法有用。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Willy Wilbur其他文献
Willy Wilbur的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Willy Wilbur', 18)}}的其他基金
Automatic Analysis and Annotation of Document Keywords in Biomedical Literature
生物医学文献中文档关键词的自动分析与标注
- 批准号:
8344960 - 财政年份:
- 资助金额:
$ 7.99万 - 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
- 批准号:
8558105 - 财政年份:
- 资助金额:
$ 7.99万 - 项目类别:
Natural Language Processing Techniques To Enhance Information Access.
增强信息访问的自然语言处理技术。
- 批准号:
8943224 - 财政年份:
- 资助金额:
$ 7.99万 - 项目类别:
PubMed Query Log Analysis and Use in Access Inhancement
PubMed 查询日志分析及其在访问增强中的使用
- 批准号:
7969244 - 财政年份:
- 资助金额:
$ 7.99万 - 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
- 批准号:
8149602 - 财政年份:
- 资助金额:
$ 7.99万 - 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
- 批准号:
8344948 - 财政年份:
- 资助金额:
$ 7.99万 - 项目类别:
相似国自然基金
数据驱动的代码摘要自动生成技术
- 批准号:62372174
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
全流程数据融合的软件代码修改预评审技术研究
- 批准号:62372492
- 批准年份:2023
- 资助金额:50.00 万元
- 项目类别:面上项目
数据驱动下的隐匿代码语义张量研究
- 批准号:
- 批准年份:2020
- 资助金额:58 万元
- 项目类别:面上项目
数据驱动的软件源代码智能化开发和维护
- 批准号:62072017
- 批准年份:2020
- 资助金额:56 万元
- 项目类别:面上项目
数据驱动的代码注释自动生成方法研究
- 批准号:61902441
- 批准年份:2019
- 资助金额:29.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Customizable Artificial Intelligence for the Biomedical Masses: Development of a User-Friendly Automated Machine Learning Platform for Biology Image Analysis.
面向生物医学大众的可定制人工智能:开发用于生物图像分析的用户友好的自动化机器学习平台。
- 批准号:
10699828 - 财政年份:2023
- 资助金额:
$ 7.99万 - 项目类别:
Dynamic neural coding of spectro-temporal sound features during free movement
自由运动时谱时声音特征的动态神经编码
- 批准号:
10656110 - 财政年份:2023
- 资助金额:
$ 7.99万 - 项目类别:
Mixed methods examination of warning signs within 24 hours of suicide attempt in hospitalized adults
住院成人自杀未遂 24 小时内警告信号的混合方法检查
- 批准号:
10710712 - 财政年份:2023
- 资助金额:
$ 7.99万 - 项目类别:
HEAR-HEARTFELT (Identifying the risk of Hospitalizations or Emergency depARtment visits for patients with HEART Failure in managed long-term care through vErbaL communicaTion)
倾听心声(通过口头交流确定长期管理护理中的心力衰竭患者住院或急诊就诊的风险)
- 批准号:
10723292 - 财政年份:2023
- 资助金额:
$ 7.99万 - 项目类别:
Unified, Scalable, and Reproducible Neurostatistical Software
统一、可扩展且可重复的神经统计软件
- 批准号:
10725500 - 财政年份:2023
- 资助金额:
$ 7.99万 - 项目类别: