General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
基本信息
- 批准号:8344948
- 负责人:
- 金额:$ 59.96万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:
- 资助国家:美国
- 起止时间:至
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
1) Many different methods have been investigated for the purpose of clustering sets of documents with the hope of improving retrieval. Unfortunately these have generally failed to provide improved retrieval capability. Part of the problem is clearly the fact that a given document often involves more than one subject so that it is not possible to make a clean categorization of the documents into definite categories to the exclusion of others. In order to overcome this problem we have developed methods that are designed to identify a theme among a set of documents. The theme need not encompass the whole of any document. It only needs to exist in some subset of the documents in order to be identifiable. Some of these same documents may participate in the definition of several themes. One method of finding themes is based on the EM algorithm and requires an iterative procedure which converges to themes. The method has been implemented and tested and found to be successful.
2) A second approach can be based on the singular value decomposition and essentially is a vector approach.
3) We are also investigating other methods to extract higher level features. One method we are currently studying is to perform machine learning with an SVM or other classifier and score the documents based on this learning. Then PAV can be applied to the resulting scores and this score function can be descretized without the loss of significant information. This allows us to make use of the results as features which can be individually weighted in another classifier.
4) We have developed a new algorithm called the periodic random orbiter algorithm (PROBE) which is applicable to minimize any convex loss function. We have applied it to the MeSH classification problem and it seems to work very well and better than the alternatives on such a large problem.
1)已经对许多不同的方法进行了研究,目的是将文档集群集,希望改善检索。不幸的是,这些通常无法提供提高的检索能力。问题的一部分显然是一个事实,即给定的文档通常涉及多个主题,因此不可能将文档分类为确定的类别以排除其他主题。为了克服这个问题,我们开发了旨在确定一组文档中主题的方法。该主题不必涵盖所有文档的全部。它只需要在文档的某些子集中存在才能识别。这些相同的文档中的一些可能参与了几个主题的定义。查找主题的一种方法是基于EM算法,需要一个迭代过程,该过程会收敛到主题。该方法已被实施和测试,并发现成功。
2)第二种方法可以基于单数值分解,而本质上是矢量方法。
3)我们还正在研究其他方法以提取更高级别的特征。我们目前正在研究的一种方法是使用SVM或其他分类器进行机器学习,并根据此学习对文档进行评分。然后可以将PAV应用于所得的分数,并且可以将此分数函数描述而不会丢失重要信息。这使我们可以将结果用作可以在另一个分类器中单独加权的功能。
4)我们开发了一种称为周期性随机轨道算法(探针)的新算法,该算法适用于最小化任何凸损耗函数。我们将其应用于网格分类问题,似乎比在如此大的问题上的替代方案更好,更好。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Willy Wilbur其他文献
Willy Wilbur的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Willy Wilbur', 18)}}的其他基金
Automatic Analysis and Annotation of Document Keywords in Biomedical Literature
生物医学文献中文档关键词的自动分析与标注
- 批准号:
8344960 - 财政年份:
- 资助金额:
$ 59.96万 - 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
- 批准号:
8558105 - 财政年份:
- 资助金额:
$ 59.96万 - 项目类别:
Natural Language Processing Techniques To Enhance Information Access.
增强信息访问的自然语言处理技术。
- 批准号:
8943224 - 财政年份:
- 资助金额:
$ 59.96万 - 项目类别:
PubMed Query Log Analysis and Use in Access Inhancement
PubMed 查询日志分析及其在访问增强中的使用
- 批准号:
7969244 - 财政年份:
- 资助金额:
$ 59.96万 - 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
- 批准号:
8149602 - 财政年份:
- 资助金额:
$ 59.96万 - 项目类别:
相似国自然基金
2023年(第四届)国际生物数学与医学应用研讨会
- 批准号:12342004
- 批准年份:2023
- 资助金额:8.00 万元
- 项目类别:专项项目
突变和修饰重塑蛋白质亚细胞定位的生物信息学研究
- 批准号:32370698
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
基于生物信息学的类风湿性关节炎患者衰弱预测模型的构建与验证
- 批准号:82301786
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于结构表征的蛋白质与长链非编码RNA相互作用预测的生物信息学方法研究
- 批准号:62373216
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
蛋白质降解决定因子的生物信息学筛选及其耐药突变的多组学分析研究
- 批准号:32300528
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
Validation and Early Commercialization of the ENVISAGE Assay, a Prognostic Test for Barrett's Esophagus
ENVISAGE 检测(Barrett 食管的预后检测)的验证和早期商业化
- 批准号:
10761328 - 财政年份:2023
- 资助金额:
$ 59.96万 - 项目类别:
New statistical and computational tools for optimization of planarian behavioral chemical screens
用于优化涡虫行为化学筛选的新统计和计算工具
- 批准号:
10658688 - 财政年份:2023
- 资助金额:
$ 59.96万 - 项目类别:
Enhanced Identification of Ocular Phenotypes and Outcomes in Electronic Health Record Data
增强电子健康记录数据中眼部表型和结果的识别
- 批准号:
10617779 - 财政年份:2022
- 资助金额:
$ 59.96万 - 项目类别:
Development and Validation of an Automated Algorithm for Real-time Detection of Neoplasia in Barrett's Esophagus using a Low-cost, Portable Microendoscope
使用低成本便携式显微内窥镜实时检测巴雷特食管肿瘤的自动算法的开发和验证
- 批准号:
10610492 - 财政年份:2022
- 资助金额:
$ 59.96万 - 项目类别: