组中选优机器学习问题建模和算法研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61271337
项目类别：
面上项目
资助金额：
72.0万
负责人：
罗林开
依托单位：
厦门大学
学科分类：
F0113.信息获取与处理
结题年份：
2016
批准年份：
2012
项目状态：
已结题
起止时间：
2013-01-01 至2016-12-31

项目参与者：
李订芳；周绮凤；杨帆；邹权；彭洪；邱一卉；郭双冰；吕伟航；陈曦；
关键词：
分类数据挖掘模式识别支持向量机智能计算

项目摘要

Learning the rule of selecting the best one from group data (SBG) is a new machine learning problem. It brings some challenges for the existing machine learning models because of the new characteristics. To eliminate the negative impact on the comparison of the samples with same type between groups, this project first investigates the data preprocessing method,as well as the embedding methods in modeling without taking the comparison. Then, the quantitative measure of generalization performance for SBG is proposed. And some new models for the SBG learning problem are developed, in which a strong generalization performance and a good suitability for nonlinear separable problem within-group are guaranteed. Thirdly,to overcome the extremely unbalanced problem between the sizes of two classes, some methods without utilizing the weights of classes are investigated. Fourthly, the efficient algorithm for the new models with large scale data is presented after investigating the nature of the models. Finally, two applications on the optimizations of process parameters and investment are provided. SBG is a new foundation machine learning problem, this project will extend the models, algorithms and application ranges of the existing machine learning techinique,which is innovation in theory and has great application value.

组中选优是机器学习尚待研究具有挑战性的新问题，具有常规机器学习所没有的新特点。本项目针对组间同类样本之间的比较带来负面影响的问题，研究降低其影响的数据预处理方法，以及在建模中对组间同类样本不进行比较的嵌入方法；在此基础上，设计体现分组特点的泛化性能定量指标，建立具有强泛化性能和组内非线性可分处理能力的组中选优机器学习新模型；并针对最优样本与非最优样本数量极度不平衡问题，研究不使用类权重的处理方法；分析新模型的性质，给出大规模问题时的高效算法；结合工艺参数寻优和投资优化等领域的组中选优问题，开展新模型、新算法的应用研究。组中选优作为一个新的基础性机器学习问题，本项目的研究可以丰富现有机器学习的模型和算法，拓广现有机器学习的应用范围，既有很强的创新性，亦有重要的应用价值。

结项摘要

在自然、经济和社会领域，存在大量样本以组为单位出现，任务为选出每组最优样本的组中选优问题。组中选优问题具有常规机器学习问题所没有的新特点。首先，组中选优问题仅需学习组内不同类样本之间的差异性，无需学习组间同类样本之间的相似性；其次，组间同类样本之间相似性的学习甚至会带来负面影响。为此必须发展适合这些特点的机器学习新模型和相关算法。.本项目主要研究组中选优机器学习问题的数据预处理、建模、算法和在相关领域的应用。在组中选优机器学习问题的数据预处理方面，我们给出了保持组内不同类样本差异条件下，减弱组间同类样本比较影响的组内归一化和组内比例化方法。通过在约束中表达“仅需学习组内不同类样本之间的差异性，无需学习组间同类样本之间的相似性”的要求，我们建立了组中选优机器学习问题模型GSVMs，该模型为凸二次规划问题，具有传统支持向量机模型（support vector machine, SVM）的所有优点，即强泛化能力和非线性处理能力，不会陷入局部极小值等。针对最优和非最优样本极度不平衡问题，我们提出了给定经验风险水平的模型，通过精确保证给定训练样本的经验风险水平，解决了两类样本极度不平衡问题。进一步地，我们给出了组中选优机器学习模型的最小序贯算法，使之能处理大规模数据。最后将组中选优机器学习模型应用于新股申购问题，取得了比传统模型更高的预测准确率和收益率，表明了组中选优机器学习模型和算法的有效性和优越性。.GSVMs是传统SVM的一种推广，当学习样本仅有一组时，GSVMs就退化为传统的SVM。组中选优问题在现实世界中广泛存在，GSVMs具有广阔的应用前景。

项目成果

期刊论文数量（16）

专著数量（0）

科研奖励数量（0）

会议论文数量（9）

专利数量（0）

Accurate Prediction of Transposon-Derived piRNAs by Integrating Various Sequential and Physicochemical Features.

通过整合各种序列和理化特征准确预测转座子衍生的 piRNA

DOI：
10.1371/journal.pone.0153268
发表时间：
2016
期刊：
PloS one
影响因子：
3.7
作者：
Luo L;Li D;Zhang W;Tu S;Zhu X;Tian G
通讯作者：
Tian G

Two approaches for novelty detection using random forest

使用随机森林进行新颖性检测的两种方法

DOI：
10.1016/j.eswa.2014.12.028
发表时间：
2015-06
期刊：
Expert Systems with Applications
影响因子：
8.5
作者：
Zhou, Hao;Ning, Yong-Peng;Yang, Fan;Li, Tao
通讯作者：
Li, Tao

An improvement of Chebyshev-Halley methods free from second derivative

无二阶导数的切比雪夫-哈雷方法的改进

DOI：
10.1016/j.amc.2014.02.083
发表时间：
2014-05
期刊：
APPLIED MATHEMATICS AND COMPUTATION
影响因子：
4
作者：
Dingfang Li;Ping Liu;Jisheng Kou
通讯作者：
Jisheng Kou

基于集成学习的离子通道药物靶点预测

DOI：
--
发表时间：
2015
期刊：
计算机科学
影响因子：
--
作者：
谢倩倩;李订芳;章文
通讯作者：
章文

Exploring the Regional Variance using ARMA-GARCH Models

使用 ARMA-GARCH 模型探索区域方差

DOI：
10.1007/s11269-016-1367-x
发表时间：
2016-05
期刊：
Water Resources Management
影响因子：
4.3
作者：
Xie Huantian;Li Dingfang;Xiong Lihua
通讯作者：
Xiong Lihua

数据更新时间：{{ journalArticles.updateTime }}

DOI：
{{ item.doi || "--"}}
发表时间：
{{ item.publish_year || "--" }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--"}}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ patent.updateTime }}

其他文献

基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用

DOI：
--
发表时间：
2012
期刊：
系统工程理论与实践
影响因子：
--
作者：
杨帆;林琛;周绮凤;符长虹;罗林开
通讯作者：
罗林开

其他文献

DOI：
{{ item.doi || "--" }}
发表时间：
{{ item.publish_year || "--"}}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--" }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

内容获取失败，请点击重试

重试

联系客服

开始分析

查看分析示例

此项目为已结题，我已根据课题信息分析并撰写以下内容，帮您拓宽课题思路：

会员权益说明：

组中选优机器学习问题建模和算法研究

基本信息

项目摘要

结项摘要

项目成果

其他文献

其他文献

AI项目摘要

AI项目思路

AI技术路线图

相似国自然基金

相似海外基金

AI项目解读示例

AI项目摘要：

AI项目思路：

AI技术路线图