大規模企業財務データの網羅性向上に向けた機械学習によるレプリケート技術の開発

利用机器学习开发复制技术,提高大规模企业财务数据的全面性

基本信息

  • 批准号:
    22K04609
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

本研究ではビッグデータ科学におけるデータの不完全性(研究に必要なデータがしばしば欠けている)・非代表性(母集団からのランダムサンプルではない)・多ノイズ性(様々なノイズが含まれていてクリーニングが容易でない)・センシティブ(個人情報ななどど取り扱いが難しいデータがある)などの問題解決を図るため、企業財務ビッグデータを用いて内挿だけでなく外挿が可能となるデータのレプリケート技術を開発する。この目的を達成するために、財務ビッグデータの欠損値の統計性の調査によってデータの網羅性を明らかにし、機械学習を用いた欠損値補完モデルを構築しモデルの精度を高め、欠損を補完したデータの整合性を網羅性の高いデータの統計性で確認し、最終的には欠損値補完モデルのライブラリおよび作成したレプリカデータの公開を行う。令和4年度は欠損値の統計性の調査するために現在保有している財務ビッグデータでるORBISの2016年版と2021年版を結合し、全企業毎に決算年に関する通年データとなるようにデータの整備を行った。そのうえで欠損値の統計性の調査を行いデータの網羅性を調査した結果、欠損値の統計性の国による違いを明らかにした。また同時に、決定木系の回帰モデルの一つであるCatBoostアルゴリズムの機械学習を用いた欠損値補完モデルの構築を行い。さらに構築したモデルを用いて財務諸表の売上と利益に関する欠損値の補間を実行し、補完後の分布の性質を調査し、結果を学術論文として発表した。
在这项研究中,我们将开发一种用于数据的复制技术,不仅可以使用,而且还可以推断出来,以解决诸如大数据科学中的数据(通常缺乏研究所需的数据),非代表性的数据,不是人群中的随机样本(不是人群中的随机样本)(互补的差异)(有多种噪声,并且不容易清洁),并且很难处理这些信息,并且是如此灵敏),并且是数据的)。为了实现这一目标,通过调查财务大数据中缺失值的统计学来阐明数据覆盖范围,使用机器学习构建缺失的价值完成模型,以提高模型的准确性,确认数据的一致性已通过高度全面数据的统计学补充数据,并最终发布了缺失价值的库存模型和创建的重复数据库和创建的重复数据。在2022年,我们合并了2016年版和2021版Orbis,这是我们目前拥有的财务大数据,以调查缺失价值的统计学,并为所有公司准备了数据,以确保全年有关财政年度的数据。此外,我们研究了缺失价值的统计性,并研究了数据的全面性,并揭示了缺失价值观的统计差异,具体取决于国家。同时,我们使用Catboost算法的机器学习构建了一个缺失的值完成模型,这是决策树系统的回归模型之一。此外,我们使用构造模型对财务报表中的销售价值和利润进行了插值,研究了完成后分布的性质,并作为学术论文发布了结果。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
GPT-2による環境や個人属性に依存した移動軌跡の時空間情報生成
使用GPT-2根据环境和个人属性生成运动轨迹的时空信息
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    水野貴之;堀込 泰三;藤本祥二;石川温
  • 通讯作者:
    石川温
Neural probabilistic modeling of individual daily trajectories
个人日常轨迹的神经概率建模
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Takayuki Mizuno;Shouji Fujimoto;and Atushi Ishikawa
  • 通讯作者:
    and Atushi Ishikawa
Copula-Based Synthetic Data Generation in Firm-Size Variables
公司规模变量中基于 Copula 的综合数据生成
  • DOI:
    10.1007/s12626-022-00128-6
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shouji Fujimoto;Atushi Ishikawa;and Takayuki Mizuno
  • 通讯作者:
    and Takayuki Mizuno
Interpolation of non-random missing values in financial statements' big data using CatBoost
  • DOI:
    10.1007/s42001-022-00165-9
  • 发表时间:
    2022-05-26
  • 期刊:
  • 影响因子:
    3.2
  • 作者:
    Fujimoto,Shouji;Mizuno,Takayuki;Ishikawa,Atushi
  • 通讯作者:
    Ishikawa,Atushi
Generation of individual daily trajectories by GPT-2
  • DOI:
    10.3389/fphy.2022.1021176
  • 发表时间:
    2022-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T. Mizuno;Shouji Fujimoto -Shouji-Fujimoto -2190114964;Atushi Ishikawa -Atushi-Ishikawa -2190114580
  • 通讯作者:
    T. Mizuno;Shouji Fujimoto -Shouji-Fujimoto -2190114964;Atushi Ishikawa -Atushi-Ishikawa -2190114580
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

藤本 祥二其他文献

Twitterデータによる都市の移民コミュニティ統合力の測定
使用 Twitter 数据衡量城市整合移民社区的能力
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石川 温;藤本 祥二;水野 貴之
  • 通讯作者:
    水野 貴之
企業活動停止率と非ジブラ則の関係
企业停业率与非吉布拉法的关系
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石川 温;藤本 祥二;水野 貴之;渡辺 努
  • 通讯作者:
    渡辺 努
労働生産性及びその成長率分布に観られる統計的性質
劳动生产率及其增长率分布的统计特性
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石川 温;藤本 祥二;水野 貴之
  • 通讯作者:
    水野 貴之
ビッグデータを用いた特許の出願数と会社業績の関係
利用大数据分析专利申请数量与公司绩效的关系
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤本 祥二;石川 温;水野 貴之;渡辺 努
  • 通讯作者:
    渡辺 努
Growth of patent quality and productivity of firms (Total factor productivity and patent quality)
企业专利质量和生产率的增长(全要素生产率和专利质量)
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Atushi Ishikawa;Shouji Fujimoto;Takayuki Mizuno and Tsutomu Watanabe;藤本 祥二;藤本 祥二;Atushi Ishikawa
  • 通讯作者:
    Atushi Ishikawa

藤本 祥二的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

肝臓内酸素動態を含む透析低血圧発症予知モデルの構築:統計・機械学習分析による解析
构建预测透析低血压发作(包括肝内氧动态)的模型:使用统计和机器学习分析进行分析
  • 批准号:
    24K15796
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
臨床情報による高精度分娩進行予測モデルの開発: 機械学習の活用
利用临床信息开发高精度的分娩进展预测模型:利用机器学习
  • 批准号:
    24K13948
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
新興感染症のシステマティック・レビューを機械学習を用いて簡易に実施するための研究
利用机器学习轻松对新发传染病进行系统评价的研究
  • 批准号:
    24K13518
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
独立成分分析を活用した信頼性の高い機械学習手法の構築
使用独立成分分析构建可靠的机器学习方法
  • 批准号:
    24K15093
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
学習過程情報に基づき理由を説明可能な高速論理型機械学習器の開発の提案
开发可根据学习过程信息解释原因的高速逻辑机器学习装置的提案
  • 批准号:
    24K15095
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了