基于语言特征的网络用户身份属性识别方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61272275
- 项目类别:面上项目
- 资助金额:80.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:刘兵; 钟鸣; 彭庆喜; 余骞; 屈俊峰; 张煜; 余鸣; 黄俊龙; 尧红伟;
- 关键词:
项目摘要
It is quite normal for online users to provide incomplete and fake information in order to hide one's true identity. This greatly hinders some critical applications such as the network crime prevention, opinion supervision and targeted promotion. It would be very useful if user profiles can be checked on the basis of text analysis..Current researches are mainly focused on the age and authorship attribution based on English corpus. This project will recognize a user's gender, age, profession, birthplace, and authorship using the linguistic features, especially Chinese features, which are extracted from user posted documents. First, we will present some data cleansing methods in order to eliminate the noises in terms of common events and the problem of skewed classes. Second, we will develop approaches for feature selection and feature set expansion to deal with the problem of huge number of features and high cost of manually labeling. Last, we will systematically compare the performance of existing classification methods to get insight into the linguistic features, classification tasks, classification algorithms, and evaluation metrics. Meanwhile, we will propose a new framework for authorship attribution of online users. . This study will reveal the relationship between personal linguistic features and identity attributes, and provide the theoretical and technical foundation for the application of recognizing identity attributes of online users.
网络用户的注册资料经常含有大量残缺或虚假信息,给网络犯罪预防、舆论监管及商业推广等关键应用带来极大障碍。现有研究大多限于年龄和著作者身份识别,且主要集中在英文领域。本项目将研究网络用户身份属性的识别方法,从用户发表的文档中,通过分析其语言(特别是中文的)特征,区分出性别、年龄段、籍贯、职业和著作者身份等多重属性。首先,拟研究数据优化措施,以消除用户发表文档中以大众话题形式存在的噪声及类别倾斜问题的不良影响。其次,拟研究高效的特征选择算法和基于少量种子的标注特征扩展方法,以解决网络环境下语言特征的数目庞大及标注困难问题。最后,拟研究用户身份属性的区分方法,以获得语言特征-分类任务-分类算法-评价标准的系统认识,并为作者众多、测试域开放的网络著作者身份区分问题建立全新的算法框架。.本项目的研究有望揭示个人语言特征和身份属性之间的内在联系,并为网络用户身份区分这一重要应用提供理论和技术基础。
结项摘要
网络用户的注册资料经常含有大量残缺或虚假信息,给网络犯罪预防、舆论监管及商业推广等关键应用带来极大障碍。现有研究大多限于年龄和著作者身份识别,且主要集中在英文领域。本项目将研究网络用户身份属性的识别方法,从用户发表的文档中,通过分析其语言(特别是中文的)特征识别身份属性。申报书所列的五项研究内容:a) 数据集的构造方法;b) UPD中噪声数据的消除方法;c) 身份属性相关语言特征集的获取及扩展方法;d) 用户身份属性的区分模型;e) 用户身份属性识别原型系统,均已完全按照计划执行完毕。此外,我们还深入研究了大规模社会网络上的群组划分方法。. 本项目整体进展顺利,已经形成了一套可行的理论与方法,包括:创造性地提出了从文档空间到相似空间的转换,以及字、词、语法视图上的co-training和tri-training等数据挖掘和自然语言处理的结合技术,成功解决了标签数据稀少、未知数据不断加入的难题,抽取了能够表征用户身份属性的风格、词汇、句法、关系等关键特征,并通过embedding及network representation等技术对属性特征进行有效扩展,建立了用于用户身份属性识别的有效区分算法。. 本项目的研究成果具有很强的科学意义。在ACL, EMNLP, WWWJ等自然语言处理和数据挖掘领域的顶级和权威国际学术会议或期刊上发表了27篇论文。研究成果引起世界各国学者的关注和引用,引用来源包括IEEE Transactions on Information Forensics and Security (TIFS), S&P和WWW等信息安全和数据处理领域的顶级刊物和会议。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(18)
专利数量(0)
基于兴趣标签的缄默用户性别预测研究
- DOI:--
- 发表时间:2015
- 期刊:华中科技大学学报
- 影响因子:--
- 作者:钱铁云;尤珍妮;陈丽;王飞
- 通讯作者:王飞
基于量化情感的网店垃圾评论检测
- DOI:--
- 发表时间:2013
- 期刊:山东大学学报(理学版)
- 影响因子:--
- 作者:彭庆喜;钱铁云
- 通讯作者:钱铁云
Review Authorship Attribution in a Similarity Space
在相似性空间中查看作者归属
- DOI:10.1007/s11390-015-1513-6
- 发表时间:2015-01
- 期刊:Jounal of Computer Science and Technology (JCST)
- 影响因子:--
- 作者:Tieyun Qian;Bing Liu;Qing Li;Jianfeng Si
- 通讯作者:Jianfeng Si
Topic formation and development: a core-group evolving process
主题的形成和发展:核心组的演变过程
- DOI:10.1007/s11280-013-0245-1
- 发表时间:2014-11
- 期刊:World Wide Web
- 影响因子:--
- 作者:Bing Liu;Hui Xiong;Jaideep Srivastava;Phillip C.Y. Sheu
- 通讯作者:Phillip C.Y. Sheu
Exploiting small world property for network clustering
利用小世界属性进行网络聚类
- DOI:10.1007/s11280-013-0209-5
- 发表时间:2014-05
- 期刊:World Wide Web
- 影响因子:--
- 作者:Tieyun Qian;Qing Li;Jaideep Srivastava;Zhiyong Peng
- 通讯作者:Zhiyong Peng
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于社会化表示的用户性别识别
- DOI:--
- 发表时间:2017
- 期刊:计算机科学
- 影响因子:--
- 作者:朱裴松;钱铁云;吴闽泉
- 通讯作者:吴闽泉
基于多模态融合技术的用户画像方法
- DOI:--
- 发表时间:--
- 期刊:北京大学学报(自然科学版)
- 影响因子:--
- 作者:张壮;冯小年;钱铁云
- 通讯作者:钱铁云
基于边采样的网络表示学习模型
- DOI:10.13328/j.cnki.jos.005435
- 发表时间:2018
- 期刊:软件学报
- 影响因子:--
- 作者:陈丽;朱裴松;钱铁云;朱辉;周静
- 通讯作者:周静
支持范围查询的低冗余知识图谱管理
- DOI:10.7544/issn1000-1239.2019.20190169
- 发表时间:2019
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:王飞;钱铁云;刘斌;彭智勇
- 通讯作者:彭智勇
基于胶囊网络的跨领域情感分类方法
- DOI:--
- 发表时间:2019
- 期刊:南京信息工程大学学报
- 影响因子:--
- 作者:林悦;钱铁云
- 通讯作者:钱铁云
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
钱铁云的其他基金
面向细粒度自然语言处理的反事实数据增强方法研究
- 批准号:62276193
- 批准年份:2022
- 资助金额:53 万元
- 项目类别:面上项目
社会媒体中的垃圾用户集团识别方法研究
- 批准号:61572376
- 批准年份:2015
- 资助金额:63.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}