CORC  > 兰州理工大学  > 兰州理工大学  > 计算机与通信学院
不均衡大数据集下的文本特征基因提取方法
孙晶涛1; 张秋余2
刊名电子科技大学学报
2018-01-30
卷号47期号:2018年01期页码:125-131
关键词CHI统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取
ISSN号ISSN:1001-0548
英文摘要在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。
URL标识查看原文
WOS研究方向Engineering
语种中文
CSCD记录号CSCD:6170274
状态已发表
内容类型期刊论文
源URL[http://119.78.100.223/handle/2XXMBERH/2789]  
专题计算机与通信学院
作者单位1.西安邮电大学计算机学院, 西安, 陕西 710121, 中国
2.兰州理工大学计算机与通信学院, 兰州, 甘肃 730050, 中国
推荐引用方式
GB/T 7714
孙晶涛,张秋余. 不均衡大数据集下的文本特征基因提取方法[J]. 电子科技大学学报,2018,47(2018年01期):125-131.
APA 孙晶涛,&张秋余.(2018).不均衡大数据集下的文本特征基因提取方法.电子科技大学学报,47(2018年01期),125-131.
MLA 孙晶涛,et al."不均衡大数据集下的文本特征基因提取方法".电子科技大学学报 47.2018年01期(2018):125-131.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace