不均衡大数据集下的文本特征基因提取方法 | |
孙晶涛1; 张秋余2 | |
刊名 | 电子科技大学学报 |
2018-01-30 | |
卷号 | 47期号:2018年01期页码:125-131 |
关键词 | CHI统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取 |
ISSN号 | ISSN:1001-0548 |
英文摘要 | 在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。 |
URL标识 | 查看原文 |
WOS研究方向 | Engineering |
语种 | 中文 |
CSCD记录号 | CSCD:6170274 |
状态 | 已发表 |
内容类型 | 期刊论文 |
源URL | [http://119.78.100.223/handle/2XXMBERH/2789] |
专题 | 计算机与通信学院 |
作者单位 | 1.西安邮电大学计算机学院, 西安, 陕西 710121, 中国 2.兰州理工大学计算机与通信学院, 兰州, 甘肃 730050, 中国 |
推荐引用方式 GB/T 7714 | 孙晶涛,张秋余. 不均衡大数据集下的文本特征基因提取方法[J]. 电子科技大学学报,2018,47(2018年01期):125-131. |
APA | 孙晶涛,&张秋余.(2018).不均衡大数据集下的文本特征基因提取方法.电子科技大学学报,47(2018年01期),125-131. |
MLA | 孙晶涛,et al."不均衡大数据集下的文本特征基因提取方法".电子科技大学学报 47.2018年01期(2018):125-131. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论