从0到1构建新闻长文本分类系统

新闻分类系统概述新闻分类系统，顾名思义，就是对于一片新闻或者是一片文章，进行自动的分类,例如政治，财经，娱乐等等从技术角度讲，其实属于自然语言处理中比较经典的文本分类问题。当然在一个工业级别的分类系统当中，会遇到各种各样的问题，例如语料优化，文本预处理，特征抽取，模型选择及融合，硬规则等一系列问题。本人有幸在国内某一线互联网公司做过相关的工作，故做一些总结。分类系统架构设计对于...

Johnson0722

2840人浏览 · 2019-02-11 17:06:25

Johnson0722 · 2019-02-11 17:06:25 发布

新闻分类系统概述

新闻分类系统，顾名思义，就是对于一片新闻或者是一片文章，进行自动的分类,例如政治，财经，娱乐等等
从技术角度讲，其实属于自然语言处理中比较经典的文本分类问题。当然在一个工业级别的分类系统当中，会遇到各种各样的问题，例如语料优化，文本预处理，特征抽取，模型选择及融合，硬规则等一系列问题。本人有幸在国内某一线互联网公司做过相关的工作，故做一些总结。

分类系统架构设计

对于传统的分类系统来讲，就是如下这几个模块，包括文本预处理，特征抽取，特征选择，模型训练等。但是对于一个工业级的分类系统来说，这是远远不够的。
这里写图片描述
更加详细的分类模及每个模块的组件如下所示，将每个模块的结果都存入DataFlow用于定位问题。规则干预系统可以短期处理模型解决不了的case。

基本流程

文本预处理
文本预处理主要是指分词（涉及到分词粒度的选取），停留词，高频词和低频词的过滤。值得注意的是，训练时的处理流程和预测时的处理流程要保持一致，否则很有可能出现训练和测试分词不一致的情况，从而影响整个分类系统的性能。
特征抽取
特征抽取主要是从新闻的标题，正文中提取出特征，把新闻转换成固定维度的向量。
对于深度模型而言，可能不需要做特征抽取的工作，端到端直接训练即可。例如,fasttext,textcnn；
对于传统的机器学习模型来说，特征工程的质量会直接影响模型的分类性能；
在我的分类系统中，特征抽取主要包含三个方面：
- n-gram单词特征
- 实体归一化特征
- 人工特征
n-gram特征，即如果是uni-gram，文本里面每个单词就是一个特征，如果是bi-gram，那么文本里面连续的两个单词也是一个特征。通常来讲，一般是uni-gram+bi-gram。n如果很大的话，特征会非常稀疏，导致特征向量维度过大
实体归一化特征是指，对于某些实体，可以将其映射到一个实体桶中，从而增加特征的泛化性能。例如"花千骨" ->“娱乐_电视剧”，“反恐精英” ->"游戏_射击游戏"等等。但有两个问题是，很多实体有歧义，对于这种实体可以不将其归一化，也可以根据上下文进行实体消歧（不在本文讨论范围内）；第二个问题是实体归一化依赖于人工运营，且需要不断的更新，需要比较多的人力成本，但是对整个分类系统的改进也是非常明显的。
人工特征其实就是认为的设计一些规则，如果命中规则，那么就补充特征。相比于硬规则（命中规则就分到某个类别），更加平滑。
实际得到的特征是以上三类特征的级联
特征过滤及特征选择
特征过滤：
卡方检验进行特征选择：
基分类器的选取及训练
选用了四个模型fasttext, svm, pa, nb

nb训练速度快，对于大规模训练语料，几分钟就能训练完，而且解释性比较好。但缺点就是模型分类性能比较弱，因为特征独立的假设在新闻分类任务中应该是不成立的。
svm分类效果是最好的，但是训练时间比较长。
fasttext是端到端的训练，不依赖特征工程，训练效果也非常不错，但是可解释性比较差。
pa

上述的nb,svm,pa在sklearn中都有统一的接口可以直接调用，fasttext也有封装好的api，因此训练起来非常的方便。实际在做模型训练的时候，可以写一个统一的离线训练脚本。

模型融合策略
对于四个子模型，如果四个子模型或三个子模型预测的结果一致，则直接投票处理;
如果是其他情况，则可以考虑使用xgboost进行模型融合，具体的融合方法就是，对于每个样本来说，经过模型输出一个结果（可能是概率向量，即每个类别都对应的一个概率，实际去概率最大的那个类别），也可以经过各种平滑转换成概率向量。对于xgboost来说，输入就是每个子模型的输入的向量，输出就是类别。
规则系统
规则系统简单来说就是,当某个样本满足规则的时候，就将这个样本分到某个类别，而忽略模型的分类结果。比较硬，一般用于最新的新闻，比如最近"延禧攻略"等等。这种新闻因为语料库中没有相似的样本，所以分类很可能出错，使用规则可以短期处理这个问题，但是长期来看，可以将这批最新的数据加到语料中，重新训练模型。
需要注意的是：

规则上线之前都要做评估
尽可能减少对规则的依赖，可能会发生异常的后果

模型打包上线，对外提供服务

提升分类性能的小技巧

1. 新闻时效性问题
新闻的时效性问题很普遍，在一个工业级的产品中，有专门的算法去过滤过期的新闻。我们关心的是对于一些新的新闻，而且在训练语料中没有出现的特征，该怎么处理。短期可以用规则系统去解决。长期来讲，就要构造新的训练数据，和老训练数据做一定的融合，再进行特征抽取和特征选择，最后用总的数据重新训练再上线即可。
实际操作的时候可以写一个总的离线训练脚本，输入文件的路径，输出模型。脚本中包含特征抽取，模型训练，模型融合,模型评估等步骤,这样处理起来比较高效
2. 媒体直挂
对于一个feed流产品而言，很多的内容都是自媒体创造的，所以可以根据媒体的类型进行直挂。比如某个媒体是讲NBA的，那么这个媒体的内容大概率都是体育类。

3. 训练语料的分布及优化
训练语料中往往包含大量的噪声，如何对训练语料去噪也是一个比较头疼的问题。训练语料的优化主要包含三个个方面，一方面是某个类别的准确率很高，但是召回率不足；另一方面是准确率不足，召回率很高；还有就是准确召回都很低.
去噪手段：交叉验证，二分类器(置信度阈值)，降采样，关键词

对于准确率很高，召回率不足的类：查看哪些类别和该类混淆的比较多，训练一个二分类器从该类别中去去除噪声;或者说如果两个类别相互混淆，可以使用十折交叉验证（9份数据训练，对1份数据去噪，循环操作）的方法去噪。
对于准确率很低，但召回率很高的类：这种情况可以看看召回错误样本的分布，然后利用降采样或者关键词的手段去噪
对于准确和召回都比较低的类：这就很难了，先处理上面两种情况吧。所有的去噪手段都可以试试…

4. Debug信息管理
一个工业级别的分类系统当中，往往都需要分析badcase，如果系统只给出分类结果的话，很难去查错。正确的姿势应该是在系统的每个节点，都给出相关的信息。比如每个子模型的每个结果，融合后模型的分类结果，是否命中媒体直挂系统，是否命中规则系统等等，对于朴素贝叶斯模型，可以给出每个单词的权重。通过这种方式去分析badcase，可以直接找到错误的原因，提高效率.

分类系统服务化中的架构设计问题

这个不在本文讨论范围内，有兴趣的同学可以自己去了解

加权轮询
加权最小连接数
源地址散列调度

开源项目

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这

Cloudpods

所有评论(0)

查看更多评论

Johnson0722

@John_xyz

已为社区贡献1条内容