Hi,之前marginnote有上线一个短暂的功能,短文本摘要,但感觉实际效果不佳。我最近对自然语言处理有一些学习,尝试使用BERT神经网络模型结合Seq2Seq做一个短文本的摘要(实际上是UNILM方案),然后训练了一个神经网络来做短文本摘要。
以下是一些结果,呃,神经网络摘要的缺点之一是不够稳定。
短文一:
5月12日23时30分,中央纪委国家监委官网发布重磅,原中国船舶重工集团有限公司党组书记、董事长胡问鸣涉嫌严重违纪违法,目前正接受中央纪委国家监委纪律审查和监察调查。
摘要一:
中国船舶重工集团有限公司胡问鸣涉嫌重重违纪问题
短文二:
夏天来临,皮肤在强烈紫外线的照射下,晒伤不可避免,因此,晒后及时修复显得尤为重要,否则可能会造成长期伤害。专家表示,选择晒后护肤品要慎重,芦荟凝胶是最安全,有效的一种选择,晒伤严重者,还请及时就医 。
摘要二:
阳光下晒后护肤品的研究
短文三:
《荷塘月色》是中国文学家朱自清任教清华大学时所写的一篇散文,因收入中学语文教材而广为人知,是现代抒情散文的名篇。文章写了荷塘月色美丽的景象,含蓄而又委婉地抒发了作者不满现实,渴望自由,想超脱现实而又不能的复杂的思想感情,为后人留下了旧中国正直知识分子在苦难中徘徊前进的足迹。寄托了作者一种向往于未来的政治思想,也寄托了作者对荷塘月色的喜爱之情。
摘要三:
荷塘月色》的文学与写作
短文四:
5月22日,黑龙江省融媒重点项目“极光新闻”客户端正式上线。作为一个全新的新闻资讯权威发布平台、政务服务智慧平台和行业发展成果展示平台,“极光新闻”客户端集“新闻+政务+服务”于一体。5月20日,全国首家区块链新闻编辑部成立,这是由“极光新闻”和全国12家省级主流媒体共同打造的全国第一个云上新闻编辑部。
摘要四:
极光新闻客户端的设计与实现
这个模型的性能通过比较一些学术摘要评测指标,已经是SOTA级别,这也是目前神经网络能做到最好的效果了。
学术指标
个人模型指标
不过缺点也有很多:
- BERT推理速度较慢,有GPU支持的话为0.7S,没有就4.5S响应(跟CPU有关系)
- 若部署到移动端,需要专门的模型裁切和蒸馏(刚入门,还不会,汗)
- 不稳定,遇到无厘头文章会出现字词重复(网络不稳定),在新闻和论文中表现最好
- 不能够多语言,目前训练这个是中文版本的,英文版本需要另一个模型重新训练,目前也没发现一个模型走天下,做完所有语言的摘要工作
以上就是我开的脑洞哈 ,像这种操作距离实际应用还有很长距离。但是我想,自然语言处理技术或许真的能帮助优化软件。
顺便提交在谷歌colab的训练代码标题提取.ipynb.zip (11.2 KB)