对之前昙花一现的短文本抽取标题功能的改进(脑洞)

Hi,之前marginnote有上线一个短暂的功能,短文本摘要,但感觉实际效果不佳。我最近对自然语言处理有一些学习,尝试使用BERT神经网络模型结合Seq2Seq做一个短文本的摘要(实际上是UNILM方案),然后训练了一个神经网络来做短文本摘要。

以下是一些结果,呃,神经网络摘要的缺点之一是不够稳定。

短文一:
5月12日23时30分,中央纪委国家监委官网发布重磅,原中国船舶重工集团有限公司党组书记、董事长胡问鸣涉嫌严重违纪违法,目前正接受中央纪委国家监委纪律审查和监察调查。

摘要一:
中国船舶重工集团有限公司胡问鸣涉嫌重重违纪问题

短文二:
夏天来临,皮肤在强烈紫外线的照射下,晒伤不可避免,因此,晒后及时修复显得尤为重要,否则可能会造成长期伤害。专家表示,选择晒后护肤品要慎重,芦荟凝胶是最安全,有效的一种选择,晒伤严重者,还请及时就医 。

摘要二:
阳光下晒后护肤品的研究

短文三:
《荷塘月色》是中国文学家朱自清任教清华大学时所写的一篇散文,因收入中学语文教材而广为人知,是现代抒情散文的名篇。文章写了荷塘月色美丽的景象,含蓄而又委婉地抒发了作者不满现实,渴望自由,想超脱现实而又不能的复杂的思想感情,为后人留下了旧中国正直知识分子在苦难中徘徊前进的足迹。寄托了作者一种向往于未来的政治思想,也寄托了作者对荷塘月色的喜爱之情。

摘要三:
荷塘月色》的文学与写作

短文四:
5月22日,黑龙江省融媒重点项目“极光新闻”客户端正式上线。作为一个全新的新闻资讯权威发布平台、政务服务智慧平台和行业发展成果展示平台,“极光新闻”客户端集“新闻+政务+服务”于一体。5月20日,全国首家区块链新闻编辑部成立,这是由“极光新闻”和全国12家省级主流媒体共同打造的全国第一个云上新闻编辑部。

摘要四:
极光新闻客户端的设计与实现

这个模型的性能通过比较一些学术摘要评测指标,已经是SOTA级别,这也是目前神经网络能做到最好的效果了。

学术指标

个人模型指标

不过缺点也有很多:

  1. BERT推理速度较慢,有GPU支持的话为0.7S,没有就4.5S响应(跟CPU有关系)
  2. 若部署到移动端,需要专门的模型裁切和蒸馏(刚入门,还不会,汗)
  3. 不稳定,遇到无厘头文章会出现字词重复(网络不稳定),在新闻和论文中表现最好
  4. 不能够多语言,目前训练这个是中文版本的,英文版本需要另一个模型重新训练,目前也没发现一个模型走天下,做完所有语言的摘要工作

以上就是我开的脑洞哈 :joy:,像这种操作距离实际应用还有很长距离。但是我想,自然语言处理技术或许真的能帮助优化软件。

顺便提交在谷歌colab的训练代码标题提取.ipynb.zip (11.2 KB)

5 个赞

其实模型裁切和蒸馏也能显著提高响应速度,但是目前还不会GG :joy:

:exploding_head: :exploding_head:对devonthink、印象笔记的笔记相关性分析功能感兴趣的人来说,这是一个劲爆的话题,打开了计算机智能辅助这个缺口。

2 个赞

非常有趣!MN插件接口开放的基础上,可以探讨一些好玩的用法

(其实之前短暂上线后,发现效果不是很好,所以转标题这个功能改为了插件)