2019!2020!

2019年的最后几天,我在想给这一年打上一个什么样的标签,让我十几二十年后还能想起来这一年。确实是,我记不清过去的二十几年,唯一的感触剩下时间匆匆。

2019年1月份,和xu在北大三教的咖啡厅搭了这个网站,与此同时进行的还有刷算法题,准备着一些东西。再往前推几天,我匆匆完成了研一上最后的考试,连夜收拾行李进城。和yingying在雁栖湖有很多美好的回忆,可惜那些事情发生在2018年了,2018年对我来说是煎熬的一年,有一种引力阻止我思考里头究竟发生了什么事情。不过最令我开心的是在2018年结束的时候,我收获了很多宝贵的友谊。

阅读全文

GPT

GPT在bert出现之前就与我们见面了,它利用了transformer的结构,在众多的任务中,取得了比较好的成绩。GPT的核心思想是 通过无标签的文本去训练生成语言模型,根据具体的NLP任务,利用新的数据进行finetune(和bert简直一模一样)。

阅读全文

finetune-诗句生成

原先的诗句生成模型仅仅利用了bert language model,而没有去利用诗句语料进行finetune,尽管language model生成的结果已经令人比较满意了。但是我们想知道在特定的数据集上进行finetune的话,结果是否能得到提升,于是这篇post主要完成这个工作:continue training。

阅读全文

bert的一些思考

观其大致,能够比较好的融会贯通,理解整个任务。这是这篇post的主要目的。

阅读全文

pytorch 重点回顾

pytorch 在日常实践中的一些常用的函数,工作流。

阅读全文

NLP实践 基于注意力机制的文本匹配

文本匹配是一个宽泛的任务,只要是研究两端样本之间的关系,都可以将这个问题看成文本匹配的问题。常见的任务场景有:

  • 相似度计算,复述识别
  • 问答系统
  • 对话系统
  • 自然语言推理、文本蕴含识别
  • 信息检索中的匹配
  • 机器阅读理解

阅读全文

NLP实践 文本分类任务

文本分类是NLP中的一个很经典的问题,通过这个问题可以熟悉NLP在处理这类问题的一个大致的思路,达到快速入门的目的。

阅读全文

图像的去噪

噪声在图像上通常表现为引起较强视觉效果的孤立像素点或像素块。通常噪声信号与要研究的对象不相关,以无用的信息的形式出现,下面的任务就是将噪声部分消去,使其对图像的影响最小。

阅读全文

NLP模型finetune:GPT到Bert(三)

NLP模型的预训练方式有ELMO的方式,基于特征的融合,通过学习句子的上下文语境来判断句子中多义词的含义,解决多义词歧义的问题,从而提升模型的性能。

另一种更类似于图像领域的预训练方式为fine tuning模式,该模式有一个代表,即GPT网络。

阅读全文

NLP之transformer(二)

NLP任务的输入往往是一句话或者是一篇文章,他有几个特点:

  • 输入是一个一维线性序列
  • 输入是不定长的
  • 输入单词的相对位置非常的重要
  • 句子中的长特征对理解句子非常的重要(距离很远的词)

一个合格的特征抽取器应当很好的适配领域问题的特点,能够充分抽取数据中的特征。

阅读全文