Introduction

本文最后更新于 2026年3月11日 晚上

北京大学信息科学技术学院 自然语言处理基础(2026春)的课程笔记

第一部分:Introduction

课程评分:作业+Lab(60%) 期中考试(30%) 课堂表现(20%)
bouns:presentation(1%~3%)
参考教材:Speech and Language Processing. Dan Jurafsky and James H.Martin, 3rd Edition (Jan. 6, 2026 release),https://web.stanford.edu/jurafsky/slp3/
本课程针对大二学生开设,主要讲解文本与自然语言,但不cover神经网络大模型的理论,多智能体,强化学习等

什么是一门语言

牛津/剑桥词典上都有冗长严谨的定义,此处我们不赘述了()
ppt定义:语言是人类获取使用复杂交流系统的能力,任何形式的这种系统都可以称之为语言。
程序中使用的cpp,python等被称为形式语言,人类使用的语言则是自然语言
为了了解一门语言,我们可能需要知道形态学、句法学、语义学、语用学、语言生成等多方面知识

自然语言处理

NLP的任务就是帮助计算机可以用人类的自然语言进行输入输出
输入:自然语言理解 输出:自然语言生成
发展至今仍然有不少问题,如chatgpt、gemini无法解决在手机号码的倒数第三位中添加一个数字的任务
NLP的应用:数据处理、情感分析、与机器对话、智能人机接口、文章摘要、写新闻写诗、机器翻译

为什么理解语言如此之难

语言处处皆是歧义,下面是几个有趣的例子

“本科”一词多义 “一个半小时”断句不清

ppt上还有很多例子,中英文都有,这里不再一一列举

更多的挑战

语言多样性:中国数百种方言,全球7000+种语言
词汇稀疏性:很多词汇出现频率极低(Zipf’s Law)

自然语言处理中的方法

从数据中学习,如今海量文本已经以数字形式存在
所谓的经验性方法(Empirical Methods):利用统计/机器学习模型,通过海量数据"Pre-train THE WORLD"
ACL(The Association for Computational Linguistics)为计算语言学顶会,可能被误解为亚冠足球联赛或者前交叉韧带损伤()


Introduction
http://example.com/2026/03/11/fnlp1/
作者
Yjy
发布于
2026年3月11日
更新于
2026年3月11日
许可协议