Introduction
本文最后更新于 2026年3月11日 晚上
北京大学信息科学技术学院 自然语言处理基础(2026春)的课程笔记
第一部分:Introduction
课程评分:作业+Lab(60%) 期中考试(30%) 课堂表现(20%)
bouns:presentation(1%~3%)
参考教材:Speech and Language Processing. Dan Jurafsky and James H.Martin, 3rd Edition (Jan. 6, 2026 release),https://web.stanford.edu/jurafsky/slp3/
本课程针对大二学生开设,主要讲解文本与自然语言,但不cover神经网络大模型的理论,多智能体,强化学习等
什么是一门语言
牛津/剑桥词典上都有冗长严谨的定义,此处我们不赘述了()
ppt定义:语言是人类获取使用复杂交流系统的能力,任何形式的这种系统都可以称之为语言。
程序中使用的cpp,python等被称为形式语言,人类使用的语言则是自然语言
为了了解一门语言,我们可能需要知道形态学、句法学、语义学、语用学、语言生成等多方面知识
自然语言处理
NLP的任务就是帮助计算机可以用人类的自然语言进行输入输出
输入:自然语言理解 输出:自然语言生成
发展至今仍然有不少问题,如chatgpt、gemini无法解决在手机号码的倒数第三位中添加一个数字的任务
NLP的应用:数据处理、情感分析、与机器对话、智能人机接口、文章摘要、写新闻写诗、机器翻译
为什么理解语言如此之难
语言处处皆是歧义,下面是几个有趣的例子
“本科”一词多义
“一个半小时”断句不清
ppt上还有很多例子,中英文都有,这里不再一一列举
更多的挑战
语言多样性:中国数百种方言,全球7000+种语言
词汇稀疏性:很多词汇出现频率极低(Zipf’s Law)
自然语言处理中的方法
从数据中学习,如今海量文本已经以数字形式存在
所谓的经验性方法(Empirical Methods):利用统计/机器学习模型,通过海量数据"Pre-train THE WORLD"
ACL(The Association for Computational Linguistics)为计算语言学顶会,可能被误解为亚冠足球联赛或者前交叉韧带损伤()