自然语言处理

任课教师:孙宇清教授

答疑地点:科研楼222+课程QQ群

开设学期:2024年春季学期

上课时间:第2-17周,周四上午三四节课10:00-12:00

上课地点:山东大学(软件园校区)5区108教室

l《自然语言处理》课程大纲[doc]

l《自然语言处理》实验环境要求和资源下载[doc]

l《自然语言处理》课程安排[doc]

注:如需课程资源密码,请下载并填写申请表点击下载后发送至邮箱sun_yuqing@sdu.edu.cn,1061882403@qq.com,填写申请表https://www.wjx.cn/vm/hQCI4gR.aspx

章节

日期

主题

课件

补充材料

数据集

代码

绪论

2024年2月29日

自然语言处理介绍

[mp4]

课程笔记

相关工作

Google News

Wikipedia + Giga word

Twitter

word2vec

GloVe

第一章

2024年2月29日

词汇和词汇向量化

[mp4]

WordNet

[mp4]

2024年3月7日

词向量介绍

[mp4]

词向量评估

[mp4]

第二章

2024年3月14日

分词


课程笔记

SIGHAN Bakeoff 2005

jieba

第三章

2024年3月21日

语言模型

[mp4]

相关工作

Wikitext-2

wikitext-103

RNNLM

GPT-2

GPT-3

第四章

2024年3月28日

句法分析

[mp4]

课程笔记

相关工作

Penn Treebank

LAL-Parser

依存句法分析(一)

[mp4]

依存句法分析(二)

[mp4]


2024年4月4日

清明节放假,学校未安排补课。

第五章

2024年4月11日

词性标注(一)

[mp4]

课程笔记

相关工作

Tweebank CoNLL 2003 (English)

Ontonotes v5 (English)

ACE

BERTweet

词性标注(二)

[mp4]

第六章


2024年4月25日

命名实体识别

[mp4]

NER综述

相关工作

CoNLL 2003 (English)

Ontonotes v5 (English)

OntoNotes 4.0

Biaffine-NER

BERT-MRC

关系抽取和知识图谱

[mp4]

第七章

20245月2日


文本编码方法

[mp4]

课程笔记

面向少量标记样本的文本分类综述

相关工作

AG News

DBpedia

20NEWS

MR

IMDB

SQuAD

SST

CNN文本分

XLNet

文本分类

[mp4]

第八章

2024年5月9日


机器翻译(一)

[mp4]

课程笔记

相关工作

WMT2014 English-German

WMT2014 English-French

Transformer Cycle

Transformer+BT

机器翻译(二)

[mp4]

第九章

2024年5月16日

问答系统

[mp4]

相关工作

SQuAD

MS MARCO

TriviaQA

Natural Questions

WikiQA

NewsQA

LUKE

自动摘要

[mp4]

相关工作

DUC-2001~2007

TAC-2008~2015

Gigawords

LCSTS

CNN/DailyMail

pointer-generatorrxf

第十章

2024年5月23日

2024年5月30日

注意力机制、模型结构和大模型预训练和精调技术



c4

llama

alpaca

Chinese-Vicuna

第十一章

2024年6月6日

2024年6月13日

长文本处理、数据标注、模型可解释性、伦理道德等社会问题

[mp4]




[mp4]


章节

主题

补充材料

第一章

词汇和词向量

GloVe: Global Vectors for Word Representation[pdf]
Efficient Estimation of Word Representations in Vector Space[pdf]
Distributed Representations of Words and Phrases and their Compositionality[pdf]

第二章

分词

Sub-Character Tokenization for Chinese Pretrained Language Models[pdf]

第三章

语言模型

A neural probabilistic language model[pdf]
On the difficulty of training recurrent neural networks[pdf]

第四章

句法分析

A Fast and Accurate Dependency Parser using Neural Networks[pdf]
Stack-Pointer Networks for Dependency Parsing[pdf]
Deep Biaffine Attention for Neural Dependency Parsing[pdf]

第五章

文本序列标注

Bidirectional LSTM-CRF models for sequence tagging[pdf]
End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF[pdf]

第六章

信息抽取

A Light Transfer Model for Chinese Named Entity Recognition for Specialty Domain[pdf]
Early Results for Named Entity Recognition with Conditional Random Fields FeatureInduction and Web-Enhanced Lexicons[pdf]
A Unified MRC Framework for Named Entity Recognition[pdf]
Distant supervision for relation extraction without labeled data[pdf]

第七章

文本分类

A Survey on Text Classification: From Shallow to Deep Learning[pdf]
Convolutional Neural Networks for Sentence Classification[pdf]

第八章

机器翻译

BLEU: a Method for Automatic Evaluation of Machine Translation[pdf]
Learning Phrase Representations using RNN Encoder–Decoder for Statistical MachineTranslation[pdf]
Neural Machine Translation by Jointly Learning to Align and Translate[pdf]

第九章

问答系统与自动摘要

Know What You Don't Know: Unanswerable Questions for SQuAD[pdf]
A thorough examination of the CNN/daily mail reading comprehension task[pdf]
Bidirectional attention flow for machine comprehension[pdf]
Dynamic coattention networks for question answering[pdf]
TextRank:Bringing Order into Texts[pdf]
SummaRuNNer: A Recurrent Neural Network based Sequence Model for ExtractiveSummarization of Documents[pdf]
Get to the point: Summarization with pointer-generator networks[pdf]

第十章

大语言模型

Attention Is All You Need[pdf]
Deep contextualized word representations[pdf]

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[pdf]

GPT-4 Technical Report[pdf]

第十一章

前沿问题讨论

What do you learn from context? Probing for sentence structure in contextualized word representations[pdf]
Talkin' 'Bout AI Generation: Copyright and the Generative-AI Supply Chain[pdf]



课外资源:

l李沐-动手学深度学习

课程官网:《动手学深度学习》 — 动手学深度学习 2.0.0-alpha2 documentation (d2l.ai)

视频回放:跟李沐学AI的个人空间_哔哩哔哩_bilibili