就职演说语料库 该语料库是 55 个文本的集合,每个文本都是一个总统的演说。这 个集合的一个有趣特性是它的时间维度:
结果如下: [‘1789-Washington.txt’, ‘1793-Washington.txt’, ‘1797-Adams.txt’, ‘1801-Jefferson.txt’, ‘1805-Jefferson.txt’, ‘1809-Madison.txt’, ‘1813-Madison.txt’, ‘1817-Monroe.txt’, ‘1821-Monroe.txt’, ‘1825-Adams.txt’, ‘1829-Jackson.txt’, ‘1833-Jackson.txt’, ‘1837-VanBuren.txt’, ‘1841-Harrison.txt’, ‘1845-Polk.txt’, ‘1849-Taylor.txt’, ‘1853-Pierce.txt’, ‘1857-Buchanan.txt’, ‘1861-Lincoln.txt’, ‘1865-Lincoln.txt’, ‘1869-Grant.txt’, ‘1873-Grant.txt’, ‘1877-Hayes.txt’, ‘1881-Garfield.txt’, ‘1885-Cleveland.txt’, ‘1889-Harrison.txt’, ‘1893-Cleveland.txt’, ‘1897-McKinley.txt’, ‘1901-McKinley.txt’, ‘1905-Roosevelt.txt’, ‘1909-Taft.txt’, ‘1913-Wilson.txt’, ‘1917-Wilson.txt’, ‘1921-Harding.txt’, ‘1925-Coolidge.txt’, ‘1929-Hoover.txt’, ‘1933-Roosevelt.txt’, ‘1937-Roosevelt.txt’, ‘1941-Roosevelt.txt’, ‘1945-Roosevelt.txt’, ‘1949-Truman.txt’, ‘1953-Eisenhower.txt’, ‘1957-Eisenhower.txt’, ‘1961-Kennedy.txt’, ‘1965-Johnson.txt’, ‘1969-Nixon.txt’, ‘1973-Nixon.txt’, ‘1977-Carter.txt’, ‘1981-Reagan.txt’, ‘1985-Reagan.txt’, ‘1989-Bush.txt’, ‘1993-Clinton.txt’, ‘1997-Clinton.txt’, ‘2001-Bush.txt’, ‘2005-Bush.txt’, ‘2009-Obama.txt’]
让我们来看看词汇 america 和 citizen 随时间推移的使用情况。下面的代码使用 w.lower()将就职演说语料库中的词汇转换成小写。然后用 startswith()检查它们是否以“目标”词汇 america 或 citizen 开始。因此,它会计算如 American’s 和 Citizens 等词。
NLTK中定义的基本语料库函数:
NLTK 中的条件频率分布
以字母 a 结尾的名字几乎都是女性。我们可以在下图中看到这一 点以及一些其它的模式:
WordNet WordNet是面向语义的英语词典,类似于传统字典。它是NLTK语料库的一部分,可以被这样调用:
查看一个单词的同义词集用synsets(); 它有一个参数pos,可以指定查找的词性。这里得到的同义词集是同义词集的集合:
Note: - 一个synset(同义词集:指意义相同的词条的集合)被一个三元组描述:(单词.词性.序号)。这里的’fuck.n.01’指:fuck的第一个名词意思;’sleep_together.v.01’指:sleep_together的第一个动词意思. - pos可为:NOUN、VERB、ADJ、ADV…
fuck被定义为fuck.n.01的第一个名词意义。与fuck.n.01意义相同的词的集合如下:
同义词集也有一些一般的定义和例句:
同义词 WordNet 使在概念之间漫游变的容易。例如:一个如 fuck 这样的概念,我们可以看到它的更加具体(直接)的概念—— 下位词
我们也可以通过访问上位词来浏览层次结构。
synset1.path_similarity(synset2): 是基于上位词层次结构中相互连接的概念之间的最短路径在0-1范围的打分(两者之间没有路径就返回-1)。同义词集与自身比较将返回1:
中文语料库
下载安装sinica_treebank就能使用了。
来看一下NLTK中文语法树。