·依存句法分析
(2)MaxEnt依存句法分析
HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),
HanLP作者的原文介绍已经写得比较清楚,唯一要注意的是原文章中介绍的依存句法分析器为早期版本,输出的依存关系为英文,现在应该变为中文,而且从测试结果看,训练语料应该已经更新了,但是更新为了那个语料现在还不会是很清楚。
基于最大熵的依存句法分析器
from pyhanlp import *
# 依存句法分析
sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。")
print(sentence)
for word in sentence.iterator(): # 通过dir()可以查看sentence的方法
print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()
# 也可以直接拿到数组,任意顺序或逆序遍历
word_array = sentence.getWordArray()
for word in word_array:
print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()
# 还可以直接遍历子树,从某棵子树的某个节点一路遍历到虚根
CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")
head = word_array[12]
while head.HEAD:
head = head.HEAD
if (head == CoNLLWord.ROOT):
print(head.LEMMA)
else:
print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))
1 徐先生 徐先生 nh nr _ 4主谓关系 _ _
2 还还d d _ 4 状中结构 _ _
3 具体具体a ad _ 4状中结构_ _
4 帮助 帮助 v v _ 0 核心关系_ _
5 他 他 r r _ 4 兼语 _ _
6 确定 确定 v v _ 4 动宾关系 _ _
7 了 了 u u _ 6右附加关系 _ _
8 把把 p p _ 15 状中结构 _ _
9 画 画 v v _ 8 介宾关系 _
10 雄鹰 雄鹰 n n _ 9动宾关系_ _
11、、wp w _ 12 标点符号_ _
12 松鼠 松鼠
n n _ 1013
14
15
16
17
18
##核心##
MaxEntDependencyParser = JClass("com.hankcs.hanlp.dependency.MaxEntDependencyParser")
print("hankcs每天都在写程序")
print(MaxEntDependencyParser.compute("hankcs每天都在写程序"))
print("吴彦祖每天都在写程序")
print(MaxEntDependencyParser.compute("吴彦祖每天都在写程序"))
hankcs每天都在写程序
1 hankcs hankcs x x _ 6
2
3
4
5
6
1
2
3
4
5
6