腾讯文本忽略系统 TexSmart 中的细粒度实体识别关键技术

来源：安全 2024年01月13日 12:17

构上好的单独集合-类型库中所，文法与“煮出”各个方面的更加多是食用或饮料类型的 mention，与 company 类相比，这里的“小米”更加可能属于 fruit 类，由此借助了消歧。

这类法则或多或少不存在一些缺点，首先，该英语词典所需所需大，对于重上新单独难以很好地辨认，其次，我们也面临该英语词典规模与其余部分率的折衷疑问。

2. 无全权负责和有全权负责的组合出法则

为了缓解这一疑问，我们提显露了一种组合出线性。在粗粒度上，由于类型数量较少，可以通过少量页面数据资料基础训练显露一个有全权负责数学方法，在细粒度的类型预报上改用无全权负责法则，最后将两者结合，联合废话显露最优的细粒度类型。

如由此可知，对于“王为青松”这一该英语词典中所很难的 mention，在无全权负责中所数学方法中所难以直接预报，但有全权负责数学方法将其预报为 person；又如“流浪者天王为星”在有全权负责数学方法中所被预报为（work, generic），在无全权负责数学方法中所被预报为（work,movie），经过联合，先导预报结果为（work,movie）。

可以看到，我们的 Hybrid 法则在 Base 基础上拿到了有效地强化。

；还有

基于类似于单独推论的远程全权负责法则

在细粒度单独辨认的场面下，由于文法甚为复杂，或者是甚为简短而兼具上新名词，因此很难所学有效地的指显露。在 ACL2022上，我们刊发了一篇基于类似于单独推论的法则，其总括类似于检索法则，即通过类似于的单独推论显露目的单独。

我们将类似于单独并不一定为 Sibling Mentions（一般情况下，Mention 均是由辨认前所的单独，为方便概括，在 Slides 中所我们混同了 Mention 和单独，请注意），类似于单独指该单独与目的单独兼具相同或类似于的概念分布，如 country 和 nation。在体系结构中所，我们常会发现文法中所显露现了与辨认单独类似于的“兄弟单独”，即 Sibling Mention，这类单独是否能帮助我们推论显露目的单独。

我们将其动态出一种烯丙基由此可知疑问，即由此可知中所有两类路由器，一类是 Mention，一类是 Type；三种人关系，Mention 两者之间的“兄弟”人关系、Type 两者之间的层级形态以及基础训练数据资料中所已有 “is-a” 的人关系，并不相同 Mention 与 Type 两者之间的人关系。

之后，改用由此可知数据资料分析法则研修烯丙基由此可知中所的路由器指显露，并透过路由器归入。

1. 如何解决疑问类似于单独

首先，在类似于 Mention 的检测各个方面，我们改用了两种法则：

① Word distribution-based metric

首先，改用 TF-IDF 将 mention 中所的该词映射出零散矩阵，他用余弦类似于度法则透过类似于度量度。

② Typing distribution-based metric

另外一种更加正确地的法则是在基础训练数据资料上先基础训练一个轻量单独辨认数学方法，运用于数学方法对单独来作初步一般来说预报，并将预报的 Type 电姪邮件作为本质知识。

2. 如何推论目的单独

由此可知数据资料分析动态了由此可知上路由器传播的全过程，即如何通过女主人路由器的电姪邮件更加上新举例来说所路由器电姪邮件。我们改用一种自注意力由此可知数据资料分析，由于在由此可知上有 Mention 路由器与 Type 路由器两种一般来说，对于 Type 路由器，我们通过姪路由器更加上新上层从父路由器；对于 Mention 路由器，我们通过 Sibling mention 和 ground truth 的 Type 更加上新路由器的指显露，在预报时，用最后一层数据资料分析的路由器来作归入即可。

但是，这种法则不存在着 ground truth 泄漏疑问，使得数学方法变异到只注目 ground truth 中所的 type 女主人，即只预报这一种 type。为了克服这一疑问，我们改用一种 Dropout 的法则，在构由此可知时，对于每一个 mention，其每一个女主人都有一定概率被丢弃，使得预报数学方法所需“自食其力”，进而更佳预报的精准度。

3. 可引入的数学方法废话

在数学方法废话全过程中所，则有重上新 mention，首先将它作为一个路由器投身于由此可知，与基础训练大部分所的类似于单独相连。差值得注意的是，上新 mention 是很难 Type 女主人的（这正是我们所需预报的），且我们以 batch 的方式则投身于，投身于的一批 mentions 两者之间也很难边的关联。

之后，在保有原匹配不变的情况下，可用由此可知数据资料分析想得到路由器指显露，他用于路由器归入。从结果来看，我们在以往的 baseline 中所想得到了相当明显的强化。

我们也来作了各个方面消融试验中，验证类似于单独的有效地性。我们并不一定了三种指标，分别是 Purity、Coverage 和 Quality，分别并不相同 Precision、Recall 和 F1-score。

试验中中所，对于寻找类似于单独，我们的两种法则与随机取单独、基于 ground truth 取单独来作了比较，可以可知，当类似于单独并不一定地越多好时，路由器归入的精准度也越多好。

；还有

多源融入的Zero-shot法则

多源可以阐释为一种多视角研修，Zero-shot 在单独归入中所可以并不一定为在基础训练大部分所全然很难从未见过的单独。

我们认为，Zero-shot 的核心是所需出立基础训练时单独类型和废话时单独类型的语义各个方面性，在单独归入战斗任务中所如此，其余战斗任务亦然。为了出立这一种各个方面性，我们所需带入辅助电姪邮件。

辅助电姪邮件源主要统称三类：

（1） Context consistency

把 Type 当作一个该词，从自然语言数学方法的显露发点动态举例来说所的 Type 与文法的各个方面性。

（2）Type hierarchy

Type 两者之间的各个方面性可以通过 Ontology 树根想得到，例如，当预报篇名所单独的一般来说为 Organization 时，我们倾向于全面性预报单独为 Corporation 或 Government，而非 fruit。

（3）Background Knowledge

Protypes：为 Type 选择一个兼具均是由性的 mention。Descriptions：通过 WordNet 获取关于每个 Type 该词的描述电姪邮件。

为了对前所面三种电姪邮件分别动态。

（1） Context-Consistency-Aware Module（CA）

我们首先通过大规模预基础训练自然语言数学方法（如，BERT），捉到举例来说所 Type 和其文法语义上的通用性。

（2） Type-Hierarchy-Aware Module（HA）

Hierarchy-aware type encoder

仿造 Transformer 的理想主义，由于 Type 两者之间的人关系是不具顺序的，因此去掉其中所的 position embedding。对于 self-attention 机制，我们针对 Type 的层级形态表现形式，使得每个 Type 只 attend 它的从父路由器和它自己。

为了借助这一点，我们带入一个 MASK 行列式，当两个路由器两者之间不所需 attention，我们就将行列式元素置为－∞，在经过 softmax 之后差值就趋近0。

Mention-context encoder

可用 ELMo 研修该词矩阵，并对 Mention 及其 context 的该词矩阵透过一组。

出立财产损失函数如下：

（3） Background-Knowledge-Aware Module（KA）

我们将其动态为多前所提的译文显显露战斗任务，前所提即为 Context、Prototype 和 Description。

在财产损失函数上，仿造知识由此可知谱指显露研修中所的 Trans 第三部应用，使结论的指显露和前所提指显露加痛快尽可能相等，财产损失函数指显露如下：

最终在基础训练和验证时，得分由三个姪数学方法的得分想得到，根据验证集对三个姪数学方法相应增设匹配。

在 BBN 和 Wiki 两个数据资料集上，对比 Baseline 强化4～5个点。

在有全权负责试验中上，只回避粗粒度结果显示，重复一部分作为验证。

同时，我们也回避每个辅助电姪邮件源的精准度，透过消融试验中。

此外，我们发现当 context 越多长时，精准度越多好。

对每一个辅助电姪邮件源的预报能够，我们来作如下试验中。

上由此可知中所未重合的部分指显露只有该部分的辅助电姪邮件源很难预报，有共有16.05%的例姪是三种辅助电姪邮件源都难以预报的，有待全面性探讨。

；还有

猜谜7集

1. TextSmart 差值得注意在细粒度 NER 战斗任务中所的表现，以及更全面性规划？

A1：更全面性将在如何设计 Span 上来作全面性探讨，现今所在细粒度单独辨认上的表现大多都比较好。

2. Prototype 都是基础训练集数据资料中所选择的吗？

A2：我们引用了2016年的一篇 Entity typing 各个方面临时工[6]，可用了他们的开源数据资料。

3. 在烯丙基由此可知路由器指显露中所，为什么要消退烯丙基由此可知，是否有尝试过其他的 GNN 法则？

A3：我们在这里的侧重点在如何用 Sibling Type 所学目的单独，可用烯丙基由此可知只是因为我们的有两类路由器，三种边，并很难阐释烯丙基由此可知的特性，可以之前尝试其他由此可知数据资料分析法则。

；还有

参考文献

[1]

[2]

[3]

[4]

[5]

今天的共有享就到这里，谢谢大家。

｜共有享郑裕玲｜

蒋海云博士｜谷歌 AI Lab Senior研究员

蒋海云，男，2020年博士毕业于武汉大学数据资料物理斜向，主要研究都有知识由此可知谱、译文阐释，文法生出等，在 ACL，EMNLP，IJCAI、AAAI、ICDE 等会议刊发论文20余篇。

｜DataFun上新媒体行列式｜

｜关于DataFun｜

不感兴趣于大数据资料、人工智能应用应用的共有享与交流。发起于2017年，在北京、苏州、深圳市、温州等周边地区举行最多100+线下和100+线上达利、论坛及高峰会议，已引荐最多2000位专家和学者参与共有享。其公众号 DataFunTalk 累计生产原创文章900+，百万+阅读，16万+精准粉丝。

。

打呼很厉害吃什么药
拉肚子吃什么药效果好
双醋瑞因胶囊吃了伤胃吗
腱鞘炎痛吃什么药止痛
孩子不吃饭有什么好方法

标签：关键技术文本系统实体

上一篇：【科学教育】对比初中科学，高中科学难在哪儿？

下一篇：赛为智能(300044.SZ)：2022年度EVA产品收入预计仅429.75万元占比较低