What is a promise in Javascript?

Question

Asked: 2020-04-10 11:41:26 +0800 CST 2020-04-10 11:41:26 +0800 CST 2020-04-10 11:41:26 +0800 CST

从 Python 中的正则表达式解析器中提取数据

772

我需要从汽车销售短语的NLP字符串中获取数据，并获取一个包含两个元素字典的数组，其类型为：

[
  {vehiculo:'Car', Cantidad: 1},
  {vehiculo:'Motorbike', Cantidad: 1}
]

除了从 Regex Parser 语法中提取标签这一最简单的事情之外，我几乎完成了所有工作。

目前我有以下内容：输入短语：“我卖了一辆汽车和一辆摩托车”

1.- 分割短语并获得：

['\nI sold a car and a motorbike']

2.- 代币化：

['I', 'sold', 'a', 'car', 'and', 'a', 'motorbike']

3.- Post Tagger 形态分析：

[('I', 'PRP'), ('sold', 'VBD'), ('a', 'DT'), ('car', 'NN'), ('and', 'CC'), ('a', 'DT'), ('motorbike', 'NN')]

4.- 具有以下语法的 RegexpParser：

    grammar = r'''
    Vehiculo: {<CD>*<NN>+}  
    {<JJ>*<NN>+}
    {<CD>*<NN><IN>*<NN>+}  
    Cantidad: {<JJ>}
    {<CD>}
    {<DT>}
    '''

我得到：

Parsed Sentence =  (S
  I/PRP
  sold/VBD
  (Cantidad a/DT)
  (Vehiculo car/NN)
  and/CC
  (Cantidad a/DT)
  (Vehiculo motorbike/NN))

我的问题是如何通过从前面的语句中提取标签和数据来获取这种类型的字典，使用一些命令，而无需手动搜索字符串中的文本：

[
  {vehiculo:'Car', Cantidad: 1},
  {vehiculo:'Motorbike', Cantidad: 1}
]

谢谢和问候，

2 Answers

Voted

abulafia · Answer 1 · 2020-04-11T04:21:27+08:00

RegexParser 的结果是 a Tree，因此它具有循环遍历它、展平它并对其执行大量操作的方法。如果不确切知道所有示例句子可以具有什么结构，或者句子是否可以包含不同数量的a等，就不可能给出一个通用的解决方案。在任何情况下，我都会向您展示一个适用于这种情况的代码示例，您现在可以根据自己的需要对其进行调整。

首先，为了让每个人都能重现代码，我展示import了分析的所有必要步骤和之前的步骤：

import nltk
from nltk.chunk import *
from nltk.chunk.util import *
from nltk.chunk.regexp import *
from nltk import Tree
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

sentence = "I sold a car and a motorbike"
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
grammar=r'''
    Vehiculo: {<CD>*<NN>+}  
    {<JJ>*<NN>+}
    {<CD>*<NN><IN>*<NN>+}  
    Cantidad: {<JJ>}
    {<CD>}
    {<DT>}
    '''
resultado = RegexpParser(grammar).parse(tagged)

如果您尝试仅打印该结果，您会得到它作为字符串的表示形式：

>>> print(resultado)
(S
  I/PRP
  sold/VBD
  (Cantidad a/DT)
  (Vehiculo car/NN)
  and/CC
  (Cantidad a/DT)
  (Vehiculo motorbike/NN))

但它resultado实际上是 type Tree。这使我们至少能够迭代其元素并进行相应操作。例如，如果元素是“叶子”（终端节点），它将是一个元组，其元素 [0] 是单词，元素 [1] 是词性。另一方面，如果它不是一个叶子，它将是一个带有新分支的中间节点（就像在 Quantity 和 Vehicle 案例中发生的那样）。在这种情况下，节点有一个.label()会给我们“数量”或“车辆”的值，以及它自己的子节点，这些子节点已经是叶子。

有了这些信息，我们可以设置如下循环：

data = []
for nodo in resultado:
    if type(nodo) == tuple:
      continue
    tipo = nodo.label()
    for elemento in nodo:
      if type(elemento) != tuple:
        continue
      palabra, categoria = elemento
      if tipo == 'Vehiculo':
        data.append(dict(vehiculo=palabra, cantidad=1))

最后，data它将包含：

[{'cantidad': 1, 'vehiculo': 'car'}, {'cantidad': 1, 'vehiculo': 'motorbike'}]

当然，正如我所说，这不是很笼统。每次出现车辆时，我都会计算它并输入数量=1。我不知道您是否应该能够支持诸如“我卖了两辆汽车和三辆摩托车”之类的短语，这会使事情变得相当复杂，或者您是否可以拥有具有更高嵌套级别的结构。无论如何，您已经有了一些拍摄地点的线索。另请参阅树文档。

Kelvinator · Answer 2 · 2020-01-21T05:59:04+08:00

最后我这样解决了，我想会有更简单的方法和更好的结果，但我当时的知识就是这样，希望对你有帮助：

# -*- coding: utf-8 -*-
"""
Created on Sat Mar 30 19:46:27 2019

Practica usando REGEX TAGGER

@author: Luis Martinez Martin
"""

# Importamos las librerias con las que vamos a trabajar
import nltk
from nltk.chunk.util import conlltags2tree, tree2conlltags
#from nltk import ChunkParserI
import nltk.chunk, nltk.tag
from nltk.corpus import conll2000

class UnigramChunker(nltk.ChunkParserI):
    def __init__(self, train_sents):
       train_data = [[(t,c) for w,t,c in nltk.chunk.tree2conlltags(sent)] 
                     for sent in train_sents]

       self.tagger = nltk.UnigramTagger(train_data)

    def parse(self, sentence):
       pos_tags = [pos for (word,pos) in sentence]
       tagged_pos_tags = self.tagger.tag(pos_tags)
       chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
       conlltags = [(word, pos, chunktag) for ((word,pos),chunktag)
                    in zip(sentence, chunktags)] 
       return nltk.chunk.conlltags2tree(conlltags)    


class BigramChunker(nltk.ChunkParserI):
    def __init__(self, train_sents):
        train_data = [[(t,c) for w,t,c in nltk.chunk.tree2conlltags(sent)] for sent in train_sents]
        self.tagger = nltk.BigramTagger(train_data)

    def parse(self, sentence):
        pos_tags = [pos for (words, pos) in sentence]
        tagged_pos_tags = self.tagger.tag(pos_tags)
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        conlltags = [(word, pos, chunktag) for ((word,pos),chunktag)
                    in zip(sentence, chunktags)] 
        return nltk.chunk.conlltags2tree(conlltags)    

class TrigramChunker(nltk.ChunkParserI):
    def __init__(self, train_sents):
        train_data = [[(t,c) for w,t,c in nltk.chunk.tree2conlltags(sent)]
        for sent in train_sents]
        self.tagger = nltk.TrigramTagger(train_data)

    def parse(self, sentence):
        pos_tags = [pos for (word,pos) in sentence]
        tagged_pos_tags = self.tagger.tag(pos_tags)
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        conlltags = [(word, pos, chunktag) for ((word,pos),chunktag)
        in zip(sentence, chunktags)]
        return nltk.chunk.conlltags2tree(conlltags) 


# Funcion de segmentacion de frases
def Segmentacion(menu):
    sentences = nltk.tokenize.sent_tokenize(menu)
    return (sentences)

# Función de tokenizacion    
def Tokenizacion(sentences):     
    tokens=nltk.word_tokenize(sentences,"spanish")
    return(tokens)

# Función de Analisis Morfologico POS Tagger
def Pos_Tag(tokens):
    tagged = nltk.pos_tag(tokens)
    return(tagged)

# Funcion RegexpParser
def RegPar(menu):  

    grammar = r'''
    Comida: {<CD>*<NN>+}  # numero (opcional) + uno o mas nombres  (1 bocadillo)
    {<JJ>*<NN>+}
    {<CD>*<NN><IN>*<NN>+}  # numero (opcional) + nombre + preposicion + nombre (1 bocadillo de calamares)
    Cantidad: {<JJ>}
    {<CD>}
    {<DT>}
    {<NN>}
    '''

    regex_parser = nltk.RegexpParser(grammar)
    parsed_sentence = regex_parser.parse(menu)

    return(parsed_sentence)

def GeneraArray(resultado):
    data = []
    for nodo in resultado:
        if type(nodo) == tuple:
          continue
        tipo = nodo.label()
        cant = 1
        for elemento in nodo:
          if type(elemento) != tuple:
            continue
          palabra, categoria = elemento

          if categoria == 'JJ' and (palabra == 'un' or palabra == 'una'):
              cant = 1

          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'dos'):
              cant = 2
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'tres'):
              cant = 3
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'cuatro'):
              cant = 4
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'cinco'):
              cant = 5 
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'seis'):
              cant = 6
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'siete'):
              cant = 7
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'ocho'):
              cant = 8
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'nueve'):
              cant = 9  
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'diez'):
              cant = 10    

          if tipo == 'Comida' and (palabra != 'dos' and palabra != 'tres' and palabra != 'cuatro'
                                   and palabra != 'cinco' and palabra != 'seis' and palabra != 'siete' 
                                   and palabra != 'ocho' and palabra != 'nueve' and palabra != 'diez' 
                                   and palabra != 'y' and palabra != ','  and palabra != '.'):
            data.append(dict(comida=palabra, cantidad=cant))    
    return(data)        

def carga_corpus():
    corpus = "Quisiera pedir un hamburguesa,Quiero una tortilla y una cerveza,Me pones un pollo y una ensalada,Quiero una paella,Quiero un bocadillo,Quiero una pizza,Ponme una sopa,Quiero un filete,Quisiera pedir una ensalada,Quiero cinco bocadillos,Quisiera una empanada,Quiero unas croquetas,Quisiera morcilla,Quiero pedir un solomillo,Quiero unos macarrones,Quiero una Lasagna,Quiero una hamburguesa, una de patatas fritas y una cerveza,Quiero un lenguado,Quiero un bonito,Quisiera una sepia,Quiero cinco cervezas,Quiero tres sidras y tres pinchos,Quiero cinco manzanas y tres melocotones,Quisiera cuatro solomillos,Quiero una naranja y dos peras"

    return (corpus)


# Función principal    
def main():
    # cargo el corpus con pedidos al restaurante
    corpora = carga_corpus() 

    Segm = Segmentacion(corpora)
    print ("\n\n1. Frases:",Segm)

    tok = Tokenizacion(corpora)
    print ("\n\n2. Tokens:",tok)

    ptag = Pos_Tag(tok)
    print ("\n\n3. Analisis Morfologico:",ptag)

    # Construimos Regex Parser
    RegexParser = RegPar(ptag)
    print("\n\n4 Parsed Sentence = ", RegexParser)  

    GeneraSalida = GeneraArray(RegexParser)
    print("\n\n5 Salida = ",GeneraSalida)

    iob_tags = tree2conlltags(RegexParser)
    print ("\n\n6 IOB Tags = ",iob_tags)

    tree = conlltags2tree(iob_tags)
    print  ("\n\n7 Tree = ",tree)


    test_sents = conll2000.chunked_sents('test.txt', chunk_types=['NP'])
    train_sents = conll2000.chunked_sents('train.txt', chunk_types=['NP'])

    Uchunker = UnigramChunker(train_sents)
    print("\n\n8 Acierto con unigramas: ", Uchunker.evaluate(test_sents))
    print("\n\n9 SENTENCE: ", Uchunker.parse(ptag))  

    Bchunker = BigramChunker(train_sents)
    print("\n\n10 Acierto con Bigramas: ", Bchunker.evaluate(test_sents))
    print("\n\n11 SENTENCE: ", Bchunker.parse(ptag))  

    Tchunker = TrigramChunker(train_sents)
    print("\n\n12 Acierto con Trigramas: ", Tchunker.evaluate(test_sents))
    print("\n\n13 SENTENCE: ", Tchunker.parse(ptag))          


main()

从 Python 中的正则表达式解析器中提取数据

HTML button that sends you to another page

Why do I get the error "Call to undefined function mysql_connect()"?

How to create an HTML button that works as a link?

How to separate a String in Java. How to use split()

Filter by dates in sql server

How to limit the number of decimal places in a double?

For each in JavaScript?

Position footer ALWAYS glued to the footer

Definitive Guide to Type Conversion in Java

How to properly compare Strings (and objects) in Java?