What is a promise in Javascript?

Question

Asked: 2020-02-03 03:33:15 +0800 CST 2020-02-03 03:33:15 +0800 CST 2020-02-03 03:33:15 +0800 CST

如何将带有重音的字母替换为没有重音但不是“ñ”的相同字母？

772

假设我有以下字符串：

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'

对于它是什么，我想删除所有波浪线和变音符号，使其看起来像：

s = 'Pinguino: Malaga es una ciudad fantastica y en Logroño me pica el... moño'
#        ^      ^                       ^

我发现了unidecode正是这样做的库：

>>> unidecode.unidecode(s)
'Pinguino: Malaga es una ciudad fantastica y en Logrono me pica el... mono'

但不幸的是，它也将ñ替换为n（Logroño → Logrono，moño → mono）。

是否有任何其他库允许这种替换，只改变重音和变音符号？否则，我知道我必须做的是一个进行此修改的正则表达式。

4 Answers

Voted

Mariano · Answer 1 · 2020-02-20T22:33:30+08:00

技巧大体是一样的：就是在Unicode中取分解的规范化形式，去掉不想要的，返回复合形式。

分解形式?？在 Unicode 中，一个字符（实际上是一个“字形”）被分解成它的基本字符等价物，然后是它的标记。例如：

来源 -> NFDNFC

分解的 (D) 和复合的 (C) 形式都是等价的（unicode canonical equivalence）。所以它们的字节不同，但它们打印相同
_{（它们仍然是相同的字素，并且有算法可以在形式之间进行比较）。}

NFD ::规范化形式规范分解
NFC ::规范化形式规范组合

在NFD形式中，变音符号是与其基本字符（第一个代码点）分开的代码点......这是能够删除您不想要的内容的关键！并且消除后可以打印成那个表格（D），但是返回复合表格很方便，避免出现问题。

要删除什么？所有选项均有效。如果他们被理解，请根据适合您的情况进行选择，并且您更愿意在您的情况下申请。

ChemaCortes 在他的回答中选择删除所有非 ascii 字符（这就是他暂时ñ用另一个未删除的 ascii 字符串替换的原因）。

FJSevilla 在其回应中将步枪直接对准重音符号（´）和变音符号（¨）。

有了基础，我就不得不选择展示最原教旨主义的选择：消灭所有变音符号。

删除除ñ

所有变音符号都在范围内的一个块中U+0300- U+036F（组合变音符号）。我们将例外U+0303，波浪号 ( ~)，但是

仅当它在 a 之后n（替换其他像 a ã）
并且只有当它没有其他变音符号时（替换奇怪的东西，比如ñ͚͡）

使用正则表达式，其中第一组是基本字符，变音符号在组外：

([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+

([^n\u0300-\u036f])[\u0300-\u036f]+一个n既不是 a 也不是变音符号的字符，后跟变音符号，或
(n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+一个n不跟随的~（除非后者后面跟着另一个变音符号），那么它确实匹配它后面的所有变音符号。

替换为\1we 留下没有变音符号的字母。

代码

import re
from unicodedata import normalize

s = "Pingüino: Málãgà ês uñ̺ã cíudãd fantástica y èn Logroño me pica el... moñǫ̝̘̦̞̟̩̐̏̋͌́ͬ̚͡õ̪͓͍̦̓ơ̤̺̬̯͂̌͐͐͟o͎͈̳̠̼̫͂̊"


# -> NFD y eliminar diacríticos
s = re.sub(
        r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", 
        normalize( "NFD", s), 0, re.I
    )

# -> NFC
s = normalize( 'NFC', s)

print( s )

Pinguino: Malaga es una ciudad fantastica y en Logroño me pica el... moñoooo

https://ideone.com/YcXaQD

FJSevilla · Answer 2 · 2020-02-03T05:50:25+08:00

从标准库中提取的另一个可能的想法unicodedata是获取 unicode 字符串的分解规范化形式。这允许"á"从u"\u00E1"到u"\u0061\u0301"例如。

然后简单地使用str.translate删除我们想要的 unicode 代码点，在这种情况下U+0308（组合分音符号）和U+0301（组合尖锐重音）：

>>> from unicodedata import normalize

>>> s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
>>> trans_tab = dict.fromkeys(map(ord, u'\u0301\u0308'), None)
>>> s = normalize('NFKC', normalize('NFKD', s).translate(trans_tab))
>>> s
'Pinguino: Malaga es una ciudad fantastica y en Logroño me pica el... moño'

J. David Moreno Hernández · Answer 3 · 2020-10-19T10:06:15+08:00

在 Python 3 中，您可以简单地执行以下操作：

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
a,b = 'áéíóúü','aeiouu'
trans = str.maketrans(a,b)

print(s.translate(trans))

不幸的是，不是在 Python 2 或更早版本中，您还必须导入String模块才能使用string.maketrans()，并且在应用它时它会告诉您字符串 a 和 b 的长度不同，在事实len(a) = 12而len(b) = 6

ChemaCortes · Answer 4 · 2020-02-03T04:46:35+08:00

“清理”字符串只需要标准库：

import unicodedata

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
s2 = unicodedata.normalize("NFKD", s).encode("ascii","ignore").decode("ascii")

为防止 e 丢失，将它们替换为您知道不会使用的符号很简单：

import unicodedata

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
s1 = s.replace("ñ", "#").replace("Ñ", "%")
s2 = unicodedata.normalize("NFKD", s1)\
     .encode("ascii","ignore").decode("ascii")\
     .replace("#", "ñ").replace("%", "Ñ")

如何将带有重音的字母替换为没有重音但不是“ñ”的相同字母？

HTML button that sends you to another page

Why do I get the error "Call to undefined function mysql_connect()"?

How to create an HTML button that works as a link?

How to separate a String in Java. How to use split()

Filter by dates in sql server

How to limit the number of decimal places in a double?

For each in JavaScript?

Position footer ALWAYS glued to the footer

Definitive Guide to Type Conversion in Java

How to properly compare Strings (and objects) in Java?