What is a promise in Javascript?

Question

Asked: 2020-02-03 03:33:15 +0800 CST 2020-02-03 03:33:15 +0800 CST 2020-02-03 03:33:15 +0800 CST

Как заменить буквы с ударением на такие же без ударения, но только не на "ñ"?

772

Предположим, у меня есть следующая строка:

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'

Для того, что было, я хочу убрать все тильды и умлауты, чтобы это выглядело так:

s = 'Pinguino: Malaga es una ciudad fantastica y en Logroño me pica el... moño'
#        ^      ^                       ^

Я обнаружил библиотеку unidecode, которая делает именно это:

>>> unidecode.unidecode(s)
'Pinguino: Malaga es una ciudad fantastica y en Logrono me pica el... mono'

Но, к сожалению, он также заменяет ñ на n ( Logroño → Logrono , moño → mono ).

Есть ли другая библиотека, которая позволяет эту замену, изменяя только акценты и умлауты? В противном случае я понимаю, что мне нужно сделать регулярное выражение, которое выполняет эту модификацию.

4 Answers

Voted

Mariano · Answer 1 · 2020-02-20T22:33:30+08:00

Техника, как правило, та же самая: взять декомпозированную форму нормализации в Unicode, удалить то, что вам не нужно, и вернуться к составной форме.

Разложившаяся форма ?? В Unicode символ (на самом деле «графема») разбивается на эквивалентность его базового символа, за которым следуют его метки. Например:

Источник -> NFDNFC

И разложенная (D), и составная (C) формы эквивалентны ( каноническая эквивалентность Unicode ). Таким образом, их байты разные, но они печатают одинаково
_{(они по-прежнему являются одной и той же графемой, и существуют алгоритмы для сравнения между формами).}

NFD :: Форма нормализации Каноническая декомпозиция
NFC :: Форма нормализации Каноническая композиция

В форме NFD диакритические знаки представляют собой кодовые точки , отделенные от их основного символа (первой кодовой точки )... Это ключ к возможности удалить то, что вам не нужно! И после исключения его можно было бы напечатать в такой форме (D), но удобно вернуться к составной форме, чтобы избежать проблем.

Что удалить? Все варианты действительны. Если они понятны , пройдитесь по выбору в зависимости от того, что вам подходит и что вы предпочитаете применить в вашем случае.

ChemaCortes в своем ответе решил удалить все символы, отличные от ascii (поэтому он временно заменяет их ñдругой строкой ascii, которая не удаляется).

FJSevilla в ответ нацелила винтовки прямо на знаки ударения ( ´) и умлауты ( ¨).

Когда основы были покрыты, мне оставалось выбрать самый фундаменталистский вариант: уничтожить все диакритические знаки.

Удалите все диакритические знаки, кромеñ

Все диакритические знаки находятся в блоке в диапазоне U+0300- U+036F( Объединение диакритических знаков ). И мы собираемся сделать исключение для U+0303тильды ( ~), но

только если это после n(заменяя другие как ã)
и только если у него нет других диакритических знаков (заменяющих странные вещи, такие как ñ͚͡)

с регулярным выражением, где первая группа является базовым символом, а диакритические знаки находятся вне группы:

([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+

([^n\u0300-\u036f])[\u0300-\u036f]+символ, который не является nни а, ни диакритическим знаком, за которым следуют диакритические знаки, или
(n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+тот n, за которым не следует ~(если только за последним не следует другой диакритический знак), то он соответствует всем диакритическим знакам, которые следуют за ним.

При замене на \1остается буква без диакритического знака.

Код

import re
from unicodedata import normalize

s = "Pingüino: Málãgà ês uñ̺ã cíudãd fantástica y èn Logroño me pica el... moñǫ̝̘̦̞̟̩̐̏̋͌́ͬ̚͡õ̪͓͍̦̓ơ̤̺̬̯͂̌͐͐͟o͎͈̳̠̼̫͂̊"


# -> NFD y eliminar diacríticos
s = re.sub(
        r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", 
        normalize( "NFD", s), 0, re.I
    )

# -> NFC
s = normalize( 'NFC', s)

print( s )

Pinguino: Malaga es una ciudad fantastica y en Logroño me pica el... moñoooo

https://ideone.com/YcXaQD

FJSevilla · Answer 2 · 2020-02-03T05:50:25+08:00

Другая возможная идея, извлекаемая также из стандартной библиотеки unicodedata, состоит в том, чтобы получить декомпозированную нормализованную форму строки Unicode. Это позволяет "á"перейти от u"\u00E1"к, u"\u0061\u0301"например.

Затем просто используйте str.translate, чтобы удалить нужные нам кодовые точки Юникода, в данном случае U+0308( объединение диэрезиса ) и U+0301( объединение острого ударения ):

>>> from unicodedata import normalize

>>> s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
>>> trans_tab = dict.fromkeys(map(ord, u'\u0301\u0308'), None)
>>> s = normalize('NFKC', normalize('NFKD', s).translate(trans_tab))
>>> s
'Pinguino: Malaga es una ciudad fantastica y en Logroño me pica el... moño'

J. David Moreno Hernández · Answer 3 · 2020-10-19T10:06:15+08:00

В Python 3 вы можете просто сделать это:

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
a,b = 'áéíóúü','aeiouu'
trans = str.maketrans(a,b)

print(s.translate(trans))

К сожалению, не в Python 2 или более ранних версиях вам также придется импортировать модуль String , чтобы иметь возможность использовать string.maketrans() , и при его применении он сообщит вам, что строки a и b имеют разную длину, в факт len(a) = 12 , а len(b) = 6

ChemaCortes · Answer 4 · 2020-02-03T04:46:35+08:00

Для «очистки» строки не требуется ничего, кроме стандартной библиотеки :

import unicodedata

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
s2 = unicodedata.normalize("NFKD", s).encode("ascii","ignore").decode("ascii")

Чтобы буквы e не потерялись, их просто заменить символом, который, как вы знаете, не будет использоваться:

import unicodedata

s = 'Pingüino: Málaga es una ciudad fantástica y en Logroño me pica el... moño'
s1 = s.replace("ñ", "#").replace("Ñ", "%")
s2 = unicodedata.normalize("NFKD", s1)\
     .encode("ascii","ignore").decode("ascii")\
     .replace("#", "ñ").replace("%", "Ñ")

Как заменить буквы с ударением на такие же без ударения, но только не на "ñ"?

HTML button that sends you to another page

Why do I get the error "Call to undefined function mysql_connect()"?

How to create an HTML button that works as a link?

How to separate a String in Java. How to use split()

Filter by dates in sql server

How to limit the number of decimal places in a double?

For each in JavaScript?

Position footer ALWAYS glued to the footer

Definitive Guide to Type Conversion in Java

How to properly compare Strings (and objects) in Java?