1
голосов
1ответов
1434 просмотров

Is there a Unicode equivalent for `{\pGraph}` in Java / POSIX regular expressions?

According to the documentation of java.util.Pattern, the POSIX character class \p{Graph} ([:graph:] in POSIX notation) matches "a visible character: [\p{Alnum}\p{Punct}]". However, this is limited to ASCII characters only. Is there an equivalent class or expression for matching (visible) Unicode ...

4
голосов
2ответов
404 просмотров

Searching unicode text using regex

Searching a file which is written in Hindi(Devanagri) (UTF-16) gave rise to the following problem. The file contains: त्रास ततत जुग नींद ना हा बु Note that the first char 'त्र' is a multiple code point of त + ् + र Now while searching for 'त' I get 4 matches including the त of the firs...

7
голосов
4ответов
1372 просмотров

How do I get a list of all Unicode characters that have a given property?

Without looping over the entire range of Unicode characters, how can I get a list of characters that have a given property? In particular I want a list of all characters that are digits (i.e. those that match /\d/). I have looked at Unicode::UCD, and it is useful for determining the properties ...

3
голосов
5ответов
1198 просмотров

Проверка имени Unicode

В ASCII проверить имя не так уж сложно: просто убедитесь, что все символы в алфавитном порядке. А как насчет Unicode (utf-8)? Как я могу убедиться, что в данной строке нет запятых или подчеркиваний (за пределами области ASCII)? (в идеале на Python)

83
голосов
2ответов
89336 просмотров

Python и регулярное выражение с Unicode

Мне нужно удалить некоторые символы Юникода из строки 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' Я точно знаю, что они здесь есть. Я пробовал: re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ') но это не работает. Строка остается пре...

223
голосов
11ответов
131648 просмотров

Регулярные выражения JavaScript + Unicode

Как использовать в JavaScript регулярные выражения с поддержкой Unicode? Например, должно быть что-то вроде \w, которое может соответствовать любой кодовой точке в категории Letters или Marks (не только ASCII), и, надеюсь, иметь фильтры вроде [[P *]] для пунктуации и т. д.

8
голосов
2ответов
4469 просмотров

Блок Unicode символа в Python

Есть ли способ получить блок Unicode символа в Python? В модуле unicodedata , похоже, нет того, что я нужно, и мне не удалось найти для него внешнюю библиотеку. В основном мне нужны те же функции, что и у Character.UnicodeBlock.of() в java.

4
голосов
5ответов
1733 просмотров

Сопоставление юникода в регулярных выражениях ply

Я сопоставляю идентификаторы, но теперь у меня проблема: мои идентификаторы могут содержать символы Юникода. Поэтому старого способа сделать что-то недостаточно: t_IDENTIFIER = r"[A-Za-z](\.|[A-Za-z_0-9])*" В парсере моего языка разметки я сопоставляю символы Юникода, разрешая все симво...

8
голосов
5ответов
2085 просмотров

Как мне сопоставить только полностью составленные символы в строке Unicode в Perl?

Я ищу способ сопоставить только полностью составленные символы в строке Unicode. Зависит ли [:print:] от языкового стандарта в любой реализации регулярного выражения, которая включает этот класс символов? Например, будет ли он соответствовать японскому символу «あ», поскольку он не является уп...

23
голосов
4ответов
15375 просмотров

Регулярное выражение и юникод

У меня есть сценарий, который анализирует имена файлов телевизионных эпизодов (например, show.name.s01e02.avi), берет имя эпизода (из API www.thetvdb.com) и автоматически переименовывает их в более приятное (Показать имя - [01x02] .avi) Скрипт работает нормально, пока вы не попробуете использ...