Some HAT... |
= Анабар.ru => Python-форумы => Язык программирования Python => сообщение 1012 |
| Вход | Регистрация | |
нет
фото
Автор: kulib Дата: 20-Nov-2006 15:24 (gmt = -3.0) модуль re не дружит с буквой ч?
Цель — получить все русские и английские слова из текста и только их (т.е. как минимум убрать разные знаки препинания).
Есть ф-я:
1 def only_words (text): 2 tokens = re.compile(r"[\w']+", re.UNICODE) 3 words = tokens.findall(text) 4 return "\n".join(words)Причем она почти идеально работает, вот только проблеммы с буквой "ч" у нее — эта буква банально не считается за букву (видно по результатам работы скрипта).text = "чукча чукчу. Чичибечит? - давай-давай one two 12"
Результат работы only_words (text) следующий:
1 ук 2 а 3 ук 4 у 5 и 6 ибе 7 ит 8 давай 9 давай 10 one 11 two 12 12В чем может быть проблема с этой буквой?
все сообщения ветви:
- 1012 модуль re не дружит с буквой ч? kulib | 20-Nov-2006, 15:24 | просмотров: 7075 ⇐ ◄
- 1014 что-то не воспроизводится эта проблема Anabar | 22-Nov-2006, 16:39 | просмотров: 6941
- 1013 модуль re не дружит с буквой ч? kulib | 20-Nov-2006, 15:27 | просмотров: 6884
О том как (правильно) написать сообщение...
Написать ответ
Время генерации страницы в секундах: 0.070