Some HAT...

= Анабар.ru => Python-форумы => Язык программирования Python => сообщение 1012
| Вход | Регистрация
нет
фото
Автор:  kulib
Дата:  20-Nov-2006 15:24 (gmt = -3)

модуль re не дружит с буквой ч?

Цель — получить все русские и английские слова из текста и только их (т.е. как минимум убрать разные знаки препинания).

Есть ф-я:

1  def only_words (text): 
2    tokens = re.compile(r"[\w']+", re.UNICODE) 
3    words = tokens.findall(text) 
4    return "\n".join(words) 
Причем она почти идеально работает, вот только проблеммы с буквой "ч" у нее — эта буква банально не считается за букву (видно по результатам работы скрипта).

text = "чукча чукчу. Чичибечит? - давай-давай one two 12"

Результат работы only_words (text) следующий:

 1  ук 
 2  а 
 3  ук 
 4  у 
 5  и 
 6  ибе 
 7  ит 
 8  давай 
 9  давай 
10  one 
11  two 
12  12 

В чем может быть проблема с этой буквой?



все сообщения ветви:

О том как (правильно) написать сообщение...

Написать ответ

* Ник    
E-mail   Получать ответы  
Ссылка (URL)   мин. уровень чтения  
Картинка (URL)   мин. уровень ответа  
* Тема ответа  
Текст сообщения (можно не заполнять)

Время генерации страницы в секундах: 0.534