Давайте напишемо цікавішу програму. На цей раз ми перевіримо, чи підходить рядок під опис, закодований у короткому шаблоні.
Деякі символи та комбінації символів мають спеціальне значення у цих шаблонах, і включають:
[] – визначення діапазону (наприклад, [az] означає літери в діапазоні від a до z
\w - буква або цифра, аналогічно [0-9A-Za-z]
\W - не цифра і не буква
\s - символи порожнього простору, такі як [\t\n\r\f]
\S - не символи порожнього простору
\d - символи цифр, такі як [0-9]
\D - не символи цифр
\b - символ вибою (0x08) (тільки якщо в заданому діапазоні)
\b - закінчення слова (якщо тільки не в заданому діапазоні)
\B - межа слова
* - нуль та більша кількість повторень попереднього шаблону
+ - одна або більше повторень попереднього шаблону
{m,m} - принаймні m і трохи більше повторень попереднього
? - принаймні одне повторення попереднього
| - або попередній, або наступний вираз може відповідати
() - угруповання
Загальним терміном для таких шаблонів є Регулярні вирази . У Ruby, як і в Perl, вони в основному полягають у слеші, ніж у подвійні лапки. Якщо Ви ніколи не працювали з регулярними виразами до цього, то, можливо, варто витратити деякий час на знайомство з ними. Вони мають виразну міць, яка може врятувати вас від головного болю (і безлічі рядків зайвого коду), якщо вам знадобиться за шаблоном порівнювати, шукати рядки та маніпулювати ними.
Наприклад, припустимо, що ви хочете перевірити, чи входить рядок під даний опис: "Починається з літери "f" у нижньому регістрі, за якою слідує одна літера у верхньому регістрі, і опціонально слідує за нею якомога довша послідовність символів, поки не зустрінеться буква в нижньому регістрі Якщо ви є досвідченим C програмістом, то можливо вже написали кілька десятків рядків коду у своїй голові. виразом /^f AZ $/.*
А що думаєте про пошук шістнадцяткового числа, укладеного у трикутні дужки? Без проблем.
ruby> def chab(s) # "contains hex in angle brackets" | (s =~ /<0(x|X)(\d|[a-f]|[A-F])+>/) != nil | end nil ruby> chab "Not this one." false ruby> chab "Maybe this? {0x35}" # wrong kind of brackets false ruby> chab "Or this? <0x38z7e>" # bogus hex digit false ruby> chab "Okay, this: <0xfc0004>." true
Хоча регулярні висловлювання можуть бути дуже загадковими на перший погляд, Ви швидко отримаєте віддачу від них.
Ось невелика програма, яка допоможе Вам поекспериментувати із регулярними виразами. Збережіть її у файл regx.rb і запустіть у командному рядку " ruby regx.rb"
# Requires an ANSI terminal! st = "\033[7m" en = "\033[m" while TRUE print "str> " STDOUT.flush str = gets break if not str str.chop! print "pat> " STDOUT.flush re = gets break if not re re.chop! str.gsub! re, "#{st}\\&#{en}" print str, "\n" end print "\n"
Ця програма двічі вимагає введення, вперше рядок і вдруге регулярне вираження. Рядок перевіряється регулярним виразом, а потім виводиться з підсвіченими частинами, які відповідають регулярному виразу.
str> foobar pat> ^fo+ foobar ~~~
Збігаюча частина позначена в лістингу наступною лінією "~~~".
Спробуймо ще більше вводів.
str> abc012dbcd555 pat> \d abc012dbcd555 ~~~ ~~~
Якщо Ви здивувалися виведенню програми, зверніться до списку на початку статті: \d позначає порівняння з однією цифрою.
Що якщо є більш ніж один спосіб правильного порівняння шаблонів?
str> foozboozer pat> f.*z foozboozer ~~~~~~~~
foozbooz було порівнянною послідовністю, замість просто fooz , з регулярним виразом можливе порівняння з довгими підрядками.
А ось і приклад пошуку рядка з часом.
str> Wed Feb 7 08:58:04 JST 1996 pat> [0-9]+:[0-9]+(:[0-9]+)? Wed Feb 7 08:58:04 JST 1996 ~~~~~~~~
"=~" є оператором порівняння для регулярних виразів. Він повертає позицію знайденого рядка або nil, якщо рядок була знайдена шаблоном регулярного висловлювання.