صفحة الصنف Regexp في روبي

من موسوعة حسوب
اذهب إلى التنقل اذهب إلى البحث

كائنات الصنف Regexp التعابير النمطية، والتي تُستخدم لمطابقة نمط (pattern) معيّن في سلسلة نصية. يتم إنشاء التعابير النمطية باستخدام الصياغتين /.../ و ‎%r{...}‎، أو بالمنشئ new.

التعابير النمطية هي أنماط تصف محتويات السلسلة النصية. يمكن استخدامها للتحقق من أنّ سلسلة نصية تحتوي على نمط معين، أو لاستخراج الأجزاء المُطابقة. يتم إنشاؤها باستخدام الصياغتين /pat/ و ‎%r{pat}‎، أو باستخدام المنشئ new.

عادة ما يتم تحديد التعبير النمطي بعارضة مائلة للأمام (/). كمل يوضح المثال أدناه:

/hay/ =~ 'haystack'   #=> 0
/y/.match('haystack') #=> #<MatchData "y">

إذا احتوت سلسلة نصية على النمط فسيقال أنها مُطابقة، أو تتطابق مع التعبير النمطي. كل سلسلة نصية حرفية (literal) تطابق نفسها. في المثال الموالي، السلسلة النصية 'haystack' لا تحتوي على النمط 'needle'، لذلك فهي لا تتطابق:

/needle/.match('haystack') #=> nil

أماا في هذا المثال، فالسلسلة النصية 'haystack' تحتوي على النمط 'hay'، لذلك فهي تتطابق:

/hay/.match('haystack')    #=> #<MatchData "hay">

بشكل أكثر تحديدًا، يتطلب التعبير النمطي /st/ أن تحتوي السلسلة النصية على الحرف s متبوعاً بالحرف t ، لذلك فهي تتطابق مع "haystack" أيضًا.

المعامل ‎=~ ‎و التابع match

يمكن التحقق من مطابقة النمط باستخدام المعامل ‎=~‎ أو التابع match.

المعامل ‎=~‎

=~‎ هو معامل المُطابقة الأساسي في روبي. عندما يكون أحد معامليه عبارة عن تعبير نمطي، والآخر عبارة عن سلسلة نصية، فسيُستخدم التعبير النمطي حينها كنمط لمطابقة السلسلة النصية. (تعريف هذا المعامل في الصنفين Regexp و String متماثل، لذا لا يهم ترتيب السلسلة النصية أو التعبيرالنمطي لا يهم. قد يكون للأصناف الأخرى تقديمات (implementations) مختلفة للمعامل ‎=~‎.) في حالة العثور على تطابق، فسيعيد المعامل فهرس المطابقة الأولى في السلسلة النصية، وإلا فسيعيد nil.

/hay/ =~ 'haystack'   #=> 0
'haystack' =~ /hay/   #=> 0
/a/   =~ 'haystack'   #=> 1
/u/   =~ 'haystack'   #=> nil

عند استخدام المعامل ‎=~‎ مع كائن من النوع String أو Regexp، سيتم تعيين المتغير العام ‎$~‎ بعد الحصول على مطابقة ناجحة. سيحتوي المتغير ‎‎‎‎‎$~‎‎‎ على كائن من النوع MatchData.

التابعlast_match مكافئ للمتغير ‎$~‎.

التابع match

يعيد التابع match كائنًا من النوع MatchData:

/st/.match('haystack')   #=> #<MatchData "st">

الحروف الخاصة (Metacharacters) وحروف التخليص (Escapes)

الحروف التالية هي حروف خاصة (metacharacters):

( و ) و [ و ] و { و } و . و ? و + و *. لهذه الحروف معاني محددة عندما تظهر في تعبير نمطي. لمطابقتها حرفياً، يجب أن تكون مسبوقة بعارضة مائلة للخلف \. لمطابقة العارضة المائلة للخلف حرفياً، يجب أن تكون مسبوقة كذلك بعارضة مائلة للخلف: \\

/1 \+ 2 = 3\?/.match('Does 1 + 2 = 3?') #=> #<MatchData "1 + 2 = 3?">
/a\\\\b/.match('a\\\\b')                    #=> #<MatchData "a\\b">

تتصرف الأنماط مثل السلاسل النصية المُقتبسة (double-quoted) بحيث يمكن أن تحتوي على نفس الشرطة المائلة للخلف المخصصة لأجل التخليص (backslash escapes).

/\s\u{6771 4eac 90fd}/.match("Go to 東京都")
    #=> #<MatchData " 東京都">

يمكن تضمين تعابير روبي في الأنماط عبر الصياغة ‎#{...}‎.

place = "東京都"
/#{place}/.match("Go to 東京都")
    #=> #<MatchData "東京都">

مجموعات الحروف (Character Classes)

يتم تحديد مجموعات الحروف (character class) بواسطة الأقواس المربعة ([ ، ]) وتوضع بينها الأحرف التي قد تظهر عند هذه النقطة في المطابقة. التعبير النمطي /[ab]/ يعني إما a أو b، على خلاف /ab/ الذي يعني الحرف a متبوعاً بالحرف b.

/W[aeiou]rd/.match("Word") #=> #<MatchData "Word">

ضمن مجموعات الحروف، تمثل الشرطة (-) حرفًا خاصا يشير إلى مجال شامل (inclusive) مكون من أحرف. التعبير النمطي [abcd] يكافئ [a-d]. يمكن أن يُتبع المجال بمجال آخر، لذلك فالتعبير النمطي [abcdwxyz] يكافئ [a-dw-z]. ولا يهم الترتيب الذي تظهر به المجالات أو الأحرف الفردية داخل مجموعة الحروف.

/[0-9a-f]/.match('9f') #=> #<MatchData "9">
/[9f]/.match('9f')     #=> #<MatchData "9">

إذا كان أول حرف من حروف المجموعة هو العلامة (^)، فستُعكس المجموعة: أي أنها ستطابق أي حرف باستثناء تلك المحددة في المجموعة.

/[^a-eg-z]/.match('f') #=> #<MatchData "f">

يمكن أن تحتوي مجموعة حروف على مجموعة حروف أخرى. الشكل ‎[a-z[0-9]]‎ يصف نفس المجموعة [a-z0-9]. كما أنّ مجموعات الحروف تدعم المعامل && الذي يجري عملية التقاطع على وسائطه. ويمكن دمج الاثنين كما يلي:

/[a-w&&[^c-g]z]/ # ([a-w] AND ([^c-g] OR z))

هذا يُكافئ:

/[abh-w]/

تتصرف الحروف الخاصة (metacharacters) التالية مثل مجموعات الحروف:

  • /./ - أي حرف باستثناء محرف السطر الجديد.
  • /./m - أي حرف (المُعدِّل m يتيح الوضع متعدد الأسطر)
  • /\w/‎ - حرف كلمة ([a-zA-Z0-9_‎])
  • ‎‎‎‎‎/\W/‎ - ُحرف يخالف حروف الكلمة ([‎^a-zA-Z0-9_‎‎]). يرجى إلقاء نظرة على صفحة الخطأ Bug#4044 في حالة استخدام ‎‎‎‎‎/\W/‎ مع المُعدِّل ‎/i‎.
  • /\d/‎ - حرف رقمي ([‎0-9])
  • /\D/‎ - حرف غير رقمي ([‎^0-9])
  • /\h/ ‎- حرف ستة عشري ([‎0-9a-fA-F])
  • /\H/‎ - حرف غير ستة عشري ([‎^0-9a-fA-F])
  • /\s/‎ - حرف من حروف المسافات البيضاء: /[‎ \t\r\n\f\v]/
  • /\S/‎ - حرف يخالف حروف المسافة البيضاء: /[‎^‎ \t\r\n\f\v]/

تعبيرات أقواس POSIX ‏(POSIX bracket expressions) مشابهة لمجموعات الحروف. إذ توفر بديلاً محمولًا (portable) لما سبق، مع ميزة إضافية تتمثل في أنها يمكن أن تحتوي على أحرف من خارج الترميز ASCII. على سبيل المثال، لا يطابق التعبير ‏‏‎/\d/‎‏ إلا الأرقام العشرية للترميز ASCII ‏(0-9)؛ بينما يطابق التعبير /[[:digit:]]/ أي حرف من مجموعة الحروف العددية Nd في اليونيكود (Unicode Nd).

  • /[[:alnum:]]/- حرف أبجدي أو رقم
  • /[[:alpha:]]/ - حرف أبجدي
  • /[[:blank:]]/ - فراغ أو علامة تبويب (tab)
  • /[[:cntrl:]]/ - حرف تحكم (Control character)
  • /[[:digit:]]/ - رقم
  • /[[:graph:]]/ - حرف غير فارغ (يستثني المسافات وأحرف التحكم وما شابه)
  • /[[:lower:]]/ - الأحرف الأبجدية الصغيرة
  • /[[:print:]]/ - مثل [:graph:]، ولكنها تتضمن حرف المسافة
  • /[[:punct:]]/ - علامة ترقيم (Punctuation character)
  • /[[:space:]]/ - محرف مسافة بيضاء ([:blank:] أو سطر جديد أو حرف الرجوع [carriage return]، وما إلى ذلك)
  • /[[:upper:]]/ - حرف أبجدي كبير
  • /[[:xdigit:]]/ - رقم من الأرقام المسموح بها في الأعداد السداسي عشرية (أي الحروف ‎0-9a-fA-F)

تدعم روبي أيضًا مجموعات الحروف التالية بجانب مجموعات POSIX:

  • /[[:word:]]/ - حرف من إحدى مجموعات حروف اليونيكود العامة التالية Letter و Mark و Number و Connector_Punctuation.
  • /[[:ascii:]]/ - حرف من مجموعة حروف ASCII.
# U+06F2 is "EXTENDED ARABIC-INDIC DIGIT TWO"
/[[:digit:]]/.match("\u06F2")    #=> #<MatchData "\u{06F2}">
/[[:upper:]][[:lower:]]/.match("Hello") #=> #<MatchData "He">
/[[:xdigit:]][[:xdigit:]]/.match("A6")  #=> #<MatchData "A6">

التكرار

تتطابق التركيبات الموصوفة حتى الآن مع حرف واحد، لكن ماذا لو أردنا مطابقة أكثر من حرف دفعة واحدة. يمكننا ذلك باستخدام حروف خاصة تُسمى المُكممات (quantifiers). والتي توضع بعد الحرف الذي نريد أن يتكرر لتحديد عدد مرات ظهوره، هذه المكممات هي:

  • * - صفر مرّة أو أكثر.
  • + - مرة واحدة أو أكثر
  • ? - صفر مرة أو مرة واحدة (اختياري)
  • {n} - بالضبط n مرة
  • {n,} - على الأقل أكثر n مرة
  • {,m} - على الأكثر m مرة
  • {n,m} - بين n و m مرة

'مثال': على الأقل حرف كبير واحد ('H')، ثم حرف واحد صغير على الأقل ('e')، ثم حرفين 'l'، ثم حرف 'o':

"Hello".match(/[[:upper:]]+[[:lower:]]+l{2}o/) #=> #<MatchData "Hello">

أنماط التكرار طمّاعة (greedy) افتراضيًا: أي أنها تبحث عن مطابقة أكبر جزء ممكن يحقق المطابقة من السلسلة النصية. على خلاف، فإن المطابقة القانعة (lazy matching) تكتفي بالحد الأدنى من السلسلة النصية الذي يحقق المطابقة بشكل عام.


يمكن جعل الحروف الخاصة الطماعة قانعة باتباعها بالحرف =~. كلا النمطين أدناه يتطابقان مع السلسلة النصية. يستخدم الأول مُكمما طماعًا، بحيث يطابق ". +" السلسة النصية "<a> " ؛ أما الثاني فيستخدم مكمما قانعا،بحيث يطابق '.+?'السلسلة النصية '<a>': المكممات المتبوعة بالعلامة + تُطابق تملكيًا (possessively): فبمجرد أن تُطابق لا يتراجع. تتصرف مثل المكممات الطماعة، ولكنها ترفض "التخلي" عن الأجزاء التي طابقتها حتى لو كان ذلك قد يُفشل كامل المطابقة. الالتقاط[aeiou]\w[aeiou]\w (?: يمكن استخدام الأقواس لأجل الالتقاط (capturing). يمكن لاحقًا التأشير إلى النص المتضمن في مجموعة الأقواس بالعدد n. داخل النمط استخدم ) ؛ أما خارج النمط فاستخدم \2. في المثال أدناه، يتم التقاط السلسلة النصية "at" بواسطة الزوج الأول من الأقواس، ثم يشار إليها لاحقًا باستخدام