الفرق بين المراجعتين لصفحة: «Ruby/Regexp»
لا ملخص تعديل |
لا ملخص تعديل |
||
سطر 335: | سطر 335: | ||
#=> "aaaaaaaaaaaaaaaaaaaaaaaaadaaaac"</syntaxhighlight>تتم مطابقة الأنماط التالية على الفور كما هو متوقع:<syntaxhighlight lang="ruby">/(b|a)/ =~ s #=> 0 | #=> "aaaaaaaaaaaaaaaaaaaaaaaaadaaaac"</syntaxhighlight>تتم مطابقة الأنماط التالية على الفور كما هو متوقع:<syntaxhighlight lang="ruby">/(b|a)/ =~ s #=> 0 | ||
/(b|a+)/ =~ s #=> 0 | /(b|a+)/ =~ s #=> 0 | ||
/(b|a+)*/ =~ s #=> 0 | /(b|a+)*/ =~ s #=> 0</syntaxhighlight>أما النمط التالي فيستغرق وقتًا أطول بشكل ملحوظ:<syntaxhighlight lang="ruby">/(b|a+)*c/ =~ s #=> 26</syntaxhighlight> | ||
يحدث هذا لأن | يحدث هذا لأن الذرة (جزء من النمط لا يمكن نقسيمه) في التعبير النمطي مٌكمّمة (quantified) بواسطة كل من حرف <code>+</code> فوري متبوعة بحرف <code>*</code>بدون تحديد من منهما سيكون المتحكم في حرف معين. عدم الوضوح ينتج عنه ينتج أداء خطي فائق (super-linear performance). (راجع كتاب Mastering Regular Expressions، ص 222، للكاتب Jeffery Friedl، لأجل تحليل متعمق). يمكن إصلاح هذه المشكلة عن طريق استخدام التجميع الذري (atomic grouping)، والذي يمنع التأشير غير الضروري: | ||
< | |||
<syntaxhighlight lang="ruby">(start = Time.now) && /(b|a+)*c/ =~ s && (Time.now - start) | <syntaxhighlight lang="ruby">(start = Time.now) && /(b|a+)*c/ =~ s && (Time.now - start) | ||
#=> 24.702736882 | #=> 24.702736882 | ||
(start = Time.now) && /(?>b|a+)*c/ =~ s && (Time.now - start) | (start = Time.now) && /(?>b|a+)*c/ =~ s && (Time.now - start) | ||
#=> 0.000166571 | #=> 0.000166571 | ||
</syntaxhighlight> | </syntaxhighlight>يوضح المثال التالي حالة مشابهة، والتي استغرقت حوالي 60 ثانية للتنفيذ عندي: | ||
مطابقة سلسلة نصية مكونة 29 حرف "<code>a</code>" مقابل نمط مؤلف من 29 حرف "<code>a</code>" اختياري يليه 29 إلزاميًا على النحو التالي: | |||
<syntaxhighlight lang="ruby">Regexp.new('a?' * 29 + 'a' * 29) =~ 'a' * 29 | <syntaxhighlight lang="ruby">Regexp.new('a?' * 29 + 'a' * 29) =~ 'a' * 29 | ||
</syntaxhighlight> | </syntaxhighlight> | ||
حروف "<code>a</code>" التسعة وعشرون الاختيارية تطابق السلسلة النصية، لكن هذا يمنع الحروف التسعة وعشرين الإلزامية الموالية من المطابقة. تتراجع روبي مرارًا وتكرارًا حتى تستوفي أكبر عدد ممكن من التطابقات الاختيارية دون التفريط في المطابقات التسعة وعشرين الإجبارية. من الواضح لنا أنه لا يمكن لأي من المطابقات الاختيارية أن تنجح، ولكن هذه الحقيقة ليست واضحة للأسف لروبي. أفضل طريقة لتحسين الأداء هي تقليل مقدار التراجع المطلوب إلى أقصى حد. في هذه الحالة، بدلاً من المطابقة الفردية لـ 29 حرفًا اختياريًا، يمكن مطابقة مجال اختياريً دفعة واحدة عبر التعبير <code>{0،29}</code>: | |||
<syntaxhighlight lang="ruby">Regexp.new('a{0,29}' + 'a' * 29) =~ 'a' * 29 | |||
</syntaxhighlight> | |||
== الثوابت (Constants) == | |||
=== [[Ruby/Regexp/EXTENDED|الثابتة EXTENDED]] === | |||
انظر صفحتي التابعين <code>[[Ruby/Regexp/options|options]]</code> و <code>[[Ruby/Regexp/new|new]]</code>. | |||
[[Ruby/Regexp/FIXEDENCODING|الثابتة FIXEDENCODING]] | |||
انظر صفحتي التابعين <code>[[Ruby/Regexp/options|options]]</code> و <code>[[Ruby/Regexp/new|new]]</code>. | |||
[[Ruby/Regexp/IGNORECASE|الثابتة IGNORECASE]] | |||
انظر صفحتي التابعين <code>[[Ruby/Regexp/options|options]]</code> و <code>[[Ruby/Regexp/new|new]]</code>. | |||
[[Ruby/Regexp/MULTILINE|الثابتة MULTILINE]] | |||
انظر صفحتي التابعين <code>[[Ruby/Regexp/options|options]]</code> و <code>[[Ruby/Regexp/new|new]]</code>. | |||
[[Ruby/Regexp/NOENCODING|الثابتة NOENCODING]] | |||
انظر صفحتي التابعين <code>[[Ruby/Regexp/options|options]]</code> و <code>[[Ruby/Regexp/new|new]]</code>. | |||
== توابع الصنف العامة (Public Class Methods) == | |||
===[[Ruby/Regexp/compile | التابع compile]]=== | ===[[Ruby/Regexp/compile | التابع compile]]=== | ||
اسم آخر للتابع <code>Regexp.new</code> | اسم آخر للتابع <code>Regexp.new</code> | ||
===[[Ruby/Regexp/escape | التابع escape]]=== | ===[[Ruby/Regexp/escape | التابع escape]]=== | ||
يُخلّص (Escapes) أي حرف يمكن أن يكون له معنى خاص في التعبير النمطي | يُخلّص (Escapes) أي حرف يمكن أن يكون له معنى خاص في التعبير النمطي. | ||
===[[Ruby/Regexp/last_match | التابع last_match]]=== | ===[[Ruby/Regexp/last_match | التابع last_match]]=== | ||
يُعيد | يُعيد كائن <code>[[Ruby/MatchData|MatchData]]</code> الذي تم إنشاؤه من آخر تطابق ناجح للنمط. | ||
===[[Ruby/Regexp/new | التابع new]]=== | ===[[Ruby/Regexp/new | التابع new]]=== | ||
ينشئ تعبيرًا نمطيًا جديدًا | ينشئ تعبيرًا نمطيًا جديدًا. | ||
===[[Ruby/Regexp/quote | التابع quote]]=== | ===[[Ruby/Regexp/quote | التابع quote]]=== | ||
يُخلّص (escapes) أي حرف قد يكون له معنى خاص في التعبير النمطي | يُخلّص (escapes) أي حرف قد يكون له معنى خاص في التعبير النمطي. | ||
===[[Ruby/Regexp/try_convert | التابع try_convert]]=== | ===[[Ruby/Regexp/try_convert | التابع try_convert]]=== | ||
يُحاول تحويل الوسيط obj إلى كائن من النوع <code>[[Ruby/Regexp|Regexp]]</code> | يُحاول تحويل الوسيط obj إلى كائن من النوع <code>[[Ruby/Regexp|Regexp]].</code> | ||
===[[Ruby/Regexp/union | التابع union]]=== | ===[[Ruby/Regexp/union | التابع union]]=== | ||
يُعيد كائن من النوع <code>Regexp</code>، والذي يمثل اتحاد | يُعيد كائن من النوع <code>Regexp</code>، والذي يمثل اتحاد الأنماط المعطاة | ||
== توابع النسخة العامة (Public Instance Methods) == | |||
===[[Ruby/Regexp/equality_operator | التابع ==]]=== | ===[[Ruby/Regexp/equality_operator | التابع ==]]=== | ||
معامل التساوي | معامل التساوي. | ||
===[[Ruby/Regexp/case_equality | التابع ===]]=== | ===[[Ruby/Regexp/case_equality | التابع ===]]=== | ||
معامل تساوي الحالة (Case Equality) - يُستخدم في العبارات case. | معامل تساوي الحالة (Case Equality) - يُستخدم في العبارات <code>case</code>. | ||
===[[Ruby/Regexp/3D~ | التابع =~]]=== | ===[[Ruby/Regexp/3D~ | التابع =~]]=== | ||
يبحث عن تطابق للتعبير النمطي | يبحث عن تطابق للتعبير النمطي. | ||
===[[Ruby/Regexp/casefold-3F | التابع casefold?]]=== | ===[[Ruby/Regexp/casefold-3F | التابع casefold?]]=== | ||
يعيد قيمة راية الحساسية لحالة الأحرف (case-insensitive flag). | يعيد قيمة راية الحساسية لحالة الأحرف (case-insensitive flag). | ||
سطر 379: | سطر 403: | ||
يُعيد كائنًا من النوع <code>[[Ruby/Encoding|Encoding]]</code>، والذي يمثل ترميز الكائن . | يُعيد كائنًا من النوع <code>[[Ruby/Encoding|Encoding]]</code>، والذي يمثل ترميز الكائن . | ||
===[[Ruby/Regexp/eql-3F | التابع eql?]]=== | ===[[Ruby/Regexp/eql-3F | التابع eql?]]=== | ||
يعيد القيمة true إن التعبير النمطي المعطى مساويًا للتعبير النمطي | يعيد القيمة <code>true</code> إن التعبير النمطي المعطى مساويًا للتعبير النمطي. | ||
===[[Ruby/Regexp/fixed_encoding-3F | التابع fixed_encoding?]]=== | ===[[Ruby/Regexp/fixed_encoding-3F | التابع fixed_encoding?]]=== | ||
يُعيد القيمة false إن كان التعبير النمطي قابلًا للتطبيق على سلسلة نصية ذات ترميز متوافق مع ASCII. أو يعيد true خلاف ذلك. | يُعيد القيمة <code>false</code> إن كان التعبير النمطي قابلًا للتطبيق على سلسلة نصية ذات ترميز متوافق مع ASCII. أو يعيد <code>true</code> خلاف ذلك. | ||
===[[Ruby/Regexp/hash | التابع hash]]=== | ===[[Ruby/Regexp/hash | التابع hash]]=== | ||
يعيد رمز تكويد (hash) استنادًا إلى نص وخيارات هذا التعبير النمطي. | يعيد رمز تكويد (hash) استنادًا إلى نص وخيارات هذا التعبير النمطي. | ||
===[[Ruby/Regexp/inspect | التابع inspect]]=== | ===[[Ruby/Regexp/inspect | التابع inspect]]=== | ||
يعيد نسخة نصية منسقة من التعبير النمطي | يعيد نسخة نصية منسقة من التعبير النمطي. | ||
===[[Ruby/Regexp/match | التابع match]]=== | ===[[Ruby/Regexp/match | التابع match]]=== | ||
يُعيد كائنًا من النوع <code>MatchData</code> | يُعيد كائنًا من النوع <code>MatchData</code> يمثل المطابقة. | ||
===[[Ruby/Regexp/match-3F | التابع match?]]=== | ===[[Ruby/Regexp/match-3F | التابع match?]]=== | ||
يُعيد القيمة <code>true</code> أو <code>false</code> بحسب ما إذا كان التعبير النمطي قد طوبِق أم لا | يُعيد القيمة <code>true</code> أو <code>false</code> بحسب ما إذا كان التعبير النمطي قد طوبِق أم لا. | ||
===[[Ruby/Regexp/named_captures | التابع named_captures]]=== | ===[[Ruby/Regexp/named_captures | التابع named_captures]]=== | ||
يُعيد قاموسًا (hash) يحتوي معلومات حول الالتقاطات المسماة (named captures) لتتعبير النمطي . | يُعيد قاموسًا (hash) يحتوي معلومات حول الالتقاطات المسماة (named captures) لتتعبير النمطي . | ||
سطر 395: | سطر 419: | ||
يعيد قائمة بأسماء الأجزاء المُلتقطة (captures) على هبئة مصفوفة من سلاسل نصية. | يعيد قائمة بأسماء الأجزاء المُلتقطة (captures) على هبئة مصفوفة من سلاسل نصية. | ||
===[[Ruby/Regexp/options | التابع options]]=== | ===[[Ruby/Regexp/options | التابع options]]=== | ||
يُعيد مجموعة البتات (bits) المقابلة للخيارات المستخدمة عند إنشاء الكائن <code>[[Ruby/Regexp|Regexp]]</code> | يُعيد مجموعة البتات (bits) المقابلة للخيارات المستخدمة عند إنشاء الكائن <code>[[Ruby/Regexp|Regexp]]</code> | ||
===[[Ruby/Regexp/source | التابع source]]=== | ===[[Ruby/Regexp/source | التابع source]]=== | ||
يعيد السلسلة النصية الأصلية للنمط. | يعيد السلسلة النصية الأصلية للنمط. | ||
===[[Ruby/Regexp/to_s | التابع to_s]]=== | ===[[Ruby/Regexp/to_s | التابع to_s]]=== | ||
يُعيد سلسلة نصية تحتوي على التعبير النمطي وخياراته | يُعيد سلسلة نصية تحتوي على التعبير النمطي وخياراته. | ||
===[[Ruby/Regexp/~ | التابع ~]]=== | ===[[Ruby/Regexp/~ | التابع ~]]=== | ||
يبحث عن مطابقة التعبير النمطي في محتويات المتغير <code>$ | يبحث عن مطابقة التعبير النمطي في محتويات المتغير <code>$_</code>. | ||
*[http://ruby-doc.org/core-2.5.1/Regexp.html قسم الصنف Regexp في توثيق روبي الرسمي.] | *[http://ruby-doc.org/core-2.5.1/Regexp.html قسم الصنف Regexp في توثيق روبي الرسمي.] |
مراجعة 15:18، 1 نوفمبر 2018
كائنات الصنف Regexp
التعابير النمطية، والتي تُستخدم لمطابقة نمط (pattern) معيّن في سلسلة نصية. يتم إنشاء التعابير النمطية باستخدام الصياغتين /.../
و %r{...}
، أو بالمنشئ new
.
التعابير النمطية هي أنماط تصف محتويات السلسلة النصية. يمكن استخدامها للتحقق من أنّ سلسلة نصية تحتوي على نمط معين، أو لاستخراج الأجزاء المُطابقة. يتم إنشاؤها باستخدام الصياغتين /pat/
و %r{pat}
، أو باستخدام المنشئ new
.
عادة ما يتم تحديد التعبير النمطي بعارضة مائلة للأمام (/
). كمل يوضح المثال أدناه:
/hay/ =~ 'haystack' #=> 0
/y/.match('haystack') #=> #<MatchData "y">
إذا احتوت سلسلة نصية على النمط فسيقال أنها مُطابقة، أو تتطابق مع التعبير النمطي. كل سلسلة نصية حرفية (literal) تطابق نفسها.
في المثال الموالي، السلسلة النصية 'haystack'
لا تحتوي على النمط 'needle'
، لذلك فهي لا تتطابق:
/needle/.match('haystack') #=> nil
أماا في هذا المثال، فالسلسلة النصية 'haystack'
تحتوي على النمط 'hay'
، لذلك فهي تتطابق:
/hay/.match('haystack') #=> #<MatchData "hay">
بشكل أكثر تحديدًا، يتطلب التعبير النمطي /st/
أن تحتوي السلسلة النصية على الحرف s
متبوعاً بالحرف t
، لذلك فهي تتطابق مع "haystack"
أيضًا.
المعامل =~
و التابع match
يمكن التحقق من مطابقة النمط باستخدام المعامل =~
أو التابع match
.
المعامل =~
=~
هو معامل المُطابقة الأساسي في روبي. عندما يكون أحد معامليه عبارة عن تعبير نمطي، والآخر عبارة عن سلسلة نصية، فسيُستخدم التعبير النمطي حينها كنمط لمطابقة السلسلة النصية. (تعريف هذا المعامل في الصنفين Regexp
و String
متماثل، لذا لا يهم ترتيب السلسلة النصية أو التعبيرالنمطي لا يهم. قد يكون للأصناف الأخرى تقديمات (implementations) مختلفة للمعامل =~
.) في حالة العثور على تطابق، فسيعيد المعامل فهرس المطابقة الأولى في السلسلة النصية، وإلا فسيعيد nil
.
/hay/ =~ 'haystack' #=> 0
'haystack' =~ /hay/ #=> 0
/a/ =~ 'haystack' #=> 1
/u/ =~ 'haystack' #=> nil
عند استخدام المعامل =~
مع كائن من النوع String
أو Regexp
، سيتم تعيين المتغير العام $~
بعد الحصول على مطابقة ناجحة. سيحتوي المتغير $~
على كائن من النوع MatchData
.
التابعlast_match
مكافئ للمتغير $~
.
التابع match
يعيد التابع match
كائنًا من النوع MatchData
:
/st/.match('haystack') #=> #<MatchData "st">
الحروف الخاصة (Metacharacters) وحروف التخليص (Escapes)
الحروف التالية هي حروف خاصة (metacharacters):
(
و )
و [
و ]
و {
و }
و .
و ?
و +
و *
. لهذه الحروف معاني محددة عندما تظهر في تعبير نمطي. لمطابقتها حرفياً، يجب أن تكون مسبوقة بعارضة مائلة للخلف \
. لمطابقة العارضة المائلة للخلف حرفياً، يجب أن تكون مسبوقة كذلك بعارضة مائلة للخلف: \\
/1 \+ 2 = 3\?/.match('Does 1 + 2 = 3?') #=> #<MatchData "1 + 2 = 3?">
/a\\\\b/.match('a\\\\b') #=> #<MatchData "a\\b">
تتصرف الأنماط مثل السلاسل النصية المُقتبسة (double-quoted) بحيث يمكن أن تحتوي على نفس الشرطة المائلة للخلف المخصصة لأجل التخليص (backslash escapes).
/\s\u{6771 4eac 90fd}/.match("Go to 東京都")
#=> #<MatchData " 東京都">
يمكن تضمين تعابير روبي في الأنماط عبر الصياغة #{...}
.
place = "東京都"
/#{place}/.match("Go to 東京都")
#=> #<MatchData "東京都">
مجموعات الحروف (Character Classes)
يتم تحديد مجموعات الحروف (character class) بواسطة الأقواس المربعة ([
، ]
) وتوضع بينها الأحرف التي قد تظهر عند هذه النقطة في المطابقة. التعبير النمطي /[ab]/
يعني إما a
أو b
، على خلاف /ab/
الذي يعني الحرف a
متبوعاً بالحرف b
.
/W[aeiou]rd/.match("Word") #=> #<MatchData "Word">
ضمن مجموعات الحروف، تمثل الشرطة (-
) حرفًا خاصا يشير إلى مجال شامل (inclusive) مكون من أحرف. التعبير النمطي [abcd]
يكافئ [a-d]
. يمكن أن يُتبع المجال بمجال آخر، لذلك فالتعبير النمطي [abcdwxyz]
يكافئ [a-dw-z]
. ولا يهم الترتيب الذي تظهر به المجالات أو الأحرف الفردية داخل مجموعة الحروف.
/[0-9a-f]/.match('9f') #=> #<MatchData "9">
/[9f]/.match('9f') #=> #<MatchData "9">
إذا كان أول حرف من حروف المجموعة هو العلامة (^
)، فستُعكس المجموعة: أي أنها ستطابق أي حرف باستثناء تلك المحددة في المجموعة.
/[^a-eg-z]/.match('f') #=> #<MatchData "f">
يمكن أن تحتوي مجموعة حروف على مجموعة حروف أخرى. الشكل [a-z[0-9]]
يصف نفس المجموعة [a-z0-9]
. كما أنّ مجموعات الحروف تدعم المعامل &&
الذي يجري عملية التقاطع على وسائطه. ويمكن دمج الاثنين كما يلي:
/[a-w&&[^c-g]z]/ # ([a-w] AND ([^c-g] OR z))
هذا يُكافئ:
/[abh-w]/
تتصرف الحروف الخاصة (metacharacters) التالية مثل مجموعات الحروف:
/./
- أي حرف باستثناء محرف السطر الجديد.-
/./m
- أي حرف (المُعدِّلm
يتيح الوضع متعدد الأسطر) -
/\w/
- حرف كلمة ([a-zA-Z0-9_]
) -
/\W/
- ُحرف يخالف حروف الكلمة ([^a-zA-Z0-9_]
). يرجى إلقاء نظرة على صفحة الخطأBug#4044
في حالة استخدام/\W/
مع المُعدِّل /i
.
-
/\d/
- حرف رقمي ([0-9]
) -
/\D/
- حرف غير رقمي ([^0-9]
) -
/\h/
- حرف ستة عشري ([0-9a-fA-F]
) -
/\H/
- حرف غير ستة عشري ([^0-9a-fA-F]
) -
/\s/
- حرف من حروف المسافات البيضاء:/[ \t\r\n\f\v]/
-
/\S/
- حرف يخالف حروف المسافة البيضاء:/[^ \t\r\n\f\v]/
تعبيرات أقواس POSIX (POSIX bracket expressions) مشابهة لمجموعات الحروف. إذ توفر بديلاً محمولًا (portable) لما سبق، مع ميزة إضافية تتمثل في أنها يمكن أن تحتوي على أحرف من خارج الترميز ASCII. على سبيل المثال، لا يطابق التعبير /\d/
إلا الأرقام العشرية للترميز ASCII (0-9)؛ بينما يطابق التعبير /[[:digit:]]/
أي حرف من مجموعة الحروف العددية Nd في اليونيكود (Unicode Nd).
/[[:alnum:]]/
- حرف أبجدي أو رقم/[[:alpha:]]/
- حرف أبجدي/[[:blank:]]/
- فراغ أو علامة تبويب (tab)/[[:cntrl:]]/
- حرف تحكم (Control character)
/[[:digit:]]/
- رقم/[[:graph:]]/
- حرف غير فارغ (يستثني المسافات وأحرف التحكم وما شابه)/[[:lower:]]/
- الأحرف الأبجدية الصغيرة/[[:print:]]/
- مثل[:graph:]
، ولكنها تتضمن حرف المسافة/[[:punct:]]/
- علامة ترقيم (Punctuation character)/[[:space:]]/
- محرف مسافة بيضاء ([:blank:]
أو سطر جديد أو حرف الرجوع [carriage return]، وما إلى ذلك)/[[:upper:]]/
- حرف أبجدي كبير/[[:xdigit:]]/
- رقم من الأرقام المسموح بها في الأعداد السداسي عشرية (أي الحروف 0-9a-fA-F
)
تدعم روبي أيضًا مجموعات الحروف التالية بجانب مجموعات POSIX:
/[[:word:]]/
- حرف من إحدى مجموعات حروف اليونيكود العامة التاليةLetter
وMark
وNumber
وConnector_Punctuation
./[[:ascii:]]/
- حرف من مجموعة حروف ASCII.
# U+06F2 is "EXTENDED ARABIC-INDIC DIGIT TWO"
/[[:digit:]]/.match("\u06F2") #=> #<MatchData "\u{06F2}">
/[[:upper:]][[:lower:]]/.match("Hello") #=> #<MatchData "He">
/[[:xdigit:]][[:xdigit:]]/.match("A6") #=> #<MatchData "A6">
التكرار
تتطابق التركيبات الموصوفة حتى الآن مع حرف واحد، لكن ماذا لو أردنا مطابقة أكثر من حرف دفعة واحدة. يمكننا ذلك باستخدام حروف خاصة تُسمى المُكممات (quantifiers). والتي توضع بعد الحرف الذي نريد أن يتكرر لتحديد عدد مرات ظهوره، هذه المكممات هي:
*
- صفر مرّة أو أكثر.+
- مرة واحدة أو أكثر?
- صفر مرة أو مرة واحدة (اختياري){
n}
- بالضبط n مرة{
n,}
- على الأقل أكثر n مرة{,
m}
- على الأكثر m مرة{
n,
m}
- بين n و m مرة
'مثال': على الأقل حرف كبير واحد ('H
')، ثم حرف واحد صغير على الأقل ('e
')، ثم حرفين 'l
'، ثم حرف 'o
':
"Hello".match(/[[:upper:]]+[[:lower:]]+l{2}o/) #=> #<MatchData "Hello">
أنماط التكرار طمّاعة (greedy) افتراضيًا: أي أنها تبحث عن مطابقة أكبر جزء ممكن يحقق المطابقة من السلسلة النصية. على خلاف ذلك، فإن المطابقة القانعة (lazy matching) تكتفي بالحد الأدنى من السلسلة النصية الذي يحقق المطابقة بشكل عام.
يمكن جعل الحروف الخاصة الطماعة قانعة باتباعها بالحرف ?
.
كلا النمطين أدناه يتطابقان مع السلسلة النصية. يستخدم الأول مُكمما طماعًا، بحيث يطابق ".+
" السلسة النصية "<a> " ؛ أما الثاني فيستخدم مكمما قانعا،بحيث يطابق '.+?
'السلسلة النصية '<a>':
/<.+>/.match("<a><b>") #=> #<MatchData "<a><b>">
/<.+?>/.match("<a><b>") #=> #<MatchData "<a>">
المكممات المتبوعة بالعلامة +
تُطابق تملكيًا (possessively): فبمجرد أن تُطابق نمطًا فلن تتراجع. فهي تتصرف مثل المكممات الطماعة، ولكنها ترفض "التخلي" عن الأجزاء التي طابقتها حتى لو كان ذلك سيُفشل كامل المطابقة.
الالتقاط (Capturing)
يمكن استخدام الأقواس لأجل الالتقاط (capturing). ويمكن لاحقًا التأشير إلى النص المتضمن في مجموعة الأقواس رقم n
بالعدد n
. داخل النمط استخدم المؤشر \n
، أما خارج النمط فاستخدم MatchData[n]
.
في المثال أدناه، تلتقط "at
" بالزوج الأول من الأقواس، ثم يتم التأشير إليها باستخدام \1
:
/[csh](..) [csh]\1 in/.match("The cat sat in the hat")
#=> #<MatchData "cat sat in" 1:"at">
يعيد التابع match
كائنًا من النوع MatchData
، والذي يجعل النص الذي تم التقاطه متاحًا عبر معامل الفهرسة []
:
/[csh](..) [csh]\1 in/.match("The cat sat in the hat")[1] #=> 'at'
يمكن التأشير إلى المجموعات الملتقطة باسمها الذي عُرّفت به في حال تعريفها وفق الصياغة (?<
name>)
أو (?'
name')
.
/\$(?<dollars>\d+)\.(?<cents>\d+)/.match("$3.67")
#=> #<MatchData "$3.67" dollars:"3" cents:"67">
/\$(?<dollars>\d+)\.(?<cents>\d+)/.match("$3.67")[:dollars] #=> "3"
يمكن التأشير إلى المجموعات المُسماة بواسطة \k<
name>
، حيث name
هو اسم المجموعة.
/(?<vowel>[aeiou]).\k<vowel>.\k<vowel>/.match('ototomy')
#=> #<MatchData "ototo" vowel:"o">
ملاحظة: لا يمكن للتعبير النمطي استخدام المؤشرات المسماة (named backreferences) والمؤشرات الرقمية (numbered backreferences) في وقت واحد. عند استخدام مجموعات الالتقاط المسماة (named capture groups) مع تعبير نمطي حرفي على الجانب الأيسر من التعبير والمعامل =~
، فسيتم تخزين النص الذي تم التقاطه في متغيرات محلية تحمل أسماء مشابهة.
/\$(?<dollars>\d+)\.(?<cents>\d+)/ =~ "$3.67" #=> 0
dollars #=> "3"
التجميع (Grouping)
تُجمّع (group) الأقواس التعابير التي تُطوّقها، مما يسمح بتحديدها كمجموعة واحدة. يتطابق النمط أدناه مع حرف متحرك (vowel) متبوع بحرفي كلمة (word characters):
/[aeiou]\w{2}/.match("Caenorhabditis elegans") #=> #<MatchData "aen">
بينما يتطابق النمط التالي مع حرف متحرك يتبعه حرف كلمة، مرتين ، أي[aeiou]\w[aeiou]\w
: "enor".
/([aeiou]\w){2}/.match("Caenorhabditis elegans")
#=> #<MatchData "enor" 1:"or">
يتيح التعبير (?:…)
إمكانية التجميع، لكن بدون التقاط. هذا يعني أنه يُجمّع التعابير التي يحتوي عليها في وحدة غير قابلة للتجزيئ (atom) دون إنشاء مؤشر إليها (backreference). هذا يفيد في تحسين الأداء، لكن على حساب إضرار طفيف بقابلية القراءة.
في المثال أدناه، الزوج الأول من الأقواس يلتقط "n
"، أما الثاني فيلتقط "ti
". تتم الإشارة إلى المجموعة الثانية لاحقًا باستخدام المؤشر \2
:
/I(n)ves(ti)ga\2ons/.match("Investigations")
#=> #<MatchData "Investigations" 1:"n" 2:"ti">
لقط أصبح الزوج الأول من الأقواس غير قابل للالتقاط بسبب استخدام ?:
، لذلك قسيتطابق مع "n
"، ولكنه لن ينشئ مؤشرًا إليه. وبالتالي ، فالمؤشر \1
يشير الآن إلى "ti
".
/I(?:n)ves(ti)ga\1ons/.match("Investigations")
#=> #<MatchData "Investigations" 1:"ti">
التجميع الذري (Atomic Grouping)
يمكن جعل التجميعات ذرية بواسطة التعبير (?>pat)
. هذا سيؤدي إلى مطابقة التعبير الجزئي (subexpression) بشكل مستقل عن بقية التعبير، بحيث أنّ ما يطابقه سيصبح ثابتًا لبقية المطابقة، ما لم يتم التخلي عن التعبير الجزئي بأكمله وإعادة النظر فيه لاحقًا. بهذه الطريقة، تعامل pat
باعتبارها وحدة غير قابلة للتجزيئ (ذرة).
يتم استخدام التجميع الذري عادة لتحسين أداء الأنماط، وكذلك لمنع إنشاء مؤشرات (backtracking) بدون داعٍ.
يتطابق "
في النمط أدناه مع الحرف الأول من السلسلة النصية، ثم يُطابق .*
علامة التنصيص "
. يؤدي هذا إلى فشل المطابقة الإجمالية، وهكذا فالنص المطابق لـ .*
يُؤشّر إليه (backtracked) بموضع واحد، مما يجعل الحرف النهائي للسلسلة النصية متاحًا لمطابقة "
/".*"/.match('"Quote"') #=> #<MatchData "\"Quote\"">
إذا تم تجميع .*
ذريًا، فسيرفض إنشاء مرجع للعلامة "
، على الرغم من أنّ هذا سيعني أن المطابقة الإجمالية ستفشل
/"(?>.*)"/.match('"Quote"') #=> nil
استدعاء التعابير الجزئية (Subexpression Calls)
تطابق الصياغة \g<name>
التعبير الجزئي السابق المسمى name
، والذي يمكن أن يكون اسم مجموعة أو رقم. هذا مُختلف عن التأشير في كونه يعيد معالجة المجموعة بدلاً من مجرد محاولة إعادة مطابقة نفس النص.
يتطابق النمط التالي مع الحرف (
ويُحيله إلى المجموعة paren
، ويحاول استدعاء التعبير الجزئي للمجموعة paren
مرة أخرى، لكنه يفشل، ثم يطابق الحرف )
:
/\A(?<paren>\(\g<paren>*\))*\z/ =~ '()'
/\A(?<paren>\(\g<paren>*\))*\z/ =~ '(())' #=> 0
# ^1
# ^2
# ^3
# ^4
# ^5
# ^6
# ^7
# ^8
# ^9
# ^10
- يطابق بداية السلسلة النصية، أي قبل الحرف الأول.
- يدخل مجموعة التقاط مسماة (named capture group) تحمل الاسم
paren
- يطابق المحرف
(
، الحرف الأول في السلسلة النصية - يستدعي المجموعة
paren
مرة أخرى، أي يعاود الرجوع (recurses) مرة أخرى إلى الخطوة الثانية - يعيد الدخول إلى المجموعة
paren
- يطابق المحرف
(
، الحرف الثاني في السلسلة النصية - يحاول استدعاء
paren
للمرة الثالثة، ولكن يفشله، لأن ذلك من شأنه أن يمنع مطابقة ناجحة شاملة - يطابق المحرف
)
، أي الحرف الثالث في السلسلة النصية. - يحدد نهاية الاستدعاء العودي (recursive) الثاني
- يطابق المحرف
)
، الحرف الرابع في السلسلة النصية - يطابق نهاية السلسلة النصية
البدائل (Alternation)
يُؤلّف الحرف الخاص (|
) بين تعبيرين في تعبير واحد يطابق أيًا من ذَيْنِكَ التعبيرين. فكل تعبير هو بديل ممكن.
/\w(and|or)\w/.match("Feliformia") #=> #<MatchData "form" 1:"or">
/\w(and|or)\w/.match("furandi") #=> #<MatchData "randi" 1:"and">
/\w(and|or)\w/.match("dissemblance") #=> nil
خاصيات الحروف (Character Properties)
تُطابق الصياغة \p{}
الحروف ذات الخاصية المعطاة، وهي مشابهة لمجموعات أقواس POSIX.
/p{Alnum}\/
- حرف أبجدي أو رقمي/p{Alpha}\/
- حرف أبجدي/p{Blank}\/
- مسافة بيضاء أو علامة تبويب (tab)/p{Cntrl}\/
- محرف تحكم (Control character)/p{Digit}\/
- رقم/p{Graph}\/
- حرف غير فارغ (يستثني المسافات البيضاء وأحرف التحكم وما شابه)/p{Lower}\/
- حرف أبجدي صغير/p{Print}\/
- مثل \p{Graph}
، ولكنه يتضمن المسافة البيضاء/p{Punct}/
- علامة ترقيم/p{Space}\/
- حرف مسافة بيضاء ([:blank:]
أو سطر جديد أو حرف إرجاع [carriage return]، إلخ)/p{Upper}\/
- حرف أبجدي كبير/p{XDigit}\/
- رقم من الأرقام المسموح بها في الأعداد السداسي عشرية (على سبيل المثال ، 0-9a-fA-F)/p{Word}\/
- عنصر من إحدى مجموعات اليونيكود العامة التالية Letter، Mark، Number، Connector_Punctuation/p{ASCII}\/
- حرف من حروف ASCII./p{Any}\/
- أي حرف من حروف اليونيكود (بما في ذلك الأحرف غير المعينة [unassigned])./p{Assigned}\/
- حرف معين (assigned character).
يمكن أيضًا مطابقة حرف من مجموعة اليونيكود General Category بالنمط \p{
Ab}
حيث Ab يمثل اختصار المجموعة كما هو موضح أدناه:
/\p{L}/ - 'Letter'
/\p{Ll}/ - 'Letter: Lowercase'
/\p{Lm}/ - 'Letter: Mark'
/\p{Lo}/ - 'Letter: Other'
/\p{Lt}/ - 'Letter: Titlecase'
/\p{Lu}/ - 'Letter: Uppercase
/\p{Lo}/ - 'Letter: Other'
/\p{M}/ - 'Mark'
/\p{Mn}/ - 'Mark: Nonspacing'
/\p{Mc}/ - 'Mark: Spacing Combining'
/\p{Me}/ - 'Mark: Enclosing'
/\p{N}/ - 'Number'
/\p{Nd}/ - 'Number: Decimal Digit'
/\p{Nl}/ - 'Number: Letter'
/\p{No}/ - 'Number: Other'
/\p{P}/ - 'Punctuation'
/\p{Pc}/ - 'Punctuation: Connector'
/\p{Pd}/ - 'Punctuation: Dash'
/\p{Ps}/ - 'Punctuation: Open'
/\p{Pe}/ - 'Punctuation: Close'
/\p{Pi}/ - 'Punctuation: Initial Quote'
/\p{Pf}/ - 'Punctuation: Final Quote'
/\p{Po}/ - 'Punctuation: Other'
/\p{S}/ - 'Symbol'
/\p{Sm}/ - 'Symbol: Math'
/\p{Sc}/ - 'Symbol: Currency'
/\p{Sc}/ - 'Symbol: Currency'
/\p{Sk}/ - 'Symbol: Modifier'
/\p{So}/ - 'Symbol: Other'
/\p{Z}/ - 'Separator'
/\p{Zs}/ - 'Separator: Space'
/\p{Zl}/ - 'Separator: Line'
/\p{Zp}/ - 'Separator: Paragraph'
/\p{C}/ - 'Other'
/\p{Cc}/ - 'Other: Control'
/\p{Cf}/ - 'Other: Format'
/\p{Cn}/ - 'Other: Not Assigned'
/\p{Co}/ - 'Other: Private Use'
/\p{Cs}/ - 'Other: Surrogate'
في الأخير، تطابق \p{}
محارف خطوط اليونيكود، الخطوط التالية مدعومة:
Arabic, Armenian, Balinese, Bengali, Bopomofo, Braille, Buginese, Buhid, Canadian_Aboriginal, Carian, Cham, Cherokee, Common, Coptic, Cuneiform, Cypriot, Cyrillic, Deseret, Devanagari, Ethiopic, Georgian, Glagolitic, Gothic, Greek, Gujarati, Gurmukhi, Han, Hangul, Hanunoo, Hebrew, Hiragana, Inherited, Kannada, Katakana, Kayah_Li, Kharoshthi, Khmer, Lao, Latin, Lepcha, Limbu, Linear_B, Lycian, Lydian, Malayalam, Mongolian, Myanmar, New_Tai_Lue, Nko, Ogham, Ol_Chiki, Old_Italic, Old_Persian, Oriya, Osmanya, Phags_Pa, Phoenician, Rejang, Runic, Saurashtra, Shavian, Sinhala, Sundanese, Syloti_Nagri, Syriac, Tagalog, Tagbanwa, Tai_Le, Tamil, Telugu, Thaana, Thai, Tibetan, Tifinagh, Ugaritic, Vai, and Yi
محرف اليونيكود U+06E9
يُسمى "ARABIC PLACE of SAJDAH" (موضع سجدة)، وينتمي إلى الخط العربي:
/\p{Arabic}/.match("\u06E9") #=> #<MatchData "\u06E9">
يمكن عكس جميع خصائص الأحرف عن طريق إضافة البادئة (^
) إلى أسمائها. الحرف "A
" ليس مُتضمّنًا في مجموعة اليونيكود Ll [التي تعني (Letter; Lowercase)]، لذلك تنجح المطابقة التالية:
/\p{^Ll}/.match("A") #=> #<MatchData "A">
المراسي (Anchors)
المراسي (Anchors) هي حروف خاصة تُطابق مواضع معدومة الطول بين الأحرف، وتربط المطابقة بموضع معين.
^
- تطابق بداية السطر$
- تطابق نهاية السطر-
\A
- تطابق بداية السلسلة النصية. -
\Z
- تطابق نهاية السلسلة النصية. إذا انتهت السلسلة النصية بسطر جديد، فستُطابق الموضع الموجود قبل السطر الجديد مباشرة -
\z
- تطابق نهاية السلسلة النصية
\G
- تطابق أول موضع مطابقة: في توابع مثلString#gsub
وString#scan
، تتغير عند كل تكرار. حيث تتطابق في البداية مع بداية الموضوع، وفي كل تكرار تطابق مكان انتهاء المطابقة الأخيرة
" a b c".gsub(/ /, '_') #=> "____a_b_c"
" a b c".gsub(/\G /, '_') #=> "____a b c"
في التوابع التي تأخذ موضعًا (اختياريًا)، مثل Regexp#match
و String#match
، ستُطابق مكان بدء البحث.
"hello, world".match(/,/, 3) #=> #<MatchData ",">
"hello, world".match(/\G,/, 3) #=> nil
-
\b
- تطابق مواضع حدود الكلمات (word boundaries) عندما تكون خارج الأقواس؛ وتطابق محرف التراجع backspace (0x08) عندما تكون داخل الأقواس -
\B
- تُطابق المواضع المخالفة لحدود الكلمات (?=
pat)
- المطالعة الأمامية الإيجابية (Positive lookahead assertion): تتأكد من أنّ الأحرف التالية تتطابق معpat
، ولكن لا تتضمن تلك الأحرف في النص المُطابق(?!
pat)
- المطالعة الأمامية السلبية (Negative lookahead assertion): تتأكد من أنّ الأحرف التالية لا تتطابق معpat
، ولكن لا تتضمن تلك الأحرف في النص المُطابق(?<=
pat)
-المطالعة الخلفية الإيجابية (Positive lookbehind assertion): تتأكد من تطابق الأحرف السابقة معpat
، ولكنها لا تتضمّن تلك الأحرف في النص المُطابق(?<!
pat)
- المطالعة الخلفية الإيجابية (Negative lookbehind assertion): تتأكد من أنّ الأحرف السابقة لا تتطابق معpat
، ولكنها لا تتضمن تلك الأحرف في النص المُطابق
إذا لم يتم وضع مرساة (anchor) للنمط، فيمكنه أن يبدأ من أي نقطة في السلسلة النصية:
/real/.match("surrealist") #=> #<MatchData "real">
إرساء (Anchoring) النمط عند بداية السلسلة النصية يفرض بدء المطابقة هناك. في المثال الآتي، لا تظهر "real
" في بداية السلسلة النصية، لذلك تفشل المطابقة:
/\Areal/.match("surrealist") #=> nil
تفشل المطابقة أدناه لأنه على الرغم من أن "Demand
" تحتوي "and
" ، فإنّ النمط لا يظهر عند حدود الكلمات (word boundary).
/\band/.match("Demand")
في حين أنّه في المثال التالي السلسلة النصية "and
" تم إرساؤها عند المواضع المخالفة لحدود الكلمات (non-word boundary)، لذلك، فبدلاً من مطابقة "and
" الأولى، فستتطابق مع الحرف الرابع من "demand
" بدلاً من ذلك:
/\Band.+/.match("Supply and demand curve") #=> #<MatchData "and curve">
يستخدم النمط التالي المطالعة الأمامية الإيجابية و االمطالعة الخلفية الإيجابية لمطابقة النص الوارد في الوسوم (tags) دون تضمين الوسوم في المطابقة:
/(?<=<b>)\w+(?=<\/b>)/.match("Fortune favours the <b>bold</b>")
#=> #<MatchData "bold">
الخيارات
يمكن أن يُعقب محدد النهاية للتعبير النمطي بحرف واحد أو أكثر يمثل الخيارات التي تتحكم في كيفية مطابقة النمط.
-
/pat/i
- يتجاهل حالة الأحرف -
/pat/m
- تجعل.
تطابق محرف السطر الجديد -
/pat/x
- تتجاهل المسافات البيضاء والتعليقات الموجودة في النمط -
/pat/o
- تنفّذ عملية التلقيم#{}
مرة واحدة فقط
يمكن أيضًا تطبيق الخيارات i
وm
و x
على مستوى التعابير الجزئية (subexpression) عبر الصياغة (?on-off)
، والتي تفعّل الخيارات on
، وتعطّل الخيارات off
في التعبير المحاط بالأقواس.
/a(?i:b)c/.match('aBc') #=> #<MatchData "aBc">
/a(?i:b)c/.match('abc') #=> #<MatchData "abc">
كما يمكن استخدام الخيارات مع التابع new
:
Regexp.new("abc", Regexp::IGNORECASE) #=> /abc/i
Regexp.new("abc", Regexp::MULTILINE) #=> /abc/m
Regexp.new("abc # Comment", Regexp::EXTENDED) #=> /abc # Comment/x
Regexp.new("abc", Regexp::IGNORECASE | Regexp::MULTILINE) #=> /abc/mi
وضع التراص (Free-Spacing Mode) والتعليقات
كما ذُكر أعلاه، يتيح الخيار x
وضع التراص (free-spacing mode). حيث يتم تجاهل محارف المسافاة البيضاء (Literal white space) داخل النمط، ويقدم محرف الشباك octothorpe (#
) تعليقًا يستمر إلى نهاية السطر. يسمح هذا بتنظيم مكونات النمط بطريقة تجعله أكثر مقروئية.
في المثال التالي يطابق النمط عددًا ذا منازل عشرية اختيارية:
float_pat = /\A
[[:digit:]]+ # 1 or more digits before the decimal point
(\. # Decimal point
[[:digit:]]+ # 1 or more digits after the decimal point
)? # The decimal point and following digits are optional
\Z/x
float_pat.match('3.14') #=> #<MatchData "3.14" 1:".14">
هناك عدة استراتيجيات لمطابقة المسافات البيضاء:
- استخدام أنماط مثل
\s
أو \p{Space}
. - استخدام مسافات بيضاء مُخلّصة (escaped whitespace) مثل "
\
"، أي مسافة مسبوقة بخط مائل عكسي. - استخدام مجموعة حروف مثل
[ ]
.
يمكن تضمين التعليقات في نمط لا يعتمد الخيار x
(non-x pattern) باستخدام الصياغة (?#comment)
، حيث يكون التعليق عبارة عن نص اعتباطي يتم تجاهله من محرك التعبير النمطي.
لا يمكن أن تتضمن التعليقات المُتضمّنة في تعبير نمطي حرفي محرف إنهاء غير مُخلص (unescaped terminator characters).
الترميز Encoding
يفترض أن تستخدم التعابير النمطية ترميز المصدر. يمكن تعديل هذا السلوط بأحد المُعدِّلات التالية.
-
/
pat/u
يعني UTF-8 -
/
pat/e
يعني EUC-JP -
/
pat/s
يعني Windows-31J -
/
pat/n
يعني ASCII-8BIT
يمكن مطابقة تعبير نمطي مع سلسلة نصية عندما يتشاركان في الترميز، أو إن كان ترميز التعبير النمطي هو US-ASCII، وترميز السلسلة النصية متوافق مع ASCII.
في حال محاولة المطابقة بين ترميزات غير متوافقة، فسيُطلق الاستثناء Encoding::CompatibilityError
.
تتحقق الدالة المنطقية fixed_encoding?
مما إذا كان للتعبير النمطي ترميز ثابت، ومتوافق مع الترميز ASCII.
يمكن تثبيت ترميز التعبير النمطي بشكل صريح عبر تمرير الثابتة Regexp::FIXEDENCODING
كوسيط ثانٍ للتابع Regexp.new
:
r = Regexp.new("a".force_encoding("iso-8859-1"),Regexp::FIXEDENCODING)
r =~ "a\u3042"
# raises Encoding::CompatibilityError: incompatible encoding regexp match
# (ISO-8859-1 regexp with UTF-8 string)
متغيرات عامة مخصوصة (Special global variables)
من المهم معرفة بعض المتغيرات العامة:
-
$~
؛ تكافئlast_match
-
$&
تحتوي كامل النص المتطابق؛ -
$`
تحتوي السلسلة النصية التي تسبق التطابق -
$'
تحتوي السلسلة النصية التي تعقب التطابق؛ $1
و $2
...، تحتوي النص المُتطابق مع مجموعة الالتقاط الأولى، والثانية، ...؛-
$+
تحتوي آخر مجموعة مُلتقطة.
مثال:
m = /s(\w{2}).*(c)/.match('haystack') #=> #<MatchData "stac" 1:"ta" 2:"c">
$~ #=> #<MatchData "stac" 1:"ta" 2:"c">
Regexp.last_match #=> #<MatchData "stac" 1:"ta" 2:"c">
$& #=> "stac"
# same as m[0]
$` #=> "hay"
# same as m.pre_match
$' #=> "k"
# same as m.post_match
$1 #=> "ta"
# same as m[1]
$2 #=> "c"
# same as m[2]
$3 #=> nil
# no third group in pattern
$+ #=> "c"
# same as m[-1]
هذه المتغيرات العامة هي متغيرات مخصوصة بالمهام الفرعية (thread-local)، ومخصوصة بالتوابع (method-local).
الأداء (Performance)
يمكن أن تؤدي بعض التوليفات غير السليمة في الصياغة إلى أداء سيئ جدا.
انظر المثال التالي:
s = 'a' * 25 + 'd' + 'a' * 4 + 'c'
#=> "aaaaaaaaaaaaaaaaaaaaaaaaadaaaac"
تتم مطابقة الأنماط التالية على الفور كما هو متوقع:
/(b|a)/ =~ s #=> 0
/(b|a+)/ =~ s #=> 0
/(b|a+)*/ =~ s #=> 0
أما النمط التالي فيستغرق وقتًا أطول بشكل ملحوظ:
/(b|a+)*c/ =~ s #=> 26
يحدث هذا لأن الذرة (جزء من النمط لا يمكن نقسيمه) في التعبير النمطي مٌكمّمة (quantified) بواسطة كل من حرف +
فوري متبوعة بحرف *
بدون تحديد من منهما سيكون المتحكم في حرف معين. عدم الوضوح ينتج عنه ينتج أداء خطي فائق (super-linear performance). (راجع كتاب Mastering Regular Expressions، ص 222، للكاتب Jeffery Friedl، لأجل تحليل متعمق). يمكن إصلاح هذه المشكلة عن طريق استخدام التجميع الذري (atomic grouping)، والذي يمنع التأشير غير الضروري:
(start = Time.now) && /(b|a+)*c/ =~ s && (Time.now - start)
#=> 24.702736882
(start = Time.now) && /(?>b|a+)*c/ =~ s && (Time.now - start)
#=> 0.000166571
يوضح المثال التالي حالة مشابهة، والتي استغرقت حوالي 60 ثانية للتنفيذ عندي:
مطابقة سلسلة نصية مكونة 29 حرف "a
" مقابل نمط مؤلف من 29 حرف "a
" اختياري يليه 29 إلزاميًا على النحو التالي:
Regexp.new('a?' * 29 + 'a' * 29) =~ 'a' * 29
حروف "a
" التسعة وعشرون الاختيارية تطابق السلسلة النصية، لكن هذا يمنع الحروف التسعة وعشرين الإلزامية الموالية من المطابقة. تتراجع روبي مرارًا وتكرارًا حتى تستوفي أكبر عدد ممكن من التطابقات الاختيارية دون التفريط في المطابقات التسعة وعشرين الإجبارية. من الواضح لنا أنه لا يمكن لأي من المطابقات الاختيارية أن تنجح، ولكن هذه الحقيقة ليست واضحة للأسف لروبي. أفضل طريقة لتحسين الأداء هي تقليل مقدار التراجع المطلوب إلى أقصى حد. في هذه الحالة، بدلاً من المطابقة الفردية لـ 29 حرفًا اختياريًا، يمكن مطابقة مجال اختياريً دفعة واحدة عبر التعبير {0،29}
:
Regexp.new('a{0,29}' + 'a' * 29) =~ 'a' * 29
الثوابت (Constants)
الثابتة EXTENDED
انظر صفحتي التابعين options
و new
.
انظر صفحتي التابعين options
و new
.
انظر صفحتي التابعين options
و new
.
انظر صفحتي التابعين options
و new
.
انظر صفحتي التابعين options
و new
.
توابع الصنف العامة (Public Class Methods)
التابع compile
اسم آخر للتابع Regexp.new
التابع escape
يُخلّص (Escapes) أي حرف يمكن أن يكون له معنى خاص في التعبير النمطي.
التابع last_match
يُعيد كائن MatchData
الذي تم إنشاؤه من آخر تطابق ناجح للنمط.
التابع new
ينشئ تعبيرًا نمطيًا جديدًا.
التابع quote
يُخلّص (escapes) أي حرف قد يكون له معنى خاص في التعبير النمطي.
التابع try_convert
يُحاول تحويل الوسيط obj إلى كائن من النوع Regexp.
التابع union
يُعيد كائن من النوع Regexp
، والذي يمثل اتحاد الأنماط المعطاة
توابع النسخة العامة (Public Instance Methods)
التابع ==
معامل التساوي.
التابع ===
معامل تساوي الحالة (Case Equality) - يُستخدم في العبارات case
.
التابع =~
يبحث عن تطابق للتعبير النمطي.
التابع casefold?
يعيد قيمة راية الحساسية لحالة الأحرف (case-insensitive flag).
التابع encoding
يُعيد كائنًا من النوع Encoding
، والذي يمثل ترميز الكائن .
التابع eql?
يعيد القيمة true
إن التعبير النمطي المعطى مساويًا للتعبير النمطي.
التابع fixed_encoding?
يُعيد القيمة false
إن كان التعبير النمطي قابلًا للتطبيق على سلسلة نصية ذات ترميز متوافق مع ASCII. أو يعيد true
خلاف ذلك.
التابع hash
يعيد رمز تكويد (hash) استنادًا إلى نص وخيارات هذا التعبير النمطي.
التابع inspect
يعيد نسخة نصية منسقة من التعبير النمطي.
التابع match
يُعيد كائنًا من النوع MatchData
يمثل المطابقة.
التابع match?
يُعيد القيمة true
أو false
بحسب ما إذا كان التعبير النمطي قد طوبِق أم لا.
التابع named_captures
يُعيد قاموسًا (hash) يحتوي معلومات حول الالتقاطات المسماة (named captures) لتتعبير النمطي .
التابع names
يعيد قائمة بأسماء الأجزاء المُلتقطة (captures) على هبئة مصفوفة من سلاسل نصية.
التابع options
يُعيد مجموعة البتات (bits) المقابلة للخيارات المستخدمة عند إنشاء الكائن Regexp
التابع source
يعيد السلسلة النصية الأصلية للنمط.
التابع to_s
يُعيد سلسلة نصية تحتوي على التعبير النمطي وخياراته.
التابع ~
يبحث عن مطابقة التعبير النمطي في محتويات المتغير $_
.