الدالة `re.split()‎` في بايثون‎

تقسم الدالة السلسلة النصية عند كل مكان تحدث فيه عملية مطابقة للنمط المعطى.

البنية العامة

re.split(pattern, string, maxsplit=0, flags=0)

المعاملات

pattern

التعبير النمطي المستخدم لإجراء عملية المطابقة.

string

السلسلة النصية التي ستبحث فيها الدالة عن حالات التطابق.

maxsplit

العدد الأقصى من التقسيمات التي تجريها الدالة على السلسلة النصية. في حال كان العدد الأقصى من التقسيمات أقل من عدد حالات المطابقة فإنّ الدالة تعيد ما يبقى من السلسلة النصية ليكون العنصر الأخير في القائمة المعادة. يأخذ هذا المعامل القيمة الافتراضية 0.

flags

الرايات المستخدمة لضبط عملية البحث. يأخذ هذا المعامل القيمة 0 كقيمة افتراضية. راجع قسم المعاملات في توثيق الدالة ()re.compile للمزيد من المعلومات.

القيمة المعادة

تقسم الدالة السلسلة النصية عند كل مكان تحدث فيه عملية مطابقة للنمط المعطى. إن استُخدمت أقواس التقاط القيمة ضمن النمط، فإنّ النصّ التابع لجميع المجموعات ضمن النمط سيُعاد كجزء من القائمة الناتجة.

ملاحظات

لا تقسم الدالة split()‎ في الوقت الحاضر السلسلة النصية عند ظهور حالات تطابق فارغة، فعلى سبيل المثال:

>>> re.split('x*', 'axbc')
['a', 'bc']

صحيح أنّ نتيجة مطابقة التعبير ‎'x*'‎ هي العثور على 0 حالة تطابق قبل الحرف 'a' وبين الحرفين 'b' و 'c' وبعد الحرف 'c' إلا أنّ اللغة تتجاهل حالات التطابق هذه في الوقت الحاضر. يفترض بهذه الدالة أن تقسم السلسلة النصية عند حالات التطابق الفارغة أيضًا وتعيد القائمة ['', 'a', 'b', 'c', '']، وهذا ما ستتضمّنه الإصدارات المستقبلية من اللغة، ولمّا كان هذا التغيير غير متوافق مع الإصدارات السابقة، فإنّ اللغة تطلق التحذير FutureWarning في الوقت الحاضر. لا تقسّم الأنماط التي تطابق سلاسل نصية فارغة السلاسل النصية في الوقت الحاضر، وهذا لا يتّفق مع السلوك المتوقّع من الدالة، لذا فإنّ اللغة تطلق الخطأ ValueError في الإصدار 3.5 وما بعده:

>>> re.split("^$", "foo\n\nbar\n", flags=re.M)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  ...
ValueError: split() requires a non-empty pattern match.

ملاحظة: أضيف معامل الرايات الاختياري في الإصدار 3.1 من اللغة.

ملاحظة: في الإصدار 3.5 من اللغة يؤدي إجراء عملية التقسيم التي قد تطابق سلسلة نصية فارغة إلى إطلاق تحذير. أما الأنماط التي لا تطابق سوى السلاسل النصية فأصبحت مرفوضة.

أمثلة

يبين المثال التالي طريقة استخدام الدالة والنتائج المعادة منها:

>>> import re
>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']

إن كان هناك مجموعات التقاط (capturing groups) ضمن الفاصل وحصلت حالة تطابق عند بداية السلسلة النصية، فإنّ أول عنصر في القائمة الناتجة هو سلسلة نصية فارغة، والأمر ذاته ينطبق على نهاية السلسلة:

>>> re.split(r'(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']

بهذه الطريقة، يمكن إيجاد مكونات الفاصل دومًا عند نفس الفهارس النسبية ضمن القائمة الناتجة.

انظر أيضًا

التابع regex.split()‎: يقسم التابع السلسلة النصية عند كل مكان تحدث فيه عملية مطابقة للنمط المصرّف.

مصادر

قسم Module Contents في صفحة Regular expressions operations في توثيق بايثون الرسمي.