الدالة urllib.parse.urlparse()
في بايثون
تحلّل الدالة عنوان URL إلى ستّة مكونات، وتعيد صفًّا يتضمّن 6 عناصر. تمثّل هذه المكونات البنية الرئيسية لعنوان URL وهي: scheme://netloc/path;parameters?query#fragment
. يكون كل عنصر في الصفّ سلسلة نصية، وقد يكون فارغًا كذلك.
لا تقسّم المكوّنات إلى أجزاء أصغر (على سبيل المثال، يكون موقع الشبكة سلسلة نصية مفردة) ولا يجري توسعة علامات التهريب %
، ولا تكون الفواصل جزءًا من النتيجة المعادة، باستثناء الخط المائل الأمامي في مكوّن المسار، والتي تعاد مع النتائج إن كانت موجودة.
البنية العامة
urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
المعاملات
scheme
يعطي المعامل scheme القيمة الافتراضية لنظام العنونة adressing scheme والذي يُستخدم في حال لم يحدّد عنوان URL قيمة لهذه المكون. يجب أن يكون نوع القيمة مشابهًا لقيمة المعامل urlstring
(نص أو بايتات) باستثناء أنّه يُسمح باستخدام القيمة الافتراضية دائمًا وتحوّل إلى القيمة b
إن كان ذلك مناسبًا.
allow_fragments
إن أخذ هذا المعامل قيمة خاطئة، فلن تتعرّف الدالة حينئذٍ على محدّدات القطع fragment identifiers، وتحلّل كجزء من مكونات المسار أو المعاملات أو الاستعلام، وتعين سلسلة نصية فارغة كقيمة للقطع في القيمة التي تعيدها الدالة.
القيمة المعادة
القيمة المعادة نسخة من صنفٍ متفرّع من الصفوف tuples
، ويمتلك هذا الصنف خصائص إضافية مساعدة تمتاز بكونها للقراءة فقط:
تؤدي قراءة خاصية port
إلى إطلاق الاستثناء ValueError
إن عُيِّن منفذ غير صالح في عنوان URL. راجع قسم (نتائج تحليل منظّمة) للاطلاع على المزيد من المعلومات حول الكائن المعاد.
تُطلق الأقواس المربّعة غير المتطابقة في خاصية netloc
الاستثناء ValueError
.
ملاحظات:
- أضيفت إمكانية تحليل عناوين IPv6 URL في الإصدار 3.2 من بايثون.
- تحلّل القطعة في الإصدار 3.3 من بايثون لجميع مخطّطات URL (إلا إذا أخذ المعامل
allow_fragment
قيمة خاطئة) وهذا مطابق للمعيار RFC 3986. في الإصدارات السابقة كانت هناك قائمة بيضاء من المخطّطات التي تدعم القطع. - تطلق أعداد المنفذ التي تكون خارجة عن النطاق الاستثناء
ValueError
في الإصدار 3.6 من بايثون، وذلك عوضًا عن إعادة القيمةNone
.
أمثلة
يبين المثال التالي طريقة عمل الدالة:
>>> from urllib.parse import urlparse
>>> o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
>>> o # doctest: +NORMALIZE_WHITESPACE
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
params='', query='', fragment='')
>>> o.scheme
'http'
>>> o.port
80
>>> o.geturl()
'http://www.cwi.nl:80/%7Eguido/Python.html'
تتبع هذه الدالة المعيار RFC 1808 في التعرّف على موقع الشبكة netloc
وذلك إن كان مبدوئًا بالرمز '//'
، وفيما عدا ذلك فإنّ الدالة ستعدّه عنوان URL محلّيًا وبذلك تبدأ مع مكوّن المسار.
>>> from urllib.parse import urlparse
>>> urlparse('//www.cwi.nl:80/%7Eguido/Python.html')
ParseResult(scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
params='', query='', fragment='')
>>> urlparse('www.cwi.nl/%7Eguido/Python.html')
ParseResult(scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',
params='', query='', fragment='')
>>> urlparse('help/Python.html')
ParseResult(scheme='', netloc='', path='help/Python.html', params='',
query='', fragment='')