动态

详情 返回 返回

yarl 對比 python3 標準庫 urllib(qbit) - 动态 详情

前言

  • 測試環境

    Python 3.8
    yarl 1.8.1
  • 本文主要是對比易用性,無關性能
  • yarl 官方文檔:https://yarl.aio-libs.org/en/...
  • url 組成部分

yarl VS. urllib

獲取 url 參數

  • urllib
>>> from urllib import parse
>>> url = r'https://docs.python.org/3.8/search.html?q=parse&check_keywords=yes&area=default'
>>> parseResult = parse.urlparse(url)
>>> parseResult
ParseResult(scheme='https', 
            netloc='docs.python.org', 
            path='/3.8/search.html', 
            params='', 
            query='q=parse&check_keywords=yes&area=default', 
            fragment='')
>>> param_dict = parse.parse_qs(parseResult.query)
>>> param_dict
{'q': ['parse'], 'check_keywords': ['yes'], 'area': ['default']}
>>> q = param_dict['q'][0]
>>> q
'parse'
#注意:加號會被解碼,可能有時並不是我們想要的
>>> parse.parse_qs('proxy=183.222.102.178:8080&task=XXXXX|5-3+2')
{'proxy': ['183.222.102.178:8080'], 'task': ['XXXXX|5-3 2']}

如果你還想問為什麼沒有 urldecode,把上面的示例看五遍。^_^

  • yarl
>>> url = URL(r"https://docs.python.org/3.8/search.html?q=parse&q=1&check_keywords=yes&area=default")
>>> url.query["q"]
'parse'
# 多值時可以用 getall 函數
>>> url.query.getall("q")
 ['parse']

解析 url 的 query string

  • urllib
>>> from urllib import parse
>>> parse.parse_qs('action=addblog&job=modify&tid=1766670')           # 1
{'tid': ['1766670'], 'action': ['addblog'], 'job': ['modify']}        #注意和第3個並不一樣
>>> parse.parse_qsl('action=addblog&job=modify&tid=1766670')
[('action', 'addblog'), ('job', 'modify'), ('tid', '1766670')]        # 3
>>> dict(parse.parse_qsl('action=addblog&job=modify&tid=1766670'))    #注意和第1個並不一樣
{'tid': '1766670', 'action': 'addblog', 'job': 'modify'}
  • yarl
>>> url = URL.build(query_string="action=addblog&job=modify&tid=1766670")
>>> url.query
<MultiDictProxy('action': 'addblog', 'job': 'modify', 'tid': '1766670')>
>>> url.query['tid']
'1766670'

encode 編碼

  • urllib
>>> from urllib import parse
>>> query = {
    'name': 'walker',
    'age': 99,
    }
>>> parse.urlencode(query)
'name=walker&age=99'
  • yarl
from yarl import URL
>>> query = {
    'name': 'walker',
    'age': 99,
    }
>>> url = URL.build(query=query)
>>> url.query_string
'name=walker&age=99'

quote 編碼

  • urllib
>>> from urllib import parse
>>> parse.quote('a&b/c')    #未編碼斜線
'a%26b/c'
>>> parse.quote_plus('a&b/c')    #編碼了斜線
'a%26b%2Fc'
  • yarl
    yarl 似乎無此功能

unquote 解碼

  • urllib
from urllib import parse
>>> parse.unquote('1+2')    #不解碼加號
'1+2'
>>> parse.unquote('1+2')    #把加號解碼為空格
'1 2'

域名編碼避免敏感詞屏蔽

>>> ''.join('%' + ('%x'%ord(ch)).upper() for ch in 'github.com')
'%67%69%74%68%75%62%2E%63%6F%6D'
本文出自 qbit snap
user avatar heiyanjing 头像 hafen 头像 nixidexuegao 头像 jrainlau 头像 weirdo_67190d70053aa 头像
点赞 5 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.