yt-dlp/youtube_dl/extractor/beeg.py

from __future__ import unicode_literals

from .common import InfoExtractor
from ..compat import (
    compat_chr,
    compat_ord,
    compat_urllib_parse_unquote,
)
from ..utils import (
    int_or_none,
    parse_iso8601,
    urljoin,
)


class BeegIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?beeg\.com/(?P<id>\d+)'
    _TEST = {
        'url': 'http://beeg.com/5416503',
        'md5': 'a1a1b1a8bc70a89e49ccfd113aed0820',
        'info_dict': {
            'id': '5416503',
            'ext': 'mp4',
            'title': 'Sultry Striptease',
            'description': 'md5:d22219c09da287c14bed3d6c37ce4bc2',
            'timestamp': 1391813355,
            'upload_date': '20140207',
            'duration': 383,
            'tags': list,
            'age_limit': 18,
        }
    }

    def _real_extract(self, url):
        video_id = self._match_id(url)

        webpage = self._download_webpage(url, video_id)

        cpl_url = self._search_regex(
            r'<script[^>]+src=(["\'])(?P<url>(?:/static|(?:https?:)?//static\.beeg\.com)/cpl/\d+\.js.*?)\1',
            webpage, 'cpl', default=None, group='url')

        cpl_url = urljoin(url, cpl_url)

        beeg_version, beeg_salt = [None] * 2

        if cpl_url:
            cpl = self._download_webpage(
                self._proto_relative_url(cpl_url), video_id,
                'Downloading cpl JS', fatal=False)
            if cpl:
                beeg_version = int_or_none(self._search_regex(
                    r'beeg_version\s*=\s*([^\b]+)', cpl,
                    'beeg version', default=None)) or self._search_regex(
                    r'/(\d+)\.js', cpl_url, 'beeg version', default=None)
                beeg_salt = self._search_regex(
                    r'beeg_salt\s*=\s*(["\'])(?P<beeg_salt>.+?)\1', cpl, 'beeg salt',
                    default=None, group='beeg_salt')

        beeg_version = beeg_version or '2185'
        beeg_salt = beeg_salt or 'pmweAkq8lAYKdfWcFCUj0yoVgoPlinamH5UE1CB3H'

        for api_path in ('', 'api.'):
            video = self._download_json(
                'https://%sbeeg.com/api/v6/%s/video/%s'
                % (api_path, beeg_version, video_id), video_id,
                fatal=api_path == 'api.')
            if video:
                break

        def split(o, e):
            def cut(s, x):
                n.append(s[:x])
                return s[x:]
            n = []
            r = len(o) % e
            if r > 0:
                o = cut(o, r)
            while len(o) > e:
                o = cut(o, e)
            n.append(o)
            return n

        def decrypt_key(key):
            # Reverse engineered from http://static.beeg.com/cpl/1738.js
            a = beeg_salt
            e = compat_urllib_parse_unquote(key)
            o = ''.join([
                compat_chr(compat_ord(e[n]) - compat_ord(a[n % len(a)]) % 21)
                for n in range(len(e))])
            return ''.join(split(o, 3)[::-1])

        def decrypt_url(encrypted_url):
            encrypted_url = self._proto_relative_url(
                encrypted_url.replace('{DATA_MARKERS}', ''), 'https:')
            key = self._search_regex(
                r'/key=(.*?)%2Cend=', encrypted_url, 'key', default=None)
            if not key:
                return encrypted_url
            return encrypted_url.replace(key, decrypt_key(key))

        formats = []
        for format_id, video_url in video.items():
            if not video_url:
                continue
            height = self._search_regex(
                r'^(\d+)[pP]$', format_id, 'height', default=None)
            if not height:
                continue
            formats.append({
                'url': decrypt_url(video_url),
                'format_id': format_id,
                'height': int(height),
            })
        self._sort_formats(formats)

        title = video['title']
        video_id = video.get('id') or video_id
        display_id = video.get('code')
        description = video.get('desc')

        timestamp = parse_iso8601(video.get('date'), ' ')
        duration = int_or_none(video.get('duration'))

        tags = [tag.strip() for tag in video['tags'].split(',')] if video.get('tags') else None

        return {
            'id': video_id,
            'display_id': display_id,
            'title': title,
            'description': description,
            'timestamp': timestamp,
            'duration': duration,
            'tags': tags,
            'formats': formats,
            'age_limit': self._rta_search(webpage),
        }
Add support for beeg.com 2014-08-31 09:57:10 +00:00			`from __future__ import unicode_literals`

			`from .common import InfoExtractor`
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00			`from ..compat import (`
			`compat_chr,`
			`compat_ord,`
			`compat_urllib_parse_unquote,`
			`)`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`from ..utils import (`
			`int_or_none,`
			`parse_iso8601,`
[beeg] Fix extraction (closes #14275) 2017-09-20 21:05:33 +00:00			`urljoin,`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`)`
Add support for beeg.com 2014-08-31 09:57:10 +00:00

			`class BeegIE(InfoExtractor):`
			`_VALID_URL = r'https?://(?:www\.)?beeg\.com/(?P<id>\d+)'`
			`_TEST = {`
			`'url': 'http://beeg.com/5416503',`
[beeg] Update test 2017-04-27 20:14:11 +00:00			`'md5': 'a1a1b1a8bc70a89e49ccfd113aed0820',`
Add support for beeg.com 2014-08-31 09:57:10 +00:00			`'info_dict': {`
			`'id': '5416503',`
			`'ext': 'mp4',`
			`'title': 'Sultry Striptease',`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`'description': 'md5:d22219c09da287c14bed3d6c37ce4bc2',`
			`'timestamp': 1391813355,`
			`'upload_date': '20140207',`
			`'duration': 383,`
			`'tags': list,`
[beeg] Add age_limit 2014-09-01 21:13:04 +00:00			`'age_limit': 18,`
Add support for beeg.com 2014-08-31 09:57:10 +00:00			`}`
			`}`

			`def _real_extract(self, url):`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`video_id = self._match_id(url)`
[beeg] Extract all formats 2014-09-02 13:54:00 +00:00
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`webpage = self._download_webpage(url, video_id)`

			`cpl_url = self._search_regex(`
[beeg] Fix extraction (closes #14275) 2017-09-20 21:05:33 +00:00			`r'<script[^>]+src=(["\'])(?P<url>(?:/static\|(?:https?:)?//static\.beeg\.com)/cpl/\d+\.js.*?)\1',`
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`webpage, 'cpl', default=None, group='url')`

[beeg] Fix extraction (closes #14275) 2017-09-20 21:05:33 +00:00			`cpl_url = urljoin(url, cpl_url)`

[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`beeg_version, beeg_salt = [None] * 2`

			`if cpl_url:`
			`cpl = self._download_webpage(`
			`self._proto_relative_url(cpl_url), video_id,`
			`'Downloading cpl JS', fatal=False)`
			`if cpl:`
[beeg] Fix extraction (closes #11069) 2016-10-29 22:27:50 +00:00			`beeg_version = int_or_none(self._search_regex(`
			`r'beeg_version\s=\s([^\b]+)', cpl,`
			`'beeg version', default=None)) or self._search_regex(`
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`r'/(\d+)\.js', cpl_url, 'beeg version', default=None)`
			`beeg_salt = self._search_regex(`
[beeg] Fix extraction (closes #11069) 2016-10-29 22:27:50 +00:00			`r'beeg_salt\s=\s(["\'])(?P<beeg_salt>.+?)\1', cpl, 'beeg salt',`
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`default=None, group='beeg_salt')`

[beeg] Fix extraction (closes #14275) 2017-09-20 21:05:33 +00:00			`beeg_version = beeg_version or '2185'`
[beeg] Fix extraction (closes #11069) 2016-10-29 22:27:50 +00:00			`beeg_salt = beeg_salt or 'pmweAkq8lAYKdfWcFCUj0yoVgoPlinamH5UE1CB3H'`
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00
[beeg] Fix extraction (closes #14403) 2017-10-03 21:27:42 +00:00			`for api_path in ('', 'api.'):`
			`video = self._download_json(`
			`'https://%sbeeg.com/api/v6/%s/video/%s'`
			`% (api_path, beeg_version, video_id), video_id,`
			`fatal=api_path == 'api.')`
			`if video:`
			`break`
[beeg] API v5 (Closes #7846) 2015-12-11 20:52:20 +00:00
			`def split(o, e):`
			`def cut(s, x):`
			`n.append(s[:x])`
			`return s[x:]`
			`n = []`
			`r = len(o) % e`
			`if r > 0:`
			`o = cut(o, r)`
			`while len(o) > e:`
			`o = cut(o, e)`
			`n.append(o)`
			`return n`
[beeg] Extract all formats 2014-09-02 13:54:00 +00:00
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00			`def decrypt_key(key):`
[beeg] Switch to api v6 (Closes #9036) 2016-03-31 14:42:41 +00:00			`# Reverse engineered from http://static.beeg.com/cpl/1738.js`
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`a = beeg_salt`
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00			`e = compat_urllib_parse_unquote(key)`
[beeg] API v5 (Closes #7846) 2015-12-11 20:52:20 +00:00			`o = ''.join([`
			`compat_chr(compat_ord(e[n]) - compat_ord(a[n % len(a)]) % 21)`
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00			`for n in range(len(e))])`
[beeg] API v5 (Closes #7846) 2015-12-11 20:52:20 +00:00			`return ''.join(split(o, 3)[::-1])`
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00
			`def decrypt_url(encrypted_url):`
			`encrypted_url = self._proto_relative_url(`
[beeg] Fix extraction (Closes #8225) 2016-01-14 13:57:20 +00:00			`encrypted_url.replace('{DATA_MARKERS}', ''), 'https:')`
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00			`key = self._search_regex(`
			`r'/key=(.*?)%2Cend=', encrypted_url, 'key', default=None)`
			`if not key:`
			`return encrypted_url`
			`return encrypted_url.replace(key, decrypt_key(key))`

[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`formats = []`
			`for format_id, video_url in video.items():`
[beeg] Skip empty URLs (Closes #7392) 2015-11-07 00:23:00 +00:00			`if not video_url:`
			`continue`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`height = self._search_regex(`
			`r'^(\d+)[pP]$', format_id, 'height', default=None)`
			`if not height:`
			`continue`
			`formats.append({`
[beeg] Decrypt URL (Closes #7736) 2015-12-03 18:59:32 +00:00			`'url': decrypt_url(video_url),`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`'format_id': format_id,`
			`'height': int(height),`
			`})`
[beeg] Extract all formats 2014-09-02 13:54:00 +00:00			`self._sort_formats(formats)`
Add support for beeg.com 2014-08-31 09:57:10 +00:00
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`title = video['title']`
			`video_id = video.get('id') or video_id`
			`display_id = video.get('code')`
			`description = video.get('desc')`
PEP8 applied 2014-11-23 19:41:03 +00:00
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`timestamp = parse_iso8601(video.get('date'), ' ')`
			`duration = int_or_none(video.get('duration'))`
Add support for beeg.com 2014-08-31 09:57:10 +00:00
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`tags = [tag.strip() for tag in video['tags'].split(',')] if video.get('tags') else None`
Add support for beeg.com 2014-08-31 09:57:10 +00:00
			`return {`
			`'id': video_id,`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`'display_id': display_id,`
Add support for beeg.com 2014-08-31 09:57:10 +00:00			`'title': title,`
			`'description': description,`
[beeg] Fix extraction (Closes #7155) 2015-10-13 15:04:39 +00:00			`'timestamp': timestamp,`
			`'duration': duration,`
			`'tags': tags,`
[beeg] Extract all formats 2014-09-02 13:54:00 +00:00			`'formats': formats,`
[beeg] Improve extraction 2016-04-07 16:40:35 +00:00			`'age_limit': self._rta_search(webpage),`
Add support for beeg.com 2014-08-31 09:57:10 +00:00			`}`