yt-dlp/yt_dlp/extractor/canalc2.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..utils import parse_duration


class Canalc2IE(InfoExtractor):
    IE_NAME = 'canalc2.tv'
    _VALID_URL = r'https?://(?:(?:www\.)?canalc2\.tv/video/|archives-canalc2\.u-strasbg\.fr/video\.asp\?.*\bidVideo=)(?P<id>\d+)'

    _TESTS = [{
        'url': 'http://www.canalc2.tv/video/12163',
        'md5': '060158428b650f896c542dfbb3d6487f',
        'info_dict': {
            'id': '12163',
            'ext': 'mp4',
            'title': 'Terrasses du Numérique',
            'duration': 122,
        },
    }, {
        'url': 'http://archives-canalc2.u-strasbg.fr/video.asp?idVideo=11427&voir=oui',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)

        webpage = self._download_webpage(
            'http://www.canalc2.tv/video/%s' % video_id, video_id)

        title = self._html_search_regex(
            r'(?s)class="[^"]*col_description[^"]*">.*?<h3>(.+?)</h3>',
            webpage, 'title')

        formats = []
        for _, video_url in re.findall(r'file\s*=\s*(["\'])(.+?)\1', webpage):
            if video_url.startswith('rtmp://'):
                rtmp = re.search(
                    r'^(?P<url>rtmp://[^/]+/(?P<app>.+/))(?P<play_path>mp4:.+)$', video_url)
                formats.append({
                    'url': rtmp.group('url'),
                    'format_id': 'rtmp',
                    'ext': 'flv',
                    'app': rtmp.group('app'),
                    'play_path': rtmp.group('play_path'),
                    'page_url': url,
                })
            else:
                formats.append({
                    'url': video_url,
                    'format_id': 'http',
                })

        if formats:
            info = {
                'formats': formats,
            }
        else:
            info = self._parse_html5_media_entries(url, webpage, url)[0]

        self._sort_formats(info['formats'])

        info.update({
            'id': video_id,
            'title': title,
            'duration': parse_duration(self._search_regex(
                r'id=["\']video_duree["\'][^>]*>([^<]+)',
                webpage, 'duration', fatal=False)),
        })
        return info
Extractor for canalc2.tv 2013-08-22 11:54:23 +00:00			`# coding: utf-8`
[canalc2] Modernize 2014-02-22 13:27:09 +00:00			`from __future__ import unicode_literals`

Extractor for canalc2.tv 2013-08-22 11:54:23 +00:00			`import re`

			`from .common import InfoExtractor`
[canalc2] Extract duration 2015-10-18 13:27:05 +00:00			`from ..utils import parse_duration`
Extractor for canalc2.tv 2013-08-22 11:54:23 +00:00
[canalc2] Small improvements 2013-08-27 08:35:20 +00:00
Extractor for canalc2.tv 2013-08-22 11:54:23 +00:00			`class Canalc2IE(InfoExtractor):`
Wrong property name 2013-09-10 10:13:22 +00:00			`IE_NAME = 'canalc2.tv'`
[canalc2] Fix extraction (Closes #8191) 2016-01-09 19:37:10 +00:00			`_VALID_URL = r'https?://(?:(?:www\.)?canalc2\.tv/video/\|archives-canalc2\.u-strasbg\.fr/video\.asp\?.*\bidVideo=)(?P<id>\d+)'`
Extractor for canalc2.tv 2013-08-22 11:54:23 +00:00
[canalc2] Fix extraction (Closes #8191) 2016-01-09 19:37:10 +00:00			`_TESTS = [{`
[canalc2] fix info extraction 2015-09-21 14:52:36 +00:00			`'url': 'http://www.canalc2.tv/video/12163',`
[canalc2] Modernize 2014-02-22 13:27:09 +00:00			`'md5': '060158428b650f896c542dfbb3d6487f',`
			`'info_dict': {`
			`'id': '12163',`
[canalc2] Update test 2017-04-27 20:07:42 +00:00			`'ext': 'mp4',`
[canalc2] Fix test 2015-10-18 13:27:22 +00:00			`'title': 'Terrasses du Numérique',`
			`'duration': 122,`
[canalc2] fix info extraction 2015-09-21 14:52:36 +00:00			`},`
[canalc2] Fix extraction (Closes #8191) 2016-01-09 19:37:10 +00:00			`}, {`
			`'url': 'http://archives-canalc2.u-strasbg.fr/video.asp?idVideo=11427&voir=oui',`
			`'only_matching': True,`
			`}]`
Extractor for canalc2.tv 2013-08-22 11:54:23 +00:00
			`def _real_extract(self, url):`
[canalc2] fix info extraction 2015-09-21 14:52:36 +00:00			`video_id = self._match_id(url)`
[canalc2] Fix extraction (Closes #8191) 2016-01-09 19:37:10 +00:00
			`webpage = self._download_webpage(`
			`'http://www.canalc2.tv/video/%s' % video_id, video_id)`

[canalc2] Add support for HTML5 videos (closes #15916, closes #15919) 2018-03-19 16:40:19 +00:00			`title = self._html_search_regex(`
			`r'(?s)class="[^"]col_description[^"]">.*?<h3>(.+?)</h3>',`
			`webpage, 'title')`

[canalc2] Fix extraction (Closes #8191) 2016-01-09 19:37:10 +00:00			`formats = []`
			`for _, video_url in re.findall(r'file\s=\s(["\'])(.+?)\1', webpage):`
			`if video_url.startswith('rtmp://'):`
			`rtmp = re.search(`
			`r'^(?P<url>rtmp://[^/]+/(?P<app>.+/))(?P<play_path>mp4:.+)$', video_url)`
			`formats.append({`
			`'url': rtmp.group('url'),`
			`'format_id': 'rtmp',`
			`'ext': 'flv',`
			`'app': rtmp.group('app'),`
			`'play_path': rtmp.group('play_path'),`
			`'page_url': url,`
			`})`
			`else:`
			`formats.append({`
			`'url': video_url,`
			`'format_id': 'http',`
			`})`
lxml is not part of the standard library. 2013-08-22 12:47:51 +00:00
[canalc2] Add support for HTML5 videos (closes #15916, closes #15919) 2018-03-19 16:40:19 +00:00			`if formats:`
			`info = {`
			`'formats': formats,`
			`}`
			`else:`
			`info = self._parse_html5_media_entries(url, webpage, url)[0]`

			`self._sort_formats(info['formats'])`
[canalc2] Modernize 2014-02-22 13:27:09 +00:00
[canalc2] Add support for HTML5 videos (closes #15916, closes #15919) 2018-03-19 16:40:19 +00:00			`info.update({`
[canalc2] Modernize 2014-02-22 13:27:09 +00:00			`'id': video_id,`
			`'title': title,`
[canalc2] Add support for HTML5 videos (closes #15916, closes #15919) 2018-03-19 16:40:19 +00:00			`'duration': parse_duration(self._search_regex(`
			`r'id=["\']video_duree["\'][^>]*>([^<]+)',`
			`webpage, 'duration', fatal=False)),`
			`})`
			`return info`