Generador de dataset

Transcripciones de listas de reproducción de YouTube → JSONL normalizado

Pega el enlace completo de la playlist (YouTube).

Entre 1 y 200. Por defecto 50. Se usa si no indicas rango.

Opcional: rango en la lista (1 = primer video). Deja vacío para usar los primeros “Máximo” videos.

Log de descarga y procesamiento

Solo normalizar (100% en el navegador, sin servidor)

Sube un JSONL con líneas {"text": "..."}. Se limpiará PII y se etiquetará regional_hint en tu navegador. No se envía nada a ningún servidor.

Qué hace esta herramienta
  • Obtiene los videos de la playlist (sin descargar el audio).
  • Descarga las transcripciones disponibles (subtítulos/CC).
  • Limpia el texto (espacios, PII: emails y teléfonos).
  • Normaliza cada documento: idioma, regional_hint (es-MX), license, chunk_id, source_url.
  • Devuelve un archivo dataset_transcripciones.jsonl listo para entrenar o analizar.

Dataset generado