# create a work directory and move into it
from epi2melabs import ping
tutorial_name = "isoform_tutorial"
pinger = ping.Pingu()
pinger.send_notebook_ping('start', tutorial_name)

working_dir = "/epi2melabs/{}/".format(tutorial_name)
!mkdir -p "$working_dir"
%cd "$working_dir"


!mamba install -q -y stringtie gffcompare gffread!mamba install -q -y pychopper -c epi2melabs -c bioconda -c conda-forge


# Download sample data (click play)
bucket = "ont-exd-int-s3-euwst1-epi2me-labs"
domain = "s3-eu-west-1.amazonaws.com"
site = "https://{}.{}".format(bucket, domain)

location='{}/pychopper_tutorial'.format(site)
filename = "Dmel.4.filt.fastq.gz"
!echo "Downloading sample data"
!wget -q -O sample_data.fastq.gz "$location"/"$filename" \
    && cecho success "✔ Downloaded" || cecho error "Failed"

# download reference and annotations
!echo "Downloading reference sequence:"
filename = "Drosophila_melanogaster.BDGP6.dna.toplevel.fa.gz"
!wget -q -O $filename "$location"/"$filename" \
    && cecho success "✔ Downloaded" || cecho error "Failed"
!echo "Downloading annotation file"
filename = "Drosophila_melanogaster.BDGP6.95.gtf.gz"
!wget -q -O $filename "$location"/"$filename" \
    && cecho success "✔ Downloaded" || cecho error "Failed"


import os
import multiprocessing
from epi2melabs.notebook import InputForm, InputSpec

import ipywidgets as widgets

read_type = "cDNA" #@param ["cDNA", "dRNA"]
fastq = "sample_data.fastq.gz" #@param {type: "string"}
reference = "Drosophila_melanogaster.BDGP6.dna.toplevel.fa.gz" #@param {type: "string"}
annotations = "Drosophila_melanogaster.BDGP6.95.gtf.gz" #@param {type: "string"}
analysis_folder = "analysis" #@param {type: "string"}
threads = 4 #@param {type: "integer"}
# @markdown Force rebuild any minimap2 index:
rebuild_index = False #@param {type: "boolean"}


def ensure_path(path):
  """
  Raise error is path doesn't exist
  """
  if not os.path.exists(path):
    raise FileNotFoundError(errno.ENOENT, os.strerror(errno.ENOENT), path)
  return True


def return_filepath(path):
  """
  Takes a filepath. If filepath is gzipped (has .gz) extensions then file
  is extracted and extracted path is returned. If filepath has gz extension
  and doesn't exist but the extracted version exists, return that path. If 
  extracted version of file or path (if not gzipped) raise FileNotFoundError.
  """
  if path.endswith(".gz"):
    extracted = os.path.splitext(path)[0]
    if os.path.exists(path):
      !echo "* Unzipping $path" && gunzip -f $path
    else:
      print("* Extracted file found: {}".format(extracted))
    path = extracted
  ensure_path(path)
  return path

def ensure_path(path):
  """
  Raise error is path doesn't exist
  """
  if not os.path.exists(path):
    raise FileNotFoundError(errno.ENOENT, os.strerror(errno.ENOENT), path)
  return True

def process_form(inputs):
    
    global read_type, run_pychopper, fastq, reference, annotations, analysis_folder, threads, processed_reads_dir, input_dict, primer_kit
    
    analysis_folder = inputs.analysis_folder
    !mkdir -p $analysis_folder
    
    read_type = inputs.read_type
    run_pychopper = read_type == "cDNA"
    
    fastq = inputs.fastq
    reference = inputs.reference
    annotations = inputs.annotations
    threads = inputs.threads
    primer_kit = inputs.primer_kit
    
    to_normalise = zip(
    ('fastq', 'reference', 'annotations'),
    (os.path.basename(x) for x in (fastq, reference, annotations)))

    print("Checking files:")
    input_dict = dict()
    
    for file_type, path in to_normalise:
      print("Checking {}: {}".format(file_type, path))
      if file_type == "annotations" and not path:
        print("* SKIPPING: No annotation file given")
        continue
      path = return_filepath(path)
      input_dict[file_type] = path
        
    print("Creating processed fastq folder")
    processed_reads_dir = "processed_reads"
    !mkdir -p $processed_reads_dir
    print("Linking input_fastq to processed reads dir.")
    input_fastq = input_dict["fastq"]
    !ln -s `realpath $input_fastq` $processed_reads_dir/input_reads.fq 2> /dev/null
    
inputs = InputForm(
    InputSpec("read_type", 'Type of read', ["cDNA", "dRNA"]),
    InputSpec("fastq", "Fastq dataset", fastq),
    InputSpec("reference", "Reference fasta", reference),
    InputSpec('primer_kit', 'Primer Kit', widgets.Dropdown(options=['PCS110','PCS109'])),
    InputSpec("annotations", "Annotation gtf", annotations),
    InputSpec("analysis_folder", "Analysis folder name", analysis_folder),
    InputSpec("threads", "Number of threads", (1, multiprocessing.cpu_count(), 1)),
)
inputs.add_process_button(process_form)

inputs.display()


# Basic read QC graphs  *(click play)*
import aplanat
from aplanat.hist import histogram
from bokeh.layouts import gridplot
import numpy as np
from pysam import FastxFile

qualities = list()
mean_qualities = list()
lengths = list()

input_reads = os.path.join(processed_reads_dir, "input_reads.fq")
# open the file and iterate through its records
with FastxFile(input_reads) as fq:
    for rec in fq:
        # ONT calculation for "mean Q score"
        quals = np.fromiter(
            (ord(x) - 33 for x in rec.quality),
            dtype=int, count=len(rec.quality))
        mean_p = np.mean(np.power(10, quals/-10))
        mean_qualities.append(-10*np.log10(mean_p))
        # all qualities
        qualities.extend(quals)
        lengths.append(len(quals))


p1 = histogram(
    [np.array(mean_qualities)], title="Read quality scores",
    x_axis_label="quality", y_axis_label="count",
    height=250, width=300)
p2 = histogram(
    [qualities], title="Base quality scores",
    x_axis_label="quality", y_axis_label="count",
    height=250, width=300)
p3 = histogram(
    [lengths], title="Read lengths",
    x_axis_label="read length / bases", y_axis_label="count",
    height=250, width=300)
aplanat.show(gridplot((p1, p2, p3), ncols=3), background="#f4f4f4")


# Running pychopper *(click play)*
import os
import pandas as pd
import aplanat
from aplanat import lines
full_length_reads = os.path.join(processed_reads_dir, "full_length_reads.fq")

# Run pychopper
if run_pychopper:
  !cd $processed_reads_dir && \
  cdna_classifier.py \
      -t $threads \
      -S "cdna_classifier_report.tsv" \
      -k "$primer_kit" \
      "input_reads.fq" \
      "full_length_reads.fq"
  csv = os.path.join(processed_reads_dir, "cdna_classifier_report.tsv")

  df = pd.read_csv(csv, sep="\t", index_col="Name")
  classified = df.loc[df["Category"] == "Classification"] \
      .copy().reset_index().rename(columns={'Name': 'Classification'})
  classified["Percentage"] = 100 * classified["Value"] / classified["Value"].sum()
  display(classified[['Classification', 'Percentage',]])

  tuning =  df.loc[df["Category"] == "AutotuneSample"] \
      .copy().reset_index().rename(columns={'Name': 'Filter'})
  plot = lines.line(
      [tuning['Filter'].astype(float)], [tuning['Value']],
      title="Cut off parameter selection curve",
      x_axis_label='Filter cut off',
      y_axis_label='Selected reads')
  aplanat.show(plot, background="#f4f4f4")
else:
  !ln -s `realpath $processed_reads_dir/input_reads.fq` $full_length_reads 2> /dev/null
  print("Skipping: Running pychopper")


# Alignment and filtering with `minimap2` *(click play)*
import yaml
min_mapping_quality = 40 

# Secondary filtering
poly_context = 24
max_poly_run = 8
context_plot_alignments = 5000

alignments_dir = os.path.join(analysis_folder, 'alignments')

# create minimap index
index_dir = os.path.join(analysis_folder, 'index')
!mkdir -p $index_dir
ref = input_dict['reference']
minimap_index = os.path.join(index_dir, "genome_index.mmi")
if rebuild_index or not os.path.exists(minimap_index):
    print("* Building minimap index...")
    !minimap2 -t $threads -k14 -I 1000G -d $minimap_index $ref \
    && echo "✓ Built index!"
else:
    print("* Skipping building minimap index")

!mkdir -p $alignments_dir
minimap_out_bam = os.path.join(alignments_dir, "reads_aln_sorted.bam")
unfiltered_sam = os.path.join(alignments_dir, "unfiltered.sam")

filtered_tsv = os.path.join(alignments_dir, "internal_priming_fail.tsv")
context_filt = {
    "AlnContext": {
        "Ref": ref,
        "LeftShift": -poly_context,
        "RightShift": poly_context,
        "RegexEnd": "[Aa]{{{pr},}}".format(pr=max_poly_run),
        "Stranded": True,
        "Invert": True,
        "Tsv": filtered_tsv}}
with open('filt.yaml', 'w') as outfile:
    yaml.dump(context_filt, outfile)

!rm -rf $minimap_out_bam
!minimap2 -t $threads -ax splice -uf $minimap_index $full_length_reads \
    | samtools view -q $min_mapping_quality -F2304 -bS - \
    | seqkit_bam_yaml filt.yaml \
    | samtools sort -@ $threads -o $minimap_out_bam -
!samtools index $minimap_out_bam


# Read summary plot code *(click play)*
# calculate some basic statistics from the alignments
!stats_from_bam -o $minimap_out_bam'.tsv' $minimap_out_bam
#2> /dev/null

from aplanat import hist
from bokeh.layouts import gridplot
df = pd.read_csv(minimap_out_bam + '.tsv', sep="\t")

p1 = hist.histogram(
    [df['acc']], xlim=(70,101), binwidth=0.5, height=200,
    x_axis_label='read accuracy', y_axis_label='read count')
p2 = hist.histogram(
    [df['coverage']], xlim=(90,101), binwidth=0.2, height=200,
    x_axis_label='% of read contained in alignment',
    y_axis_label='read count')

aplanat.show(gridplot([[p1], [p2]]), background="#f4f4f4")

Mapped/Unmapped/Short/Masked/Skipped(all matches masked): 11167/0/0/0/0


# Assemble transcripts with StringTie *(click play)*
import glob

bam_bundle_dir = "bam_bundles"
min_reads = 50000 #@param {type: "integer"}
split_bam = True #@param {type: "boolean"}

# make bam bundles to speed calculation
!rm -rf $bam_bundle_dir
if split_bam:
    !seqkit bam -j $threads -N $min_reads $minimap_out_bam -o $bam_bundle_dir
else:
    !mkdir -p bam_bundle_dir
    !ln -s $minimap_out_bam $bam_bundle_dir'/000000000_ALL:0:1_bundle.bam'

# use_guide = True #@param {type: "boolean"}
bam_paths = os.path.join(bam_bundle_dir, "*")
gff_bundle_dir = "gff_bundles"

for bam_path in glob.glob(bam_paths):
  bam_name = os.path.splitext(os.path.basename(bam_path))[0]
  label = "STR.{}.".format(int(bam_name.split("_")[0]))
  gff = "{}/{}.gff".format(gff_bundle_dir, bam_name)
  g_flag = ""
  if input_dict["annotations"]:
      g_flag = '-G {}'.format(input_dict["annotations"])
  !stringtie --rf $g_flag  -l "$label" -L -v -p "$threads" --conservative -o "$gff" "$bam_path"

# merge gff bundles into a single file:
#  `results/annotation/str_merged.gff`
annotation_dir = os.path.join("results", "annotation")
!mkdir -p $annotation_dir
stringtie_gff = os.path.join(annotation_dir, "stringtie.gff")
!rm stringtie_gff 2>/dev/null
paths = glob.glob(os.path.join(bam_bundle_dir, "*.bam"))
bundle = [os.path.splitext(os.path.basename(path))[0] for path in paths]
bundle = sorted(bundle, key=lambda x: int(x.split("_")[0]))
gffs = [os.path.join(gff_bundle_dir, "{}.gff".format(name)) for name in bundle]
for gff in gffs:
    !grep -v '#' "$gff" >> $stringtie_gff


# Annotating assembled transcripts  *(click play)*

annotations = os.path.abspath(input_dict["annotations"])
gff_compare_dir = os.path.join("results", "gffcompare")
!mkdir -p "$gff_compare_dir"
annotated_gff = os.path.join(gff_compare_dir, "stringtie.annotated.gtf")

if annotations:
    !gffcompare -o "$gff_compare_dir"/stringtie -r "$annotations" -R "$stringtie_gff" \
        && cecho success "✓ Completed gffcompare" \
        || cecho error "✗ Failed gffcompare"
else:
    !cecho warning "Skipping comparison with annotation as none provided."

  34767 reference transcripts loaded.
  3271 duplicate reference transcripts discarded.
  121 query transfrags loaded.
✓ Completed gffcompare


# Classification summary *(click play)*

write_empty_tsvs = False
tracking_headings = [
    "query_transfrag_id", "query_locus_id", "ref_gene_id",
    "class", "details"]
nice_names = {
    '=': 'complete', 'c': 'contained', 'k': 'containment',
    'm': 'retained', 'n': 'retained (partial)', 'j': 'multi',
    'e': 'single', 'o': 'overlap', 's': 'opposite',
    'x': 'exonic', 'i': 'intron', 'y': 'contains', 'p': 'runon',
    'r': 'repeat', 'u': 'unknown'}

tracking_file = os.path.join(
    gff_compare_dir, "stringtie.tracking")
if os.path.exists(annotations):
    tracking = pd.read_csv(
        tracking_file, sep="\t", names=tracking_headings[1:],
        index_col=0)

    d = pd.DataFrame(tracking['class'].value_counts()) \
        .reset_index().rename(columns={'index':'class', 'class':'count'})
    d['description'] = [nice_names[x] for x in d['class']]
    display(d)
    
    # write a separate table for each class
    for class_code, table in tracking.groupby('class'):
      if not write_empty_tsvs and table.empty:
        print("Skipping: No transcripts found for: {}".format(class_code))
        continue
      
      path = tracking_file + ".{}.tsv".format(class_code)
      table.to_csv(path)
else:
    !cecho warning "Skipping classification summary as no annotation provided."


# Create transcriptome *(click play)*
stringtie_transcriptome = os.path.join("results", "stringtie_transcriptome.fas")

ref = input_dict['reference']
if os.path.exists(annotated_gff):
    !cecho ok "Creating transcriptome with annotations"
    !gffread -F -g "$ref" -w $stringtie_transcriptome $annotated_gff
    !echo "Done"
else:
    !cecho warning "Creating transcriptome without annotations"
    !gffread -g "$ref" -w "$stringtie_transcriptome" "$stringtie_gff"
    !echo "Done"

Isoform Tutorial

Expected Duration: 20 minutes

Introduction¶

Getting Started¶

Install additional software¶

Sample Data¶

Using your own data¶

Data Entry¶

Sequence data quality control and pre-processing¶

Identifying and orienting full length transcripts¶

Mapping reads to the reference¶

Assembling reads into transcripts¶

Comparison to existing annotation¶

Generating a transcriptome¶

Summary¶

	class	count	description
0	=	51	complete
1	c	29	contained
2	j	25	multi
3	s	3	opposite
4	e	3	single
5	o	3	overlap
6	u	2	unknown
7	n	2	retained (partial)
8	p	1	runon
9	m	1	retained
10	i	1	intron