!mamba install -q -y pychopper -c epi2melabs -c bioconda -c conda-forge

  Pinned packages:

  - conda 4.9.2  - python 3.8.*  - tini 0.18.0


# create a work directory and move into it
tutorial_name = "pychopper_tutorial"
working_dir = '/epi2melabs/{}'.format(tutorial_name)
!mkdir -p "$working_dir"
%cd "$working_dir"

from epi2melabs import ping
pinger = ping.Pingu()
_ = pinger.send_notebook_ping('start', 'pychopper_tutorial')


#@markdown Select download type and press Play
from epi2melabs.notebook import InputForm, InputSpec

bucket = "ont-exd-int-s3-euwst1-epi2me-labs"
domain = "s3-eu-west-1.amazonaws.com"
site = "https://{}.{}".format(bucket, domain)

download = "D. melanogaster" #@param ["D. melanogaster", "small set"]

## download the data
def process_form(inputs):
    location="{}/pychopper_tutorial".format(site)
    filename = None
    if inputs.dataset == "D. melanogaster":
        filename = "Dmel.4.filt.fastq.gz"
    elif inputs.dataset == "small set":
        filename = "small_cdna_example.fastq.gz"

    !echo "Downloading $filename"
    !wget -O sample_data.fastq.gz "$location"/"$filename"
    !echo "Extracting"
    !gunzip -f sample_data.fastq.gz
    !echo "Done"
    
input_form = InputForm(
    InputSpec('dataset', 'Dataset', ["D. melanogaster", "small set"]))
input_form.add_process_button(process_form)
input_form.display()


!tree .

.
├── analysis
│   ├── cdna_classifier_report.tsv
│   ├── full_length_output.fq
│   ├── input.fastq -> /epi2melabs/pychopper_tutorial/sample_data.fastq
│   ├── report.pdf
│   ├── rescued.fq
│   └── unclassified.fq
└── sample_data.fastq

1 directory, 7 files


import os
import ipywidgets as widgets

input_file = None
output_folder = None

def process_form(inputs):
    global input_file
    global output_folder
    global primer_kit
    # run a command to concatenate all the files together
    !echo "Making output folder"
    output_folder = inputs.output_folder
    !mkdir -p "$output_folder"
    input_data = inputs.input_data
    !test -e "$input_data" && echo "Found input file." || "WARNING: $input_data does not exist"
    input_file = os.path.join(output_folder, "input.fastq")
    !rationalize_fastq -i "$input_data" -o "$input_file"
    primer_kit = inputs.primer_kit
    
pychopper_form = InputForm(
    InputSpec('input_data', 'Input fastq', '/epi2melabs/pychopper_tutorial/sample_data.fastq'),
    InputSpec('primer_kit', 'Primer Kit', widgets.Dropdown(
            options=['PCS110','PCS109', 'PCS111'])),
    InputSpec('output_folder', 'Output folder', 'analysis'))
pychopper_form.add_process_button(process_form)
pychopper_form.display()


!cdna_classifier.py \
    -r "$output_folder"/report.pdf \
    -u "$output_folder"/unclassified.fq \
    -w "$output_folder"/rescued.fq \
    -S "$output_folder"/cdna_classifier_report.tsv \
    -k "$primer_kit" \
    "$input_file" \
    "$output_folder"/full_length_output.fq


# Classification summary *(click to show)*
import os
import pandas as pd
import aplanat
from aplanat import lines

pinger.send_notebook_ping('stop', 'pychopper_tutorial')

csv = os.path.join(output_folder, "cdna_classifier_report.tsv")

df = pd.read_csv(csv, sep="\t", index_col="Name")
classified = df.loc[df["Category"] == "Classification"] \
    .copy().reset_index().rename(columns={'Name': 'Classification'})
classified["Percentage"] = 100 * classified["Value"] / classified["Value"].sum()
display(classified[['Classification', 'Percentage',]])

tuning =  df.loc[df["Category"] == "AutotuneSample"] \
    .copy().reset_index().rename(columns={'Name': 'Filter'})
plot = lines.line(
    [tuning['Filter'].astype(float)], [tuning['Value']],
    title="Cut off parameter selection curve",
    x_axis_label='Filter cut off',
    y_axis_label='Selected reads')
aplanat.show(plot, background="#f4f4f4")

	Classification	Percentage
0	Primers_found	74.364532
1	Rescue	1.931034
2	Unusable	23.704433

Introduction to Pychopper

Expected Duration: 10 minutes

Installing Pychopper¶

Data preparation¶

Sample Data¶

Using your own data¶

Data entry¶

Running pychopper¶

Analysis of pychopper results¶