from epi2melabs import ping
tutorial_name = "16s_lineage"
pinger = ping.Pingu()

# create a work directory and move into it
working_dir = '/epi2melabs/{}/'.format(tutorial_name)
!mkdir -p "$working_dir"
%cd "$working_dir"

/epi2melabs/16s_lineage


!pip install csvkit
!wget https://github.com/shenwei356/taxonkit/releases/download/v0.6.0/taxonkit_linux_amd64.tar.gz
!tar -xzvf taxonkit_linux_amd64.tar.gz


!mkdir -p "$working_dir"/taxdump
%cd "$working_dir/taxdump"
!wget http://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz
!tar -xzvf taxdump.tar.gz
%cd "$working_dir"


import os
from epi2melabs.notebook import InputForm, InputSpec

import ipywidgets as widgets

use_sample_data = None
epi2me_results_file = None
annotated_output = None

def process_form(inputs):
    global use_sample_data
    global epi2me_results_file
    global annotated_output
    use_sample_data = inputs.use_sample_data
    epi2me_results_file = os.path.abspath(inputs.epi2me_results_file)
    annotated_output = inputs.annotated_output

    if use_sample_data:
        print("Using sample data")
        bucket = "ont-exd-int-s3-euwst1-epi2me-labs"
        domain = "s3-eu-west-1.amazonaws.com"
        site = "https://{}.{}".format(bucket, domain)
        fname = "242318_classification_16s_barcode-v1.csv"

        print("Downloading sample data...")
        !wget -q $site/misc/$fname \
            && echo "Download complete" || echo "Download failed"
        print("Done.")
        epi2me_results_file = os.path.abspath(fname)

    if not os.path.isfile(epi2me_results_file):
        print("Input file does not exist")
    print("\nFirst 10 lines of file:")
    !head "$epi2me_results_file" || echo "File not readable"

inputs = InputForm(
    InputSpec('use_sample_data', 'Use sample data', True),
    InputSpec('epi2me_results_file', 'EPI2ME Results File', ''),
    InputSpec('annotated_output', 'Output filename',
              '/epi2melabs/16s_lineage/epi2me_results_with_lineage.csv'))
inputs.add_process_button(process_form)
inputs.display()

VBox(children=(HBox(children=(Label(value='Use sample data', layout=Layout(width='150px')), interactive(childr…


# Code for annotating an EPI2ME results file with lineage information (click play)
import pandas as pd
import os
def parse_epi2me(fname):
    dirname = os.path.dirname(fname)
    tsvtmp = os.path.join(dirname, "epi2me2lineage.tsv")
    lintmp = os.path.join(dirname, "epi2me2lineage.lin.tmp")
    fmttmp = os.path.join(dirname, "epi2me2lineage.fmt.tmp")

    print("Converting to TSV")
    !csvformat -T "$fname" > "$tsvtmp"
    # need to know the position of the "taxid" column and the number of columns
    try:
        with open(tsvtmp, 'r') as fh:
            header = fh.readline().rstrip().split()
            taxid_col = 1 + header.index('taxid')
            lineage_col = 1 + len(header)  # this will be added in
    except:
        raise IndexError("Could not find 'taxid' column in input.")
    print("Running lineage")
    !"$working_dir/taxonkit" lineage --data-dir taxdump "$tsvtmp" -i "$taxid_col" 2>/dev/null > "$lintmp"
    print("Running reformat")
    !"$working_dir/taxonkit" reformat --data-dir taxdump -i "$lineage_col" "$lintmp" 2>/dev/null > "$fmttmp"
    print("Munging data")
    epi2me = pd.read_csv(fmttmp, sep='\t')
    # rename some columns so they don't clash with the lineage info
    epi2me.columns = epi2me.columns[0:len(epi2me.columns)-2].to_list() + ['_lineage', 'lineage']
    epi2me = epi2me.rename(columns={'species': 'species_name', 'genus':'genus_name'})
    # extract the lineage info into its on columns in the table
    lineage = epi2me['lineage'].str.split(";", expand=True)
    lineage.columns = ['kingdom', 'phylum', 'class', 'order', 'family','genus', 'species']
    epi2me = pd.concat((epi2me, lineage), axis=1)
    !rm -rf "$tsvtmp" "$lintmp" "$fmttmp"
    return epi2me


epi2me = parse_epi2me(epi2me_results_file)
epi2me.to_csv(annotated_output)
pinger.send_notebook_ping('stop', tutorial_name)
print("Annotated data table written to: {}. Download from the filebrowser.".format(annotated_output))

Converting to TSV
Running lineage
Running reformat
Munging data
Annotated data table written to: /epi2melabs/16s_lineage/epi2me_results_with_lineage.csv. Download from the filebrowser.


epi2me = pd.read_csv(annotated_output)
display(epi2me.head())


def process_form(inputs):
    def replace_empty(index):
        try:
            idx = index.index('')
        except ValueError:
            pass
        else:
            index[idx] = 'Unknown'
        return index

    if not inputs.split_by_barcode:
        results = (
            epi2me[inputs.aggregation_rank]
            .value_counts()
            .reset_index()
            .rename(columns={'index':inputs.aggregation_rank, inputs.aggregation_rank:'count'}))
        results[inputs.aggregation_rank] = replace_empty(results[inputs.aggregation_rank].tolist())
        results.sort_values('count', ascending=False, inplace=True)
    else:
        results = (
            epi2me[[inputs.aggregation_rank, 'barcode']]
            .groupby([inputs.aggregation_rank, 'barcode'])
            .size().unstack(fill_value=0))
        results['total'] = results.sum(axis=1)
        results.sort_values('total', ascending=False, inplace=True)
        results.index = replace_empty(results.index.tolist())
    print("Top 10 groups.")
    display(results.head(10))
    output = 'aggregated_counts_by_{}.csv'.format(inputs.aggregation_rank)
    results.to_csv(output)
    print("Results written to {}, download from the filebrowser.".format(output))

outputs = InputForm(
    InputSpec('aggregation_rank', 'Taxonomic Rank', ['kingdom', 'phylum', 'class', 'order', 'family','genus', 'species']),
    InputSpec('split_by_barcode', 'Split barcodes', False))
outputs.add_process_button(process_form)
outputs.display()

VBox(children=(HBox(children=(Label(value='Taxonomic Rank', layout=Layout(width='150px')), interactive(childre…

	Unnamed: 0	readid	runid	barcode	exit_status	taxid	species_taxid	species_name	accuracy	genus_taxid	...	_lineage	lineage	kingdom	phylum	class	order	family	genus	species
0	0	0003c930-069c-4c63-a8df-1a0ca50992c4	711db73c212e422fad11ca3c0ed596fc	NaN	Classification successful	404937.0	404937.0	Anoxybacillus thermarum	93.88	150247.0	...	cellular organisms;Bacteria;Terrabacteria grou...	Bacteria;Firmicutes;Bacilli;Bacillales;Bacilla...	Bacteria	Firmicutes	Bacilli	Bacillales	Bacillaceae	Anoxybacillus	Anoxybacillus thermarum
1	1	000d4674-7d99-4fed-8ba6-ab5781ab95b7	711db73c212e422fad11ca3c0ed596fc	NaN	Classification successful	43657.0	43657.0	Pseudoalteromonas luteoviolacea	93.37	53246.0	...	cellular organisms;Bacteria;Proteobacteria;Gam...	Bacteria;Proteobacteria;Gammaproteobacteria;Al...	Bacteria	Proteobacteria	Gammaproteobacteria	Alteromonadales	Pseudoalteromonadaceae	Pseudoalteromonas	Pseudoalteromonas luteoviolacea
2	2	00248183-faee-4f5b-a9fe-feb8e241db92	711db73c212e422fad11ca3c0ed596fc	NaN	Classification successful	1855725.0	1855725.0	Mucilaginibacter antarcticus	95.50	423349.0	...	cellular organisms;Bacteria;FCB group;Bacteroi...	Bacteria;Bacteroidetes;Sphingobacteriia;Sphing...	Bacteria	Bacteroidetes	Sphingobacteriia	Sphingobacteriales	Sphingobacteriaceae	Mucilaginibacter	Mucilaginibacter antarcticus
3	3	0029656e-5028-48e5-8822-0ba770d9ccf6	711db73c212e422fad11ca3c0ed596fc	NaN	Classification successful	878213.0	878213.0	Actinomycetospora iriomotensis	92.25	402649.0	...	cellular organisms;Bacteria;Terrabacteria grou...	Bacteria;Actinobacteria;Actinomycetia;Pseudono...	Bacteria	Actinobacteria	Actinomycetia	Pseudonocardiales	Pseudonocardiaceae	Actinomycetospora	Actinomycetospora iriomotensis
4	4	002b9804-6cd0-42cd-b86e-6c71cf01bf4e	711db73c212e422fad11ca3c0ed596fc	NaN	Classification successful	2027860.0	2027860.0	Mucilaginibacter rubeus	93.07	423349.0	...	cellular organisms;Bacteria;FCB group;Bacteroi...	Bacteria;Bacteroidetes;Sphingobacteriia;Sphing...	Bacteria	Bacteroidetes	Sphingobacteriia	Sphingobacteriales	Sphingobacteriaceae	Mucilaginibacter	Mucilaginibacter rubeus

Analysis of EPI2ME 16S CSV Output

Expected Duration: 10 minutes

Getting started¶

Install additional software¶

Using your own data¶

Data Entry¶

Analysis¶

Some notes¶