from epi2melabs import ping
tutorial_name = "fast5_tutorial"
pinger = ping.Pingu()
pinger.send_notebook_ping('start', tutorial_name)

# create a work directory and move into it
working_dir = '/epi2melabs/{}/'.format(tutorial_name)
!mkdir -p "$working_dir"
%cd "$working_dir"

/epi2melabs/fast5_tutorial


# create a conda environment and install ont_fast5_api into it
!conda remove -y --name ont_fast5_api --all
!conda create -q -y -n ont_fast5_api python==3.6 pip 2>/dev/null
!. /opt/conda/etc/profile.d/conda.sh \
    && conda activate ont_fast5_api \
    && which pip \
    && pip install "ont_fast5_api>=3.1.6"


bucket = "ont-exd-int-s3-euwst1-epi2me-labs"
domain = "s3-eu-west-1.amazonaws.com"
site = "https://{}.{}".format(bucket, domain)
site = "https://ont-exd-int-s3-euwst1-epi2me-labs.s3-eu-west-1.amazonaws.com"

!rm -rf sample_fast5
!wget -O sample_fast5.tar $site/fast5_tutorial/sample_fast5.tar
!tar -xvf sample_fast5.tar
!wget -O fast5_sample.bam $site/fast5_tutorial/fast5_sample.bam
!wget -O fast5_sample.bam.bai $site/fast5_tutorial/fast5_sample.bam.bai


input_folder = None
output_folder = None

def process_form(inputs):
    global input_folder
    global output_folder
    input_folder = inputs.input_folder
    output_folder = inputs.output_folder
    # run a command to concatenate all the files together
    !cecho ok "Making output folder"
    !mkdir -p "$output_folder"
    !test -d "$input_folder" \
        && cecho success "Found input folder." \
        || cecho error "Input folder does not exist."
    !echo " - Found "$(find "$input_folder" -name "*.fast5" | wc -l)" fast5 files"

from epi2melabs.notebook import InputForm, InputSpec
input_form = InputForm(
    InputSpec('input_folder', 'Input folder', '/epi2melabs/fast5_tutorial/sample_fast5'),
    InputSpec('output_folder', 'Output folder', 'analysis'))
input_form.add_process_button(process_form)
input_form.display()

VBox(children=(HBox(children=(Label(value='Input folder', layout=Layout(width='150px')), interactive(children=…


#   i) find and list all .fast5 files
#  ii) take the first file
# iii) use `h5ls` to list the file's contents
#  iv) truncate the output to the first 19 lines
!find "$input_folder" -name "*.fast5" \
    | head -n 1 \
    | xargs h5ls -r \
    | head -n 19


!rm -rf $output_folder/single-reads
!run multi_to_single_fast5 \
    --input_path $input_folder --save_path $output_folder/single-reads \
    --recursive


!ls $output_folder/single-reads/0 2>/dev/null | head -n 5

00058fe1-e555-4a64-a41b-7f58fb7d6d6b.fast5
000dd482-c0d5-4520-aa86-8ee8bb61fd58.fast5
00158d74-4b7f-445a-b0ac-e1606f6c09b7.fast5
004a0bd2-edcf-4c2c-89bc-009a232cdb6a.fast5
0057b9d1-e566-4518-8b81-f69b30c6da99.fast5


!rm -rf $output_folder/multi-reads
!run single_to_multi_fast5 \
    --input_path $output_folder/single-reads --save_path $output_folder/multi-reads \
    --filename_base prefix --batch_size 8000 --recursive

| 3 of 3|####################################################|100% Time: 0:00:55


!ls $output_folder/multi-reads

filename_mapping.txt  prefix_0.fast5  prefix_1.fast5  prefix_2.fast5


!head $output_folder/multi-reads/filename_mapping.txt

26cb0f7d-8db2-4e2d-aa4e-9d273ccf1d66.fast5	analysis/multi-reads/prefix_0.fast5
b4441e24-a5d3-4357-bc24-4a169520d096.fast5	analysis/multi-reads/prefix_0.fast5
5d63b4ae-e9c7-43cb-b73c-7b3bc7facd57.fast5	analysis/multi-reads/prefix_0.fast5
5880c8b8-5c67-45cd-9082-2be09a7fc1d4.fast5	analysis/multi-reads/prefix_0.fast5
77d557c6-2154-4792-ad2d-49c9ca5f4bdd.fast5	analysis/multi-reads/prefix_0.fast5
afa10699-8648-4e7a-8bec-86118f202e8d.fast5	analysis/multi-reads/prefix_0.fast5
fb15566d-370c-478e-a190-d4221407e500.fast5	analysis/multi-reads/prefix_0.fast5
34465bd4-2335-4390-8675-daef5390ea79.fast5	analysis/multi-reads/prefix_0.fast5
67b3c07c-c4db-40e9-a18b-c10c8eeb70f5.fast5	analysis/multi-reads/prefix_0.fast5
133ac0a7-54d4-4681-8653-49b174fe6e7c.fast5	analysis/multi-reads/prefix_0.fast5


# build a script that will do the work
with open("build_read_index.sh", 'w') as fh:
    fh.write(
        '''
        echo -e "filename\tread_id"
        find $1 -name "*.fast5" \\
        | parallel --tag h5ls -f -r \\
        | grep "read_.\{8\}-.\{4\}-.\{4\}-.\{4\}-.\{12\} Group" \\
        | sed "s# Group##" | sed "s#/read_##"
        ''')
# run the script
!bash build_read_index.sh $input_folder > read_index.txt


!head read_index.txt

filename	read_id
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	00085dbe-217a-40f2-90c0-3bb15669f32c
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	00237911-92b3-49b4-9d13-2ea6a2ded996
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	0025338c-3ea8-4168-b999-fe7f7fd597ee
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	00408494-e245-401e-8c9a-575ee491971b
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	00485ea4-a2fc-4b75-9969-9f1b1ab997da
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	004fbd46-3565-4505-8ade-bfa5bffa499b
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	0067fb48-9e65-415a-966a-fbf25c62e730
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	0091aa27-0f2f-4e79-bb6e-6bfa1629326b
/epi2melabs/fast5-tutorial/sample_fast5/workspace/FAK42335_2bf4f211a2e2d04662e50f27448cfd99dafbd7ee_400.fast5	00a52e30-a584-4ed8-97cf-074c601b0403


!rm -rf read_list.txt
!echo "read_id" > read_list.txt
!samtools view fast5_sample.bam lfermentum \
    | awk '{print $1}' \
    | tee -a read_list.txt \
    | echo "Found" $(wc -l) "reads"

Found 1100 reads


!echo $input_folder
!rm -rf $output_folder/lfermentum
!run fast5_subset --input $input_folder --save_path $output_folder/lfermentum \
    --read_id_list read_list.txt --batch_size 8000 --recursive

/epi2melabs/fast5_tutorial/sample_fast5
| 1105 of 1105|##############################################|100% Time: 0:00:02
INFO:Fast5Filter:1100 reads extracted


!rm -rf $output_folder/sanitized
!run compress_fast5 --input_path $input_folder --save_path $output_folder/sanitize \
    --compression vbz --recursive --threads 8 --sanitize

| 5 of 5|####################################################|100% Time: 0:00:12


!du -sh $input_folder $output_folder/sanitize

2.4G	/epi2melabs/fast5_tutorial/sample_fast5
682M	analysis/sanitize

Introduction to Fast5 files

Introduction¶

Getting started¶

Install additional software¶

Sample Data¶

Data entry¶

Fast5 files¶

HDF5 files¶

Fast5 Flavours¶

Overview of Fast5 contents¶

An aside on file indexing and compression¶

Indexing reads¶

File compression¶

Manipulating Fast5 files¶

Converting multi-read files to single-read files¶

Converting single-read to multi-read files¶

Creating a listing of reads within multi-read files¶

Filtering multi-reads by reference locus¶

Cleaning multi-read files of `Analyses` groups¶

Summary¶

Introduction to Fast5 files

Introduction¶

Getting started¶

Install additional software¶

Sample Data¶

Data entry¶

Fast5 files¶

HDF5 files¶

Fast5 Flavours¶

Overview of Fast5 contents¶

An aside on file indexing and compression¶

Indexing reads¶

File compression¶

Manipulating Fast5 files¶

Converting multi-read files to single-read files¶

Converting single-read to multi-read files¶

Creating a listing of reads within multi-read files¶

Filtering multi-reads by reference locus¶

Cleaning multi-read files of Analyses groups¶

Summary¶

Cleaning multi-read files of `Analyses` groups¶