Fix channels

1da44ae0 · Martin Kocour · Lucas Ondel Yang · 955e185b · 1da44ae0 · 1da44ae0
Commit 1da44ae0 authored 1 year ago by Martin Kocour Committed by Lucas Ondel Yang 1 year ago
--- a/src/dataset.jl
+++ b/src/dataset.jl
 # SPDX-License-Identifier: CECILL-2.1
-"""
-FastDataset(supervisions, recordings, partition)
-Constructor for dataset represented as JSONL files (a.k.a. manifests).
-"""
 struct SpeechDataset <: MLUtils.AbstractDataContainer
    idxs::Vector{AbstractString}
    supervisions::Dict{AbstractString, Supervision}
@@ -14,10 +8,10 @@ struct SpeechDataset <: MLUtils.AbstractDataContainer
 end
 """
-dataset(manifestroot, subset)
+dataset(manifestroot, partition)
 Load `SpeechDataset` from manifest files stored in `manifestroot`.
-Partition is specified by `subset`, e.g. `:train`, `:test`.
+Partition is specified by `partition`, e.g. `:train`, `:test`.
 Each item of the dataset is a nested tuple `((samples, sampling_rate), Supervision.data)`.
@@ -38,14 +32,17 @@ julia> ds[1]
 )
 ```
 """
-function dataset(manifestroot::AbstractString, subset)
+function dataset(manifestroot::AbstractString, partition)
    sup_path = joinpath(manifestroot, "supervisions-$(subset).jsonl")
    rec_path = joinpath(manifestroot, "recordings.jsonl")
    supervisions = load(Supervision, sup_path)
    recordings = load(Recording, rec_path)
+    dataset(supervisions, recordings)
+end
+function dataset(supervisions, recordings, partition)
    idxs = collect(keys(supervisions))
-    SpeechDataset(idxs, supervisions, recordings, Symbol(subset))
+    SpeechDataset(idxs, supervisions, recordings, Symbol(partition))
 end
 function Base.getindex(d::SpeechDataset, key::AbstractString)

--- a/src/manifest_item.jl
+++ b/src/manifest_item.jl
@@ -52,7 +52,7 @@ end
        recording_id::AbstractString
        start::Float64
        duration::Float64
-        channel::Int
+        channel::Union{Vector, Colon}
        data::Dict
    end
@@ -74,7 +74,7 @@ struct Supervision <: ManifestItem
    recording_id::AbstractString
    start::Float64
    duration::Float64
-    channels::Vector{Integer}
+    channels::Union{Vector{Integer}, Colon}
    data::Dict
 end