Update binaries.rst
[aubio.git] / python / lib / aubio / cmd.py
1 #! /usr/bin/env python
2 # -*- coding: utf-8 -*-
3
4 """aubio command line tool
5
6 This file was written by Paul Brossier <piem@aubio.org> and is released under
7 the GNU/GPL v3.
8
9 Note: this script is mostly about parsing command line arguments. For more
10 readable code examples, check out the `python/demos` folder."""
11
12 import sys
13 import argparse
14 import aubio
15
16 def aubio_parser():
17     epilog = 'use "%(prog)s <command> --help" for more info about each command'
18     parser = argparse.ArgumentParser(epilog=epilog)
19     parser.add_argument('-V', '--version', help="show version",
20             action="store_true", dest="show_version")
21
22     subparsers = parser.add_subparsers(title='commands', dest='command',
23             parser_class= AubioArgumentParser,
24             metavar="")
25
26     parser_add_subcommand_help(subparsers)
27
28     parser_add_subcommand_onset(subparsers)
29     parser_add_subcommand_pitch(subparsers)
30     parser_add_subcommand_beat(subparsers)
31     parser_add_subcommand_tempo(subparsers)
32     parser_add_subcommand_notes(subparsers)
33     parser_add_subcommand_mfcc(subparsers)
34     parser_add_subcommand_melbands(subparsers)
35     parser_add_subcommand_quiet(subparsers)
36     parser_add_subcommand_cut(subparsers)
37
38     return parser
39
40 def parser_add_subcommand_help(subparsers):
41     # global help subcommand
42     subparsers.add_parser('help',
43             help='show help message',
44             formatter_class = argparse.ArgumentDefaultsHelpFormatter)
45
46 def parser_add_subcommand_onset(subparsers):
47     # onset subcommand
48     subparser = subparsers.add_parser('onset',
49             help='estimate time of onsets (beginning of sound event)',
50             formatter_class = argparse.ArgumentDefaultsHelpFormatter)
51     subparser.add_input()
52     subparser.add_buf_hop_size()
53     helpstr = "onset novelty function"
54     helpstr += " <default|energy|hfc|complex|phase|specdiff|kl|mkl|specflux>"
55     subparser.add_method(helpstr=helpstr)
56     subparser.add_threshold()
57     subparser.add_silence()
58     subparser.add_minioi()
59     subparser.add_time_format()
60     subparser.add_verbose_help()
61     subparser.set_defaults(process=process_onset)
62
63 def parser_add_subcommand_pitch(subparsers):
64     # pitch subcommand
65     subparser = subparsers.add_parser('pitch',
66             help='estimate fundamental frequency (monophonic)')
67     subparser.add_input()
68     subparser.add_buf_hop_size(buf_size=2048)
69     helpstr = "pitch detection method <default|yinfft|yin|mcomb|fcomb|schmitt>"
70     subparser.add_method(helpstr=helpstr)
71     subparser.add_threshold()
72     subparser.add_pitch_unit()
73     subparser.add_silence()
74     subparser.add_time_format()
75     subparser.add_verbose_help()
76     subparser.set_defaults(process=process_pitch)
77
78 def parser_add_subcommand_beat(subparsers):
79     # beat subcommand
80     subparser = subparsers.add_parser('beat',
81             help='estimate location of beats')
82     subparser.add_input()
83     subparser.add_buf_hop_size(buf_size=1024, hop_size=512)
84     subparser.add_time_format()
85     subparser.add_verbose_help()
86     subparser.set_defaults(process=process_beat)
87
88 def parser_add_subcommand_tempo(subparsers):
89     # tempo subcommand
90     subparser = subparsers.add_parser('tempo',
91             help='estimate overall tempo in bpm')
92     subparser.add_input()
93     subparser.add_buf_hop_size(buf_size=1024, hop_size=512)
94     subparser.add_time_format()
95     subparser.add_verbose_help()
96     subparser.set_defaults(process=process_tempo)
97
98 def parser_add_subcommand_notes(subparsers):
99     # notes subcommand
100     subparser = subparsers.add_parser('notes',
101             help='estimate midi-like notes (monophonic)')
102     subparser.add_input()
103     subparser.add_buf_hop_size()
104     subparser.add_time_format()
105     subparser.add_verbose_help()
106     subparser.set_defaults(process=process_notes)
107
108 def parser_add_subcommand_mfcc(subparsers):
109     # mfcc subcommand
110     subparser = subparsers.add_parser('mfcc',
111             help='extract Mel-Frequency Cepstrum Coefficients')
112     subparser.add_input()
113     subparser.add_buf_hop_size()
114     subparser.add_time_format()
115     subparser.add_verbose_help()
116     subparser.set_defaults(process=process_mfcc)
117
118 def parser_add_subcommand_melbands(subparsers):
119     # melbands subcommand
120     subparser = subparsers.add_parser('melbands',
121             help='extract energies in Mel-frequency bands')
122     subparser.add_input()
123     subparser.add_buf_hop_size()
124     subparser.add_time_format()
125     subparser.add_verbose_help()
126     subparser.set_defaults(process=process_melbands)
127
128 def parser_add_subcommand_quiet(subparsers):
129     # quiet subcommand
130     subparser = subparsers.add_parser('quiet',
131             help='extract timestamps of quiet and loud regions')
132     subparser.add_input()
133     subparser.add_hop_size()
134     subparser.add_silence()
135     subparser.add_time_format()
136     subparser.add_verbose_help()
137     subparser.set_defaults(process=process_quiet)
138
139 def parser_add_subcommand_cut(subparsers):
140     # quiet subcommand
141     subparser = subparsers.add_parser('cut',
142             help='slice at timestamps')
143     subparser.add_input()
144     helpstr = "onset novelty function"
145     helpstr += " <default|energy|hfc|complex|phase|specdiff|kl|mkl|specflux>"
146     subparser.add_method(helpstr=helpstr)
147     subparser.add_buf_hop_size()
148     subparser.add_silence()
149     subparser.add_threshold(default=0.3)
150     subparser.add_minioi()
151     subparser.add_slicer_options()
152     subparser.add_time_format()
153     subparser.add_verbose_help()
154     subparser.set_defaults(process=process_cut)
155
156 class AubioArgumentParser(argparse.ArgumentParser):
157
158     def add_input(self):
159         self.add_argument("source_uri", default=None, nargs='?',
160                 help="input sound file to analyse", metavar = "<source_uri>")
161         self.add_argument("-i", "--input", dest = "source_uri2",
162                 help="input sound file to analyse", metavar = "<source_uri>")
163         self.add_argument("-r", "--samplerate",
164                 metavar = "<freq>", type=int,
165                 action="store", dest="samplerate", default=0,
166                 help="samplerate at which the file should be represented")
167
168     def add_verbose_help(self):
169         self.add_argument("-v","--verbose",
170                 action="count", dest="verbose", default=1,
171                 help="make lots of noise [default]")
172         self.add_argument("-q","--quiet",
173                 action="store_const", dest="verbose", const=0,
174                 help="be quiet")
175
176     def add_buf_hop_size(self, buf_size=512, hop_size=256):
177         self.add_buf_size(buf_size=buf_size)
178         self.add_hop_size(hop_size=hop_size)
179
180     def add_buf_size(self, buf_size=512):
181         self.add_argument("-B","--bufsize",
182                 action="store", dest="buf_size", default=buf_size,
183                 metavar = "<size>", type=int,
184                 help="buffer size [default=%d]" % buf_size)
185
186     def add_hop_size(self, hop_size=256):
187         self.add_argument("-H","--hopsize",
188                 metavar = "<size>", type=int,
189                 action="store", dest="hop_size", default=hop_size,
190                 help="overlap size [default=%d]" % hop_size)
191
192     def add_method(self, method='default', helpstr='method'):
193         self.add_argument("-m","--method",
194                 metavar = "<method>", type=str,
195                 action="store", dest="method", default=method,
196                 help="%s [default=%s]" % (helpstr, method))
197
198     def add_threshold(self, default=None):
199         self.add_argument("-t","--threshold",
200                 metavar = "<threshold>", type=float,
201                 action="store", dest="threshold", default=default,
202                 help="threshold [default=%s]" % default)
203
204     def add_silence(self):
205         self.add_argument("-s", "--silence",
206                 metavar = "<value>", type=float,
207                 action="store", dest="silence", default=-70,
208                 help="silence threshold")
209
210     def add_minioi(self, default="12ms"):
211         self.add_argument("-M", "--minioi",
212                 metavar = "<value>", type=str,
213                 action="store", dest="minioi", default=default,
214                 help="minimum Inter-Onset Interval [default=%s]" % default)
215
216     def add_pitch_unit(self, default="Hz"):
217         help_str = "frequency unit, should be one of Hz, midi, bin, cent"
218         help_str += " [default=%s]" % default
219         self.add_argument("-u", "--pitch-unit",
220                 metavar = "<value>", type=str,
221                 action="store", dest="pitch_unit", default=default,
222                 help=help_str)
223
224     def add_time_format(self):
225         helpstr = "select time values output format (samples, ms, seconds)"
226         helpstr += " [default=seconds]"
227         self.add_argument("-T", "--time-format",
228                  metavar='format',
229                  dest="time_format",
230                  default=None,
231                  help=helpstr)
232
233     def add_slicer_options(self):
234         self.add_argument("-o","--output", type = str,
235                 metavar = "<outputdir>",
236                 action="store", dest="output_directory", default=None,
237                 help="specify path where slices of the original file should be created")
238         self.add_argument("--cut-until-nsamples", type = int,
239                 metavar = "<samples>",
240                 action = "store", dest = "cut_until_nsamples", default = None,
241                 help="how many extra samples should be added at the end of each slice")
242         self.add_argument("--cut-every-nslices", type = int,
243                 metavar = "<samples>",
244                 action = "store", dest = "cut_every_nslices", default = None,
245                 help="how many slices should be groupped together at each cut")
246         self.add_argument("--cut-until-nslices", type = int,
247                 metavar = "<slices>",
248                 action = "store", dest = "cut_until_nslices", default = None,
249                 help="how many extra slices should be added at the end of each slice")
250
251 # some utilities
252
253 def samples2seconds(n_frames, samplerate):
254     return "%f\t" % (n_frames / float(samplerate))
255
256 def samples2milliseconds(n_frames, samplerate):
257     return "%f\t" % (1000. * n_frames / float(samplerate))
258
259 def samples2samples(n_frames, _samplerate):
260     return "%d\t" % n_frames
261
262 def timefunc(mode):
263     if mode is None or mode == 'seconds' or mode == 's':
264         return samples2seconds
265     elif mode == 'ms' or mode == 'milliseconds':
266         return samples2milliseconds
267     elif mode == 'samples':
268         return samples2samples
269     else:
270         raise ValueError("invalid time format '%s'" % mode)
271
272 # definition of processing classes
273
274 class default_process(object):
275     def __init__(self, args):
276         if 'time_format' in args:
277             self.time2string = timefunc(args.time_format)
278         if args.verbose > 2 and hasattr(self, 'options'):
279             name = type(self).__name__.split('_')[1]
280             optstr = ' '.join(['running', name, 'with options', repr(self.options), '\n'])
281             sys.stderr.write(optstr)
282     def flush(self, frames_read, samplerate):
283         # optionally called at the end of process
284         pass
285
286     def parse_options(self, args, valid_opts):
287         # get any valid options found in a dictionnary of arguments
288         options = {k :v for k,v in vars(args).items() if k in valid_opts}
289         self.options = options
290
291     def remap_pvoc_options(self, options):
292         # FIXME: we need to remap buf_size to win_s, hop_size to hop_s
293         # adjust python/ext/py-phasevoc.c to understand buf_size/hop_size
294         if 'buf_size' in options:
295             options['win_s'] = options['buf_size']
296             del options['buf_size']
297         if 'hop_size' in options:
298             options['hop_s'] = options['hop_size']
299             del options['hop_size']
300         self.options = options
301
302 class process_onset(default_process):
303     valid_opts = ['method', 'hop_size', 'buf_size', 'samplerate']
304     def __init__(self, args):
305         self.parse_options(args, self.valid_opts)
306         self.onset = aubio.onset(**self.options)
307         if args.threshold is not None:
308             self.onset.set_threshold(args.threshold)
309         if args.minioi:
310             if args.minioi.endswith('ms'):
311                 self.onset.set_minioi_ms(float(args.minioi[:-2]))
312             elif args.minioi.endswith('s'):
313                 self.onset.set_minioi_s(float(args.minioi[:-1]))
314             else:
315                 self.onset.set_minioi(int(args.minioi))
316         if args.silence:
317             self.onset.set_silence(args.silence)
318         super(process_onset, self).__init__(args)
319     def __call__(self, block):
320         return self.onset(block)
321     def repr_res(self, res, _frames_read, samplerate):
322         if res[0] != 0:
323             outstr = self.time2string(self.onset.get_last(), samplerate)
324             sys.stdout.write(outstr + '\n')
325
326 class process_pitch(default_process):
327     valid_opts = ['method', 'hop_size', 'buf_size', 'samplerate']
328     def __init__(self, args):
329         self.parse_options(args, self.valid_opts)
330         self.pitch = aubio.pitch(**self.options)
331         if args.pitch_unit is not None:
332             self.pitch.set_unit(args.pitch_unit)
333         if args.threshold is not None:
334             self.pitch.set_tolerance(args.threshold)
335         if args.silence is not None:
336             self.pitch.set_silence(args.silence)
337         super(process_pitch, self).__init__(args)
338     def __call__(self, block):
339         return self.pitch(block)
340     def repr_res(self, res, frames_read, samplerate):
341         fmt_out = self.time2string(frames_read, samplerate)
342         sys.stdout.write(fmt_out + "%.6f\n" % res[0])
343
344 class process_beat(default_process):
345     valid_opts = ['method', 'hop_size', 'buf_size', 'samplerate']
346     def __init__(self, args):
347         self.parse_options(args, self.valid_opts)
348         self.tempo = aubio.tempo(**self.options)
349         super(process_beat, self).__init__(args)
350     def __call__(self, block):
351         return self.tempo(block)
352     def repr_res(self, res, _frames_read, samplerate):
353         if res[0] != 0:
354             outstr = self.time2string(self.tempo.get_last(), samplerate)
355             sys.stdout.write(outstr + '\n')
356
357 class process_tempo(process_beat):
358     def __init__(self, args):
359         super(process_tempo, self).__init__(args)
360         self.beat_locations = []
361     def repr_res(self, res, _frames_read, samplerate):
362         if res[0] != 0:
363             self.beat_locations.append(self.tempo.get_last_s())
364     def flush(self, frames_read, samplerate):
365         import numpy as np
366         if len(self.beat_locations) < 2:
367             outstr = "unknown bpm"
368         else:
369             bpms = 60./ np.diff(self.beat_locations)
370             median_bpm = np.mean(bpms)
371             if len(self.beat_locations) < 10:
372                 outstr = "%.2f bpm (uncertain)" % median_bpm
373             else:
374                 outstr = "%.2f bpm" % median_bpm
375         sys.stdout.write(outstr + '\n')
376
377 class process_notes(default_process):
378     valid_opts = ['method', 'hop_size', 'buf_size', 'samplerate']
379     def __init__(self, args):
380         self.parse_options(args, self.valid_opts)
381         self.notes = aubio.notes(**self.options)
382         super(process_notes, self).__init__(args)
383     def __call__(self, block):
384         return self.notes(block)
385     def repr_res(self, res, frames_read, samplerate):
386         if res[2] != 0: # note off
387             fmt_out = self.time2string(frames_read, samplerate)
388             sys.stdout.write(fmt_out + '\n')
389         if res[0] != 0: # note on
390             lastmidi = res[0]
391             fmt_out = "%f\t" % lastmidi
392             fmt_out += self.time2string(frames_read, samplerate)
393             sys.stdout.write(fmt_out) # + '\t')
394     def flush(self, frames_read, samplerate):
395         eof = self.time2string(frames_read, samplerate)
396         sys.stdout.write(eof + '\n')
397
398 class process_mfcc(default_process):
399     def __init__(self, args):
400         valid_opts1 = ['hop_size', 'buf_size']
401         self.parse_options(args, valid_opts1)
402         self.remap_pvoc_options(self.options)
403         self.pv = aubio.pvoc(**self.options)
404
405         valid_opts2 = ['buf_size', 'n_filters', 'n_coeffs', 'samplerate']
406         self.parse_options(args, valid_opts2)
407         self.mfcc = aubio.mfcc(**self.options)
408
409         # remember all options
410         self.parse_options(args, list(set(valid_opts1 + valid_opts2)))
411
412         super(process_mfcc, self).__init__(args)
413
414     def __call__(self, block):
415         fftgrain = self.pv(block)
416         return self.mfcc(fftgrain)
417     def repr_res(self, res, frames_read, samplerate):
418         fmt_out = self.time2string(frames_read, samplerate)
419         fmt_out += ' '.join(["% 9.7f" % f for f in res.tolist()])
420         sys.stdout.write(fmt_out + '\n')
421
422 class process_melbands(default_process):
423     def __init__(self, args):
424         self.args = args
425         valid_opts = ['hop_size', 'buf_size']
426         self.parse_options(args, valid_opts)
427         self.remap_pvoc_options(self.options)
428         self.pv = aubio.pvoc(**self.options)
429
430         valid_opts = ['buf_size', 'n_filters']
431         self.parse_options(args, valid_opts)
432         self.remap_pvoc_options(self.options)
433         self.filterbank = aubio.filterbank(**self.options)
434         self.filterbank.set_mel_coeffs_slaney(args.samplerate)
435
436         super(process_melbands, self).__init__(args)
437     def __call__(self, block):
438         fftgrain = self.pv(block)
439         return self.filterbank(fftgrain)
440     def repr_res(self, res, frames_read, samplerate):
441         fmt_out = self.time2string(frames_read, samplerate)
442         fmt_out += ' '.join(["% 9.7f" % f for f in res.tolist()])
443         sys.stdout.write(fmt_out + '\n')
444
445 class process_quiet(default_process):
446     def __init__(self, args):
447         self.args = args
448         valid_opts = ['hop_size', 'silence']
449         self.parse_options(args, valid_opts)
450         self.wassilence = 1
451
452         if args.silence is not None:
453             self.silence = args.silence
454         super(process_quiet, self).__init__(args)
455
456     def __call__(self, block):
457         if aubio.silence_detection(block, self.silence) == 1:
458             if self.wassilence != 1:
459                 self.wassilence = 1
460                 return 2 # newly found silence
461             return 1 # silence again
462         else:
463             if self.wassilence != 0:
464                 self.wassilence = 0
465                 return -1 # newly found noise
466             return 0 # noise again
467
468     def repr_res(self, res, frames_read, samplerate):
469         fmt_out = None
470         if res == -1:
471             fmt_out = "NOISY: "
472         if res == 2:
473             fmt_out = "QUIET: "
474         if fmt_out is not None:
475             fmt_out += self.time2string(frames_read, samplerate)
476             sys.stdout.write(fmt_out + '\n')
477
478 class process_cut(process_onset):
479     def __init__(self, args):
480         super(process_cut, self).__init__(args)
481         self.slices = []
482         self.options = args
483
484     def __call__(self, block):
485         ret = super(process_cut, self).__call__(block)
486         if ret: self.slices.append(self.onset.get_last())
487         return ret
488
489     def flush(self, frames_read, samplerate):
490         from aubio.cut import _cut_slice
491         _cut_slice(self.options, self.slices)
492         duration = float (frames_read) / float(samplerate)
493         base_info = '%(source_file)s' % {'source_file': self.options.source_uri}
494         base_info += ' (total %(duration).2fs at %(samplerate)dHz)\n' % \
495                 {'duration': duration, 'samplerate': samplerate}
496         info = "created %d slices from " % len(self.slices)
497         info += base_info
498         sys.stderr.write(info)
499
500 def main():
501     parser = aubio_parser()
502     args = parser.parse_args()
503     if 'show_version' in args and args.show_version:
504         sys.stdout.write('aubio version ' + aubio.version + '\n')
505         sys.exit(0)
506     elif 'verbose' in args and args.verbose > 3:
507         sys.stderr.write('aubio version ' + aubio.version + '\n')
508     if 'command' not in args or args.command is None or args.command in ['help']:
509         # no command given, print help and return 1
510         parser.print_help()
511         if args.command and args.command in ['help']:
512             sys.exit(0)
513         else:
514             sys.exit(1)
515     elif not args.source_uri and not args.source_uri2:
516         sys.stderr.write("Error: a source is required\n")
517         parser.print_help()
518         sys.exit(1)
519     elif args.source_uri2 is not None:
520         args.source_uri = args.source_uri2
521     try:
522         # open source_uri
523         with aubio.source(args.source_uri, hop_size=args.hop_size,
524                 samplerate=args.samplerate) as a_source:
525             # always update args.samplerate to native samplerate, in case
526             # source was opened with args.samplerate=0
527             args.samplerate = a_source.samplerate
528             # create the processor for this subcommand
529             processor = args.process(args)
530             frames_read = 0
531             while True:
532                 # read new block from source
533                 block, read = a_source()
534                 # execute processor on this block
535                 res = processor(block)
536                 # print results for this block
537                 if args.verbose > 0:
538                     processor.repr_res(res, frames_read, a_source.samplerate)
539                 # increment total number of frames read
540                 frames_read += read
541                 # exit loop at end of file
542                 if read < a_source.hop_size: break
543             # flush the processor if needed
544             processor.flush(frames_read, a_source.samplerate)
545             if args.verbose > 1:
546                 fmt_string = "read {:.2f}s"
547                 fmt_string += " ({:d} samples in {:d} blocks of {:d})"
548                 fmt_string += " from {:s} at {:d}Hz\n"
549                 sys.stderr.write(fmt_string.format(
550                         frames_read/float(a_source.samplerate),
551                         frames_read,
552                         frames_read // a_source.hop_size + 1,
553                         a_source.hop_size,
554                         a_source.uri,
555                         a_source.samplerate))
556     except KeyboardInterrupt:
557         sys.exit(1)