pythonで文字起こし（メモ②）

昨日はいいところまで行っていたが、結局、遅すぎたわりに、エラーになった。よくわからないが、まつされたあげくにエラーになった。作成されたテキストも、文章として成り立たない感じでもあった。音声の分割を、split_on_silenceにて実施しようとしていたのが悪かった。
これは、無音状態で分割する機能となる。とても遅い。遅すぎて待ってられない。PCのスペックが非力だからなのかもしれないが、とてつもなく遅かった。

ということもあり、音声を分割する処理を変えてみた。無音で分割するのではなく、５分毎に分割してみることにした。音声が途中できれてしまうのも嫌だと思っていたのだが、無音で分割したものをテキストに変換するより、固定時間で分割したものの方が、まともに変換されていた。
無音での分割はパラメータで調整はできそうであるが、最適解を見つけるのが大変なのだと思う。逆に辺なところで分割されたり、まったく変換されないなど、不安定な気がした。

なので固定で分割することにした。そんなに精度を求めているわけでもないので。
ということでとりあえずは完成できた。
今回は、SpeechRecognitionを使ってみた。そこそこ変換できていると思う。完璧ではないが、、、
つぎはぎだらけのコードなので、キレイに整えておきたい。