pythonで文字起こしにチャレンジ中。まだまだ途中。
スキマ時間に実施しているため、あまり進んでいない。
とりあえずメモを残しておく。
ネットで検索。
pyhtonで実装を試みたが、色々サンプルがある。けど動かない。それの繰り返し。ファイルがm4aだったのがダメだったり、大きすぎるのがダメだったり、音源を少しだけ取り出したり、wavに変換したりして、何とか文字起こしに成功。
大きすぎるファイルもダメそうなので、分割しながらループで回すところまで作成したが、分割処理が遅すぎて実行するところまでできていない。後から思ったのだが、ローカルPCではなく、EC2で動かせばよかったとか思った。それはそれで別の問題が発生するのかもしれないが、次回はEC2で実装してみたい。
とりあえず、音源の切りだしとか変換は、FFmpegで行った。pythonから呼び出したわけではないが、コマンドラインからの呼び出しで、簡単に音源の変換や切り出しが行えた。なんかすごい。当然pythonからも動かせると思うが、サンプルが何故か動かせなかったため、コマンドラインで次へ進むことにした。
とりあえず、今回は、ここまでのメモとしておく。
コメント