Whisper Transcription で文字起こし

今売りの「Newton」の記事をやるにあたり、初めて文字起こしにツールを使ってみた。zoom取材のレコーディング素材(mp3)を、hoiさんから教わった Whisper Transcription に読み込ませてテキスト化。

https://apps.apple.com/jp/app/whisper-transcription/id1668083311

https://mono96.jp/web/whisper/46487/

言語モデルのサイズとして Small / Medium / Large とかいろいろあって、大きい方が変換精度が良いらしいが有料。自分はSmallと Mediumを使ったんだったかな。あと、メモリが少ないPCで大きな言語モデルを選ぶとメモリ不足という表示が出る。

変換精度は、確かにSmallよりはMediumの方が良かったが、Mediumであってもそのままで何かに使えるほどのテキストにはならない。専門用語が多く出るインタビューだったせいかもしれないが。例えばこんな感じ。

両子力学は神ですら決定できないというよりは
両地域は完全に決定論なのである意味では 例えばあの
単に人間が見る観測に対して ベースが同じじゃないというかその
例えば初期状態のいわゆるウェインファンクション ステイトっていうのを与えられるれば
そのステイトがどういうふうに変わっていくかっていうのは あのシュレリンが方程式方程式で解いて完全に決められるので
あーなるほど安全知識があれば完全決定論なああそこかはいはいはい で昔は最後に観測をするとそのうちのどれか一つか
あのはい決まってそれを確立でしか決まらないっ いうのもあったんですけど今では例えばその自分もシステムの一部だった
例えばAになる可能性とBになる可能性があるとしたら、自分がそのシステム、そのスーパーポジションというシステムと相互作用したら自分がAを見たっていうふうな脳の
シナプスというかそういう記憶になっていくブランチとBになっていく記憶っていうブランチがある。しかもそのスーパーポジションが残ってるというまんま進んでいくだけで
ああしかも全部それは計算できたのたん ステートはそのまま流れてるだけ
はい別になんか途中でインタビーが入っ 確率でこっちに行けとこっちに行けとそういうのが入っているわけじゃなくて
完全に初期状態からたんに計算してたんに動いてる アテっていう意味ではニュートまったく変わってない
あーなるほどはいはいはい

自分の場合は、どういう話をしていたかを思い出せる程度のメモが生成されれば十分なので、これでも全然使える。1時間くらいのインタビューを処理するのに10分くらいかかっただろうか。自分で全部聴いて起こすよりははるかに楽。これからも使っていきたい。

メモリを増設したいけど、Mac mini (M1, 2020) は構造的に増設できない。泣。