画像処理と深層学習を組み合わせて、古い電話帳から有用な文字情報を自動抽出する研究をしています。
プログラム開発は「ミミ」が行っています。 コードを提供するか漫画「ハッカーミミ」を買ってあげてください。
知的財産権が切れた電話帳の画像データを逐次公開しています。 現在、戦前の横浜市と、大正~高度経済成長期の大阪市の電話帳を収集しました。
このウェブサイトで公開しているのは、非可逆圧縮WebP形式・300dpiの画像です。 最高精度の画像は可逆圧縮PNG形式・600dpiですが、サイズが数十GB以上と巨大なため、BitTorrentで配布しています。 (平日昼間だけシードしてます)