Core MLを用いた、iPhone での機械学習あれこれ(3) Create ML編
前回記事の末尾で触れた通り、Create MLを使った機械学習についても試してみました。
Create ML上にテンプレートが用意されている機械学習(画像分類、オブジェクト検出、テキスト分類など)であれば、自分でコードを書いたりネットワークモデルを構築したりすることなく、画面操作だけでCore MLモデルファイル(.mlmodel)を作ることまで出来てしまい、非常にお手軽です。もちろんVisionでも利用可能です。
本記事では題材として、Create MLを活用して、iPhoneのカメラに映った「ラーメン」と「スパゲッティ」を見分けるアプリを作成してみます。目の前に麺料理が置かれているけれど、どちらか分からない、そんな良くあるシチュエーションで役立つかもしれません(0点)。
下準備:学習用の画像データ準備
Create MLに進む前に、まずは学習に用いる画像データを用意しておく必要があります。本記事の題材では、大量のラーメンとスパゲッティの画像を用意しなくてはなりません。
また、これらだけを学習させたモデルでは、何であっても無理矢理ラーメンかスパゲッティのどちらかに分類してしまいます。これを避けるために、ここでは「どちらでもない物」の画像、すなわち単なる風景や人物の写真も用意して一緒に学習させてみます。
ラーメンとスパゲッティについては、Google画像検索で出てくる画像を利用させて頂く方針とします。なお2019年1月より施行された著作権法の改正により、第三者が著作権を有する画像であっても、機械学習に限った利用(学習用データとしたり、それにより得られた学習済みモデルを公開したり)であれば合法的に行えるようになったようです。
ただし、画像を1つ1つ手作業でダウンロードしていたら大変ですので、ツールを使った方が良いと思います。ここでは私が試してみて便利だと感じた外部ツールを2つ紹介します(使用法などの詳細までは立ち入りませんが)。
- google-image-download
ここではラーメン、スパゲッティの画像をそれぞれ60枚用意します(50枚はトレーニング用、10枚はテスト用とする)。機械学習用としては枚数が少なく思えますが、Create MLではこの程度の量でも学習出来るのがウリとのことですので、これでやってみます。
なおCreate MLで用いる画像データの指針が公式のドキュメントに詳しく書かれています。重要そうな箇所をピックアップしてざっくり意訳すると以下のようになります。
- 各ラベル(分類)の画像はそれぞれ約80%をトレーニング用、20%をテスト用に回す。
- 各ラベルのトレーニング用画像は、それぞれ少なくとも10枚を用意する。
- 各ラベル毎の画像数はバランスを取る(本記事の例では、ラーメンの画像1000枚、スパゲッティの画像10枚のように偏るのはNG)
そして先述の通り、今回はラーメンとスパゲッティのどちらでもない物の画像を用意します。ここでは手許にあったCOCO データセット(2017)から、風景や人物が写った画像を60枚適当にピックアップして使用してみます。
そして下図のようにトレーニング用、テスト用の画像を格納するためのフォルダを作成し、それらの下には各画像のラベルとなる名前を付けたフォルダをそれぞれ作成します。ここではラーメンは”ramen”、スパゲッティは”spaghetti”、どちらでもない物は”other"フォルダとしました。これらの名前はそのままCreate MLに取り込まれ、出力されるCore MLモデルでも使用されるので注意が必要です。
後はそれぞれのフォルダに、集めた画像をトレーニング用とテスト用に分けて格納しておきます。
Create MLでラーメンとスパゲッティを分類するモデル作成
- いよいよCreate MLを実際に使ってみます。Xcode(本記事執筆時点:Version 11.4)メニューの「Open Developer Tool」から起動することが出来ます。
- 最初にファイル選択用のダイアログが表示されますので、新しく学習を行う場合は、左下の「New Document」を選択します。
- 実行したい機械学習のテンプレートを選択するダイアログが表示されます。本記事では画像分類を行いたいので「Image Classifier」を選択します。
- プロジェクト名を入力するダイアログが表示されますので、適当な名前を付けて保存します。ここでは「NoodleClassifier」という名前にしました(スパゲッティとラーメンにしか対応しませんが)。このプロジェクト名は、後々出力するモデルファイル名にも付与されます。
- プロジェクトを保存すると、Create MLのメイン画面が開きます。
- 「Training Data」の枠に、あらかじめ準備したトレーニング用画像を格納したフォルダを、ドラッグ&ドロップで投入します(下にある「Choose」の部分を操作することで、ダイアログからフォルダを選択することも出来ます)。
- 同様に「Testing Data」にも、テスト用画像を格納したフォルダを投入します。正常に行けば下図のようになります。今回トレーニング画像は60枚 x ラベル3種 = 180枚、テスト画像は10枚 x ラベル3種 = 30枚であり、正しい数が表示されています。「Validation Data」は自動選択(Auto)に任せることにします。
- 後はトレーニングの最大繰り返し回数(Maximum Iterations)やデータオーギュメンテーションの設定をします。これらについては公式ドキュメント(日本語)にも簡単な解説があります。回数を大きくしたり、オーギュメンテーションの設定を適用したりすることで、モデルの画像分類精度を向上できる可能性はありますが、もちろんそれだけ学習に時間が掛かるようになります。ここでは全く根拠はありませんが、下図の設定で学習を行ってみます。
- 後は画面上部の「Train」ボタンをクリックするだけで学習が始まります。下図のように進捗バーが表示されますので、終わるまで気長に待ちましょう。今回の学習は、私の環境(MacBook Air、13-inch、2018)で約30分でした。
- 学習後は下図のように結果が表示されます。今回はトレーニング用画像に対する精度は100%。テスト用画像に対する精度は97%となりました(同じ設定でも、実行するたびに乱数によって結果は微妙に異なってきます)。少ない画像数と適当な設定の割には中々のものです。
- 画面右上の「Output」にCore MLモデルが生成されていますので、フォルダに対してドラッグ&ドロップすれば取得出来ます。これにてCreate MLを用いた学習の手順が一通り完了しました。
iPhoneカメラに映ったラーメンとスパゲッティを見分ける
早速、生成したCore MLモデルを用いて、iPhoneカメラに映ったラーメンとスパゲッティを見分けるアプリを実装します。Xcodeで「Single View App」の新規プロジェクトを作成し、NoodleClassifierのCore MLモデルを追加しておきます。
そしてStoryboard上に、適当なサイズのUIView、UITextViewを配置します(下図の例では青い正方形がUIView、白い長方形がUITextViewです)。このView上にiPhoneカメラに映っているものを表示します。
後はAVFoundationを用いて、iPhoneカメラの映像をリアルタイムに取得し、フレーム毎に前記事と同様の手順で、Vision上でNoodlClassifierを用いた画像分類を行います。そこにラーメン or スパゲッティが映っているのを検出したら「ラーメン発見!」 or 「スパゲッティ発見!」とUITextViewに表示します。以下にコードを示します。
import UIKit import AVFoundation import CoreML import Vision class ViewController: UIViewController { //Storyboardに配置したUIView、UITextViewのアウトレット @IBOutlet weak var videoView: UIView! @IBOutlet weak var resultTextView: UITextView! override func viewDidLoad() { super.viewDidLoad() // Do any additional setup after loading the view. self.Capture() } func Capture(){ //AVCaptureSessionはデバイスからの入出力管理を担う let captureSession = AVCaptureSession() //画質の設定。ここでは高解像度の画像出力が可能な.photoを設定 captureSession.sessionPreset = .photo //入力の設定。ここではデバイスとしてビデオカメラを使用する。 //guard文で設定が正しく行われたか、複数判定を同時に実施。 guard let captureDevice = AVCaptureDevice.default(for: .video), let captureDeviceInput = try? AVCaptureDeviceInput(device: captureDevice), captureSession.canAddInput(captureDeviceInput) else { fatalError("Error: 入力デバイスの設定に失敗しました") } captureSession.addInput(captureDeviceInput) //出力の設定。 let videoDataOutput = AVCaptureVideoDataOutput() //AVCaptureVideoDataOutputSampleBufferDelegateプロトコルに適合する //デリゲート先を設定(ここではselfとして、viewController自身に設定) //デリゲート先で、フレーム毎にcaptureOutputメソッドが呼ばれるようになる videoDataOutput.setSampleBufferDelegate(self, queue: DispatchQueue(label: "VideoQueue")) guard captureSession.canAddOutput(videoDataOutput) else { fatalError("Error: 出力デバイスの設定に失敗しました") } captureSession.addOutput(videoDataOutput) // Storyboardに配置したUIView上に、プレビューを表示するように設定する。 let previewLayer = AVCaptureVideoPreviewLayer(session: captureSession) previewLayer.videoGravity = .resizeAspectFill previewLayer.frame = self.videoView.bounds self.videoView.layer.insertSublayer(previewLayer, at: 0) // キャプチャ開始 captureSession.startRunning() } } //setSampleBufferDelegateで設定した通り、AVCapture〜Delegateプロトコルを指定 //フレーム毎に呼ばれるcaputeOutputメソッドを実装し、ここでCore MLによる //画像判定の処理を行う extension ViewController: AVCaptureVideoDataOutputSampleBufferDelegate { func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection) { //CMSampleBufferをCVPixelBufferに変換し、Core MLの入力と出来るようにする //(返り値はCVImageBufferとなっており、CVPixelBufferは元々そのタイプエイリアス) guard let pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else { fatalError("Error: バッファの変換に失敗しました") } // NoodleClassifierのモデルをVisionで利用出来るようにロード guard let model = try? VNCoreMLModel(for: NoodleClassifier().model) else { fatalError("Error: Core MLモデルのロードに失敗しました") } // Core MLモデルを用いた画像認識リクエストを作成 let request = VNCoreMLRequest(model: model) { [weak self] (request: VNRequest, error: Error?) in guard let results = request.results as? [VNClassificationObservation] else { return } var text : String = "" //ラーメン or スパゲッティのconfidenceが0.8を超えた場合は、それを検出したと見做す。 if let result = results.first{ if result.identifier == "ramen" && result.confidence > 0.8{ text = "ラーメン発見!" }else if result.identifier == "spaghetti" && result.confidence > 0.8{ text = "スパゲッティ発見!" } } DispatchQueue.main.async { self?.resultTextView.text = text } } request.imageCropAndScaleOption = .centerCrop //リクエストを処理するためのハンドラ. let handler = VNImageRequestHandler(cvPixelBuffer: pixelBuffer) do{ try handler.perform([request]) } catch { fatalError("Error: 画像認識リクエストの処理に失敗しました") } } }
※本コードの実装においては、以下のサイトを参考にさせて頂きました。
iOS11のVision.frameworkを使ってみる - Qiita
Swiftでカメラアプリを作成する(1) - Qiita
AVCaptureVideoDataOutputの使い方 - Qiita
iPhoneの実機で早速アプリを試してみます。最初にごはんの類を映してみましたが何の反応も示しません。これを麺類と言い張られても困るのでOKですね。
一方でラーメンの類を映してみたところ、きちんと発見してくれました。このようなパッケージ写真であっても正しく検出出来るようです。
スパゲッティの類は手許に無かったので、某ファミレスのオンラインメニューを映してみました。カメラが遠いと、表示がラーメンとスパゲッティの間で激しくブレたりしますが、このぐらい近づけるとスパゲッティで安定しました。
アプリが判断に迷いそうなネタとして、スープスパゲッティも試してみました(写真はcookpadより)。色が濃い目のスープたっぷりであり、カメラが少し動くと表示が激しくブレたりしますが、カメラをあまり動かないようにすると、スパゲッティで安定しました(これは意外でした)。
というわけで、無事にラーメンとスパゲッティを見分けるアプリが完成しました(実際のところ、蕎麦やうどんなど他の麺類もラーメンかスパゲッティ認定されるなど、改良の余地は多々ありますが…)。
PyTorchやTensorFlowなどでモデルや学習のコードを自力実装する手間と比べると、恐ろしい程お手軽に機械学習を活用したアプリが作れてしまいました。Create MLでは学習の中身はブラックボックスであり(おそらく転移学習の一種?)、現時点ではやれることの種類も限られておりますが、それでも今後の開発の幅を広げてくれそうなツールだと感じます。