アノテーション ツール。 教師データ作成サービス AnnoFab(アノファブ)

Annotationツール比較:labelImgとVoTT(YOLO・SSD両対応のデータセット)

アノテーション ツール

「AI向け学習データ作成(画像データのアノテーション)」が求められる背景 ハードウェアのスペック向上とともに、AI(人工知能)技術を応用したソリューションへのニーズは日増しに高まっています。 その中でも、従来のルールベースによるAIや、応用技術であるRPA(ロボティック・プロセス・オートメーション)を用いた業務最適化といった動きは既に一般化しつつあり、次世代のAIとしてディープラーニング(深層学習)に注目が集まっています。 それに伴い、先進的な企業はPOC(Proof of Concept:概念実証)やトライアルプロジェクトにより、取り組むAIの対象としてはディープラーニングに移りつつあります。 このディープラーニングに必要不可欠なものは、ハイパーパラメーターの設定といったチューニングなどの構築ノウハウと同時に、大量の学習データ(教師データ)であるため、低コストで学習データを作成することが求められます。 サイバーテックでは、数年前からディープラーニングに取り組み、現在は多言語マニュアルの標準化・改訂コスト削減・Web化を実現する多言語マニュアル用のCMS(コンテンツ管理システム)「Publish MakerX」のオプションとして、AI校正機能を提供しています。 必要とされる学習データの作成は全て自社で実施しています。 AI向け学習データ作成(画像データのアノテーション)は、サイバーテックがフィリピン セブ島に有する自社オフショア拠点「セブITアウトソーシングセンター」にて実施いたします。 日本品質で様々なBPO・ITアウトソーシングサービスを提供する同拠点では、数年前よりAI校正オプションに用いる学習データ作成を行っております。 画像データに対するアノテーション業務においても、それらのノウハウを流用し、海外オフショア委託による低価格オペレーションながら、高品質のAI向けアノテーションサービスにより学習データの作成サービスを提供いたします。 「AI向け学習データ作成(画像データのアノテーション)」サービス概要 サイバーテックがフィリピン・セブ島に有する自社オフショア拠点「セブITアウトソーシングセンター」にて、日本人およびフィリピン人の管理者(アノテーションマネージャ)の下、オペレーションスタッフ(アノテータ)が様々なディープラーニング向け学習データを作成しています。 画像データに対するアノテーションの場合、例として以下のように、画像からの物体認識(オブジェクト ディテクション)や、領域抽出(セグメンテーション)を実施しております。 ディープラーニングに関する技術は日々進化しているため、求められる学習モデルに即したアノテーション仕様に基づき、様々なAI学習データ作成(画像データのアノテーション)に関する取り組みを実施しております。 最新情報はお問合せください。 AI向け学習データ作成(画像データのアノテーション - クラシフィケーション) AIの導入により様々な業務カイゼンが進みつつあり、ルールベースではなくディープラーニング(深層学習)によるAIは注目されている分野となります。 ディープラーニングはまだまだ本当に使える分野は限られていますが、その中でも、画像分類は効果的な領域です。 実現には大量の学習データ(教師データ)の準備が必要不可欠ですが、「AI向け学習データ作成(画像データのアノテーション - クラシフィケーション)」サービスでは、大量の教師データの準備が必要不可欠となるディープラーニングにおいて、アノテーション用データ整理などに使われる、カテゴリ分けによるラベリングを実施いたします。 同時にそのオブジェクトが何であるかを示すタグ(クラス)付けと、座標情報のラベル付け(ローカライゼーション)により、アノテーションによる学習データ作成を行います。 セグメンテーションを行ったポリゴン情報はJSONファイル形式で提供いたします(labelmeの場合)。 XMLファイルなどへのパースが必要な際は別途ご対応いたします。 しかしながら上流から検討する場合は、元となる画像データが大量にあり、どの画像にどうアノテーションを実施すると精度の高い学習モデルが構築できるか、といった観点で検討を行う必要があります。 そのような場合は、クラシフィケーションなどにより、対象画像の中からアノテーションを実施する画像を選択し、付与するクラスを設計するといった、AIアノテーションのプロジェクト全体を俯瞰して考慮する必要があります。 サイバーテックでは自社でディープラーニング技術を活用したAI校正サービスを提供しており、ディープラーニングの学習モデル自体の構築から実施しておりますので、アノテーション・プロジェクトの上流から携わる事が可能です! 安心の直接雇用スタッフによるAIアノテーション作業! AI向け学習データ作成(画像データのアノテーション)はフィリピン・セブ島に有する自社拠点「セブITアウトソーシングセンター」の直接雇用スタッフのみで実施します。 クラウドソーシングによる在宅ワークや再委託による業務推進体制ではありませんので、管理下に置かれた作業端末でAI向け学習データ作成(画像データのアノテーション)作業を実施します。 端末の紛失などによるデータ流出はもちろんのこと、プロジェクト内容自体の情報流出といった心配はありません! チーム体制による高品質AIアノテーション! セブITアウトソーシングセンター内では、日本人もしくはフィリピン人によるアノテーションマネージャ(リーダー)とアノテーター(オペレーション担当者)によるチーム体制で、属人的な「バラツキ・誤差」を極力なくしたAI向け学習データ作成(画像データのアノテーション)作業により、教師データを作成します。 ディープラーニングでは、特に学習データのクオリティが判定器の精度に大きく関係します。 アノテーションマネージャがフィリピン人の場合であっても、日本人チェッカーによる全件チェックを行う事も可能です。 「AI向け学習データ作成(画像データのアノテーション)」サービス内容 「AI向け学習データ作成(画像データのアノテーション)」サービスの流れは以下の通りとなります。 アノテーション仕様や概要の確認 アノテーションに関するお問合せ内容を元に、弊社がどのフェーズから携わらせていただくべきか、お客様側にお伺いします。 まだ検討段階ということであれば、AI化を検討されている業務内容や想定用途、構築予定の学習モデルなどをお聞きした上で、場合によりPOC(Proof of Concept)による概念実証のご提案も実施いたします。 複数アノテーションの組み合わせが必要かどうか検討中であっても、弊社にて取り組ませて頂いた事例をベースにお話させて頂きます。 秘密保持契約の締結が必要となる場合は、いつでもお申しつけください。 学習データの作成対象となる画像データ・作業手順書の受領 AI導入プロジェクトとして正式に立ち上がっているようであれば、アノテーションの詳細仕様やご予算をお伺いした上で、アノテーションの対象データとなる、学習データの元となる画像データのサンプルと作業手順書を拝見します。 作業手順書が存在しない場合は、ご要望のアノテーション仕様(クラス数・平均オブジェクト数など)を要件定義としてとりまとめることにより、作業手順書やアノテーション・ガイドラインを別途作成する事も可能です。 画像の解像度が低い、あるいは全件が対象画像とはならない場合、クラシフィケーションにより学習データ対象とする画像データを絞り込み、実際にアノテーションを実施する、といったご提案も致します。 アノテーションによる学習データの作成体制と想定期間・概算費用のご提案 ご要望の仕様や利用ツール、対象データや携わらせて頂く工程をベースに、アノテーションによる学習データ作成を行った場合の想定体制、および想定期間と概算費用をご提案いたします。 プロジェクトの方向性をまず固める必要がある場合は、POCもしくはアドバイザリーサービスのご提案を行います。 アノテーションマネージャやチェッカーの有無・アノテーションマネージャの担当者が日本人かフィリピン人のいずれか・アノテーション実施後のチェック回数や頻度によってアノテーションのクオリティや費用は変わるため、ご予算に応じた形でプランをご提案いたします。 アノテーション・トライアルプロジェクトの実施 AIプロジェクトの一部として、ご提案プランの内容で着手指示頂く前提、もしくは少額のご発注により、少ロットのアノテーション作業により、学習データの作成を実施いたします。 想定体制でご要望のクオリティと量産スピードを両立させることが出来るかどうかに着目した形で進めさせていただき、作成したアノテーション済学習データをご指定の形式(通常はJSON)で納品するとともに、作業手順書の見直しを実施します。 クラス設計に甘さがあった場合は、見直しのご提案を実施いたします。 トライアルプロジェクトにおける納品物は、少量とはなりますが、実際のAI学習データとして活用いただけます。 学習結果やアノテーション・トライアルプロジェクトの評価・検証 アノテーションのトライアルプロジェクトにより作成された学習データは、少量ですが実際に学習させた上で結果を評価頂くことも可能です。 モデルの妥当性を検証頂くと同時に、トライアルプロジェクトの評価・検証を実施いただきます。 その上で、主にクオリティや作成スピードの面において、当初ご提案した体制やメンバー通りで良いか、あるいは別の体制やメンバーを再検討すべきか、このフェーズで検証させていただきます。 モデルの妥当性と同時に、AIの効果検証を行った結果、クラスや対象オブジェクトなどの見直しもご提案いたします。 別プランが良いという判断になった場合は、4.に戻り再度トライアルプロジェクトによる学習データの作成を実施することも可能です。 全データに対してアノテーションを行い、学習データを作成 アノテーションによる学習データ作成作業のトライアルプロジェクトにおいて、品質をはじめ、お客様側でモデルにおいても評価・検証を行った結果、問題無いとご判断頂いたのち、残りの画像データに対して、アノテーションによる学習データ作成作業を行います。 プロジェクトの途中であっても、画像データの追加や変更・クラス数や対象オブジェクトの変更などにより実施フローの変更が必要となった場合は、軽微なものであればプロジェクト内で吸収した形で進めることが可能です。 大きな方向性の見直しが必要となった場合は、4.もしくは5.のフェーズに戻り、アノテーション・プロジェクトの体制やクオリティ基準の再検討から進めさせていただきます。 実際に機械学習を実施した結果をベースに検討 アノテーション実施済の全データを用いて機械学習を行い、学習済のモデルに対して要求水準を満たしているかどうかの性能評価を実施いただき、追加データに対してアノテーションの実施が必要かどうか、検討いただきます。 さらに学習データが必要である場合は、アノテーションを追加で実施いたします。 もし対象データが枯渇してしまうようであれば、画像データの拡張(データアーギュメンテーション:Data augmentation)を実施することにより、学習データの水増しを行うことが可能です。 「AI向け学習データ作成(画像データのアノテーション)」サービスの事例・価格 AI向け学習データ作成(テキストデータの前処理) 概要 ディープラーニング(深層学習)によるAIで用いる学習データを作成。 元データは特定のWebサイトにプラグインを埋め込むことにより抽出対象の一覧を自動的に生成し、抽出作業を実施。 規定のルールに基づき抽出情報からノイズ情報を判別し、除去を行った。 ボリューム・期間 約1,000ページ(ファイル)・2週間 作業内容• Movable Type、WordPressへのプラグイン設定• テキストファイルの抽出~指示書通りの命名即に基づいたファイル生成• ディープラーニング時にノイズとなるデータの除去• ツールによる最終確認• テキストデータとリストの納品 使用ツール・技術• Microsoft Excel(データ一覧作成)• Network Kanji Filter(UTF-8のBOM一括削除) 作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点) その他• 納品後のプロセス(形態素解析)を意識した、文字コードや改行コードによるテキストデータの作成。 日本語コンテンツにもかかわらず、除去が必要なノイズデータをパターン化し、フィリピン人オペレータによりリーズナブルに実施。 最終チェックは日本人により実施。 価格・費用 お問合せください AI向け学習データ作成(セグメンテーションによるアノテーションの実施) 概要 ディープラーニング(深層学習)用の学習データとして、支給された画像に対してセグメンテーションを行い、アノテーションを実施(クラス数:10、1画像あたりの平均オブジェクト:5)。 データチェックも含め実施。 ボリューム 5,000ファイル 使用ツール・技術 Labelme、JSON 作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点) その他• 作業者同士のクロスチェック実施• お客様のご要望により本番実施前にサンプルの提出を実施 価格・費用 お問合せください 上記は一般的な「AI向け学習データ作成(画像データのアノテーション)」サービスの事例となります。 そのほか多数の事例がございます、詳細はお問合せください。

次の

DocuWorks9で自作スタンプを使おう

アノテーション ツール

Annotationツール SSDやYOLOなど種々の物体検出のアルゴリズムがありますが、それらを自分の関心のある問題に適用しようと思うと、問題に合わせた教師データにより学習する必要があります。 そして、そのためには教師データを用意する必要があるわけですが、それを行うAnnotationツールはというと、 たくさんあります。 どれがいいのだろう、、と思い、いくつか実際に試してみました。 まず、それぞれのツールのgithubレポジトリで、スターの数、コミット数、最新コミット日時等を見て、以下をピックアップしました。 上記のリストにはないけど、見かけて気になったので• 比較 主に、主観に基づく比較です。 2019. 1追記 以前VoTTを試したときはうまく動作しなかったが、別のPCで試したところ、正常に使えたので、コメントを修正。 アプリタイプ: コマンド起動またはDesktopアプリ• LICENSE: MIT• 入力フォーマット: ローカルファイル• 出力フォーマット: PascalVOC及び YOLOフォーマット• コメント: アイコン付きアプリにするために、少し戸惑った。 pyenv uninstall 3. 5 pip install virtualenv• UI所感: 過不足のない感じで使いやすい。 矩形領域選択時に出る補助線が良い。 画像端まで選択すると、 truncatedフィールドを1にしてくれる。 クラスのインクリメンタルサーチもできて便利。 ショートカットキーも便利。 アプリタイプ: Webサービス• LICENSE: Apache-2. 入力フォーマット: ローカルファイル、クラウド URIのリストで指定する• 出力フォーマット: 独自形式。 レポジトリにあるツールで PacaslVOC, COCO形式に変換できる。 UI所感: マテリアルデザインベース。 作り込んであるけど、使いこなすには慣れが必要そうな印象。 フロントエンドUIが3種類用意されていて、そのうちの1つがAnnotation用になっている。 ただしポリゴンで領域を指定する形式。 独自にUIを作成して追加できる。 アプリタイプ: Electronアプリ• LICENSE: MIT• 入力フォーマット: ローカルファイル• 出力フォーマット: PascalVOC, YOLO, TFRecordを含むいくつかの形式。 コメント: maxOS High Sierra上で動かしていて、はじめの方でボタンが反応しなくて進めなくなった。 2019. 1追記 試せていないが、アクティブラーニングが利用できる。 学習済みモデルの用意などのハードルを超えれば、大きな作業効率化が図れそう。 UI所感: 進めなかったので未確認。 Continueを押しても何も反応せず。 2019. 1追記 全体的にUIがきれいで使いやすい印象を受ける。 矩形選択時に補助線がある。 各種ショートカットキーが定義されているため、効率よくアノテーションができる。 ただし、ラベルへのショートカットの割り当ては10個までのため、それ以上のラベルがある場合は、カーソルで選択する必要がある。 また、クラス数が多くなると 表示領域で3行を超すぐらい 、ラベルの表示領域に入り切らなくなり、選択が困難になる。 アプリタイプ: Webアプリ• LINCENSE: MIT• 入力フォーマット: HTML内に タグで指定。 出力フォーマット: そのままでは出力されない。 で提供されている onAnnotationCreated annotation などで、出力処理を書く必要がありそう。 コメント: UIだけのようなので、画像データの供給や、出力を自分で実装しないといけない。 また、プロジェクトが現在unsupportedになっている。 UI所感: シンプルで、編集や削除はしやすい。 アプリタイプ: Web• 入力フォーマット: ローカルファイル、URL、URIのリストファイル。 ワイルドカードで多数のローカルファイルを選択すると、読み込むまでに時間がかかった。 出力フォーマット: 独自形式のJSON• UI所感: 必要な機能は揃っているが、使いにくさを感じた。 クラスの登録が手間。 領域が画像からはみ出すと選択されないため、手ではみ出さないように調整しないといけない。 アプリタイプ: コマンドで起動• LICENSE: Apache-2. 入力フォーマット: ローカルファイル• 出力フォーマット: 独自形式 path, x1, y1, x2, y2,category• コメント: Deep Learningでオブジェクトの推定ができる。 UI所感: 使いにくさを感じた。 画像境界のチェックがされない。 saveボタンを押すと、追記保存されるため、重複する。 まとめ 今回比較した中では、 labelImgが最も良かったです 適度にシンプルかつ必要な機能は揃っていて、効率よくAnnotationができそうに感じました。 PascalVOCで出力できるのを探していたので、その点でも良いです。 Webベースだと個人的にはもっと良かったです。 ポリゴンでAnnotationしたい場合は向かなそうです。 その次に良さそうと思ったのは viaです。 UIが微妙に使いにくく感じましたが、必要な機能は揃っている感じでした。 PascalVOC等のフォーマットへは、自分で変換する処理を書かないといけなそうです。 2019. 1追記 VoTTを試すことができましたが、UIがきれいで非常に良かったです。 クラス数があまり多くなければ、こちらのほうが効率よく作業できるかも。 Labelboxは、UIの独自開発も視野に入れて、ガッツリ使い込む場合には良いのかもしれないと感じました。 ただその場合は、有料プランで使うことになりそうです。 以上、Annotationツールの比較でした。 参考になれば幸いです。

次の

アノテーションの作成と編集について—ヘルプ

アノテーション ツール

最近、物体検出の独自モデル構築にどっぷりはまっています。 そこで、今まで作ったSSDの教師データを流用する方法を探し、YOLOによるオリジナルモデルの検証をしたいと考えました。 学習に使う教師データはAnnotationツールで作成するのが一般的です。 Annotationツールとは:対象となるデータに対して正解ラベル(タグ)や対象物の座標等関連する情報を注釈として付与するツールです。 今までSSDの学習データをlabelImgで作っていましたので、まずlabelImgの最新版を検証し、次にMicrosoftのAnnotationツールVoTTも使ってみました。 (作業環境はWindows 10 Professional 64Bitです) ソフトウェア開発プラットフォーム"GitHub"をチェックしてみましょう。 現時点のlabelImgとVoTTのスター数などの比較です:• 早速試してみたい方はURLからダウンロードしてみてください。 labelImg UIのアイコンが分かりやすく、マニュアルがなくてもすぐ操作できます。 画面はこんな感じです。 昔のバージョンではYOLO形式に対応していなかったのですが、現在一番新しいバージョンのlabelImg v1. 1はYOLO形式にも対応しています。 表示されているフォーマットで保存されます。 矩形を付与する際に、補助線が出ることや、一度出力したxmlやtxtファイルを自動で再読み込みしてくれるので、便利ですね。 ただし、ディレクトリのルートに日本語が入っていると、ファイルが正常に読み込めなくなるので、英語を使いましょう。 ショートカットキーと組み合わせて使えば、2-3秒間で1枚の画像を処理できます。 とは言え... 以前作ったSSD用のPascalVOC形式のxmlファイルをYOLO形式のtxtに変えるために、一枚一枚「PascalVOC」ボタンをクリックしてYOLO形式で再保存しないといけないです。 単純なボタンクリック作業とは言え、画像枚数が多くなると気が狂いそうになりますね。 既存データを効率的に変換するため、少し探してみました。 後述するxml2yolo. pyというコンバートプログラムがありました。 気が狂わなくて良かったです。 VoTT v2 続いて、最近どんどん進化しているVoTTを見てみましょう。 現在最新バージョンはVoTT v2. 0です。 開くと、まず「Projest Settings」というパネルが出てきます。 一瞬「なに?」と迷うと思いますが、記入内容について簡単に説明します。 Display Name:プロジェクト名• Security Token:セキュリティの設定ですが、必須ではないので無視しても大丈夫• Source Connection:画像を読み込む時のフォルダ• Target Connection:ラベルを書き出す時のフォルダ• Video Settings:ビデオにラベルを付ける時のフレーム数• Tags:ラベル 始まる前に、まずは少なくともプロジェクト名、Source Connection、Target Connectionとラベルをちゃんと設定しないといけないようです。 VoTTの一番の強みは、ビデオのフレームを切り出さなくても、直接にラベルを付けられることです! 使い方はlabelImgに似ていますが、左側に画像のサムネイルがちゃんと表示されています。 ファイル名しか表示されないlabelImgより分かりやすいです。 ビデオにラベルを付ける時も同じやり方ですので、操作しやすいですね。 「Active Learning」に更に目玉機能が潜んでいます!• Predict Tag:「Model Provider」のモデルを使って、画面上に写っているものを自動認識• Auto Detect:前のフレームのラベル情報を次のフレームに引き継ぐ(特にビデオにラベル付けの時に役立ちます。 ) (残念ながら、自動認識の結果、リスがクマとして認識されましたが... デフォルトのモデルではなく、自作のモデルを使えばもっと精度を高められるのでしょうか?) 一見使いやすいVoTT v2ですが、致命的な弱みもあります... まずは、書き出したファイルのファイル名は画像や映像と一致していなく、ランダムです... 学習する時のリネーム作業が必須のようです。 もう一つですが、どうやらv2のバージョンはYOLO形式を対応していないようです。 (使えないじゃん!) VoTT v1 v1のバージョンに戻ってみると、ちゃんとYOLO形式に対応していたようですが、なぜv2で消えたんでしょう。 ちょっと混乱が見えますね。 UIは現在よりシンプルですが、画像と映像両方とも使える所は変わりがありません。 映像を選んだら、下記のような画面が出てきます。 フレーム数とラベルを記入して開始です。 ここの「Tracking」という機能はv2の「Auto Detect」機能と同じく、前のフレームのラベルを引き継ぐことができます... が、v1の最新バージョンが私の環境ではうまく動かなくて、v1. 6辺りならちゃんと作動できるようになりました。 書き出す時に対応しているのは「Fast-RCNN」と「YOLO」だけですが、書き出したファイル名はソースファイルと一致しているので、 (今のところ)v1のほうが使いやすいですね。 まとめ:YOLO形式ファイル作成は何を使えば? 使い勝手と書き出す時のファイル名問題も考えれば、画像ならlabelImg、映像ならVoTT v1がおすすめです。 ただし、VoTT v1は今後アップグレードされないので、v2の改善に期待するしかないです。 もしSSDとYOLO両方とも同じデータセットを使う可能性がある場合、一番便利なのは、やはりまずPascalVOC形式のxmlを作って、後ほどYOLO形式に一括変換することでしょう。 変換の仕方はここを参考: アノテーションファイル変換(VOC XMLからYOLO テキストへ) 学習データはディープラーニングの基礎とは言え、気長な単純作業でもあります。 今後、この単純作業を楽にするような画期的なアノテーションツールが出て来るんでしょうね~。 楽しみですね。

次の