这是用户在 2024-9-16 19:35 为 https://app.immersivetranslate.com/pdf-pro/cf73e9f3-8e4d-4473-931a-9578f41f9f93 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
械枵方

平衡姿勢探索木を用いた RGB-D 画像からの 高速 3 次元物体位置姿勢認識 *

小西 嘉 典** 服 部 宏 祐 ^(****){ }^{* *} 橋 本 学 ^(******){ }^{* * *}

Fast 6D Object Pose Estimation from a RGB-D Image Using Balanced Pose Tree

Yoshinori KONISHI, Kosuke HATTORI and Manabu HASHIMOTO

Abstract

In this paper, we propose a fast and robust 6D pose estimation of objects from a RGB-D image. Our proposed method consists of two components: PCOF-MOD (multimodal perspectively cumulated orientation feature) and balanced pose tree. PCOF-MOD is based on the orientation histograms of depth gradient and surface normal vectors, those are extracted on synthesized depth images using randomized 3D pose parameters and 3D CAD data of a target object. Therefore, the model templates of PCOF-MOD explicitly handle a certain range of 3D object pose. Additionally, a large number of templates are organized into a coarse-to-fine 3D pose tree in order to accelerate 6 D pose estimation. Predefined polyhedra for viewpoint sampling are prepared for each level of an image pyramid and 3D object pose trees are built so that the number of child nodes of every parent node are almost equal in each pyramid level. In the experimental evaluation of 6 D object pose estimation on publicly available RGB-D image dataset, our proposed method showed higher accuracy and comparable speed in comparison with state-of-the-art techniques.

Key words: 6D pose estimation, RGB-D image, 3D CAD, template matching, PCOF-MOD, balanced pose tree

1. 緒 言

産業用や家庭用など様々な用途のロボット向け画像処理にお いて,把持のための 3 次元物体位置姿勢認識は最も重要な技術の一つである。ロボット向けアプリケーションにおいてはり アルタイム性や精密な位置姿勢認識精度,乱雑な背景に対す る頑健性など多くの要求に応える必要があり,それに対して 近年では Kinect など低価格の 3 次元センサの普及も相まって, RGB-D 画像を用いた様々な 3 次元物体位置姿勢認識手法が提案されている. これまでに提案されてきた手法は大きく二つに 分類することができ, 一つは 3 次元点群に基づく手法, もう一 つは 2 次元投影画像に基づく手法である。
3 次元点群に基づく手法として,周辺点群との位置関係を記述した spin image 1 ) 1 ) ^(1)){ }^{1)} やキーポイント周辺点群の法線方向ヒスト グラムを利用した FPFH 2 FPFH 2 FPFH^(2))\mathrm{FPFH}^{2 )} や SHOT 3 ) 3 ) ^(3)){ }^{3)} ,2点間の関係性を記述 した PPF 4 ) 5 ) PPF 4 ) 5 ) PPF^(4)^(5)))\mathrm{PPF}^{4)^{5)}} といった手法が知られている。しかしこういった 手法は処理速度が遅く複雑背景下での頑健性が低いことが指摘 されている ® ®  ^("® "){ }^{\text {® }}
一方の 2 次元投影画像に基づく手法では, 様々な視点から物体を見た場合の輝度画像やデプス画像を用いて特徴量の抽出及 びテンプレートの作成を行い入力画像との照合を行う. 2 次元投影画像に基づく手法はさらに二つの手法に分類することがで き, 一つは局所テンプレート照合と一般化ハフ変換を組み合わ せた手法 7 ) 9 ) 7 ) 9 ) ^(7)-9)){ }^{7)-9)} で,もう一つは物体全体のテンプレートを用い て画像内を走査する手法 6 10 10 11 ) 6 10 10 11 ) ^(6)^(10)^(10)^(11)){ }^{6}{ }^{10}{ }^{10}{ }^{11)} である。
一般化ハフ変換に基づく手法では,局所テンプレートが作成
Fig. 1 Our new template based algorithm can estimate 6D object pose from a RGB-D image which contains cluttered backgrounds and partial occlusions. It takes an average of approximately 100 ms on a single CPU core
された視点位置や物体重心との位置関係に基づいて 6 次元の位置姿勢空間に投票を行い,その最頻値から 3 次元位置姿勢を推定する. このため物体の種類数や画像解像度が増加しても処理時間が線形的に増加しないという特長があるものの, 6 次元の 投票空間は広大であるため最頻値の探索に長い処理時間を要す るという課題がある。
全体テンプレートを用いたテンプレートマッチングに基づく 手法は, 物体領域全体から抽出された特徴量をベクトル化して モデルテンプレートとし,画像内を走査して位置姿勢認識を行 う. ただし 3 次元姿勢変化による物体のあらゆる見え方につい てテンプレートを作成し走査する必要があるため,物体の種類数や画像解像度が増加した場合に処理時間が線形的に増加する という課題があった。それに対して Hinterstoisser ら () 12 ) ()  12 ) ^(() )^(12)){ }^{\text {() }}{ }^{12)} は,量子化された輝度勾配方向特徵量と特徵量のメモリ配置最適化 に基づく LINEMOD を提案し,複犨背景下においてもテクス チャレス物体の 3 次元位置姿勢を高速に認識できることを示し た。対象物体の種類数が多い場合に処理速度が低下する課題に 対しては,ハッシュテーブルを用いたテンプレート照合処理の 高速化が提案されている 10 ) 11 ) 10 ) 11 ) ^(10))^(11)){ }^{10)}{ }^{11)}
2 次元投影画像に基づく手法に関しては入力データとして RGB 画像のみを用いた手法も提案されてきた 13 ) 16 ) 13 ) 16 ) ^(13)-16)){ }^{13)-16)} 。しかし 3 次元センサにより取得したデプス画像を併用した方が複雑背景 に対して頑健であること 6 6 ^(6){ }^{6} や 3 次元位置姿勢をより高精度に 認識可能である 17 ) 17 ) ^(17)){ }^{17)} ことが示されている.
また対象物体と背景とを識別する2クラス識別器を学習させ ることで複稚背景に対する頑健性や認識速度を高める研究もな されてきたが 17 ) 18 ) 17 ) 18 ) ^(17))^(18)){ }^{17)}{ }^{18)} ,背景データを対象物体や撮影環境毎に収集することは非常に煩維であるため,実アプリケーションを想定した場合には対象物体の 3 次元 CAD のみから認識に必要な モデルデータを作成できることが望ましい.
こういったことを踏まえ本研究では, 実アプリケーションに 対しても適用可能な速度・精度・頑健性を備えた 3 次元物体位置姿勢認識手法として, 3 次元 CAD のみからモデル作成ができ かつ入力データとして RGB-D 画像を用いたテンプレートマッ チングに基づく手法を提案する(図 1)。提案手法は,物体の 3 次元姿勢変化による見えの変化に対する許容性と複雑背景に対 する頑健性とを両立させた RGB-D 特徵量である PCOF-MOD (Multimodal PCOF) と,膨大な数のテンプレートを用いた照合処理を高速化する平衡姿劸探索木の二つの技術要素から構成さ れる。
本論文では以下,2章で関連研究について述べた後,提案手法を構成する二つの技術要素であるPCOF-MOD と平衡姿勢探索木についてそれぞれ 3 章と 4 章で説明を行う. さらに 5 章 でそれらを用いた 3 次元物体位置姿勢認識手法について説明を 行い,6章で提案手法の有効性を示す実験についての説明と実験結果に対する考察を行った後,7章において結論を述べる。

2. 関 連 研 究

本章では提案手法の二つの構成要素である PCOF-MOD と平衡姿勢探索木と関連の深い,物体の 3 次元姿勢変化による見え の変化を許容可能な特徵量に関する既存研究(2.1 節)と探索木を用いた位置姿勢認識の効率化に関する既存研究( 2.2 節) について概説する。
2.13 次元姿勢変化による物体の見えの変化に対応した特徵量
2 次元投影画像に基づく 3 次元位置姿勢認識において,テン プレートを作成した視点以外からの見えに対して照合スコアが 低下することは複雜背景下での認識において大きな問題とな る. Hinterstoisser ら 6) 6)  ^("6) "){ }^{\text {6) }} は照合に際して位置許容範囲を設ける ことで照合スコア低下を抑える手法(拡散方向特徴量)を提案 したが, 物体の見えの変化だけでなく背景部分における照合条件も緩和されるため誤認識の増加が緦念される。
これに対して Konishi ら 13 ) 13 ) ^(13)){ }^{13)} は,設定された視点の周辺から も多数の投影画像を作成し特徵抽出を行う透視投影に基づく累積勾配方向特徵量(PCOF)を提案し,従来手法と比較して複雑背景に対する頑健性を保持したまま物体の 3 次元姿勢変化に よる見えの変化に対する許容性を高められることを示した。た だし PCOF は RGB 画像から抽出される輝度勾配方向特徵量に 基づいた手法であり, デプス画像を併用した場合にも適用可能 であるかは不明である。

2.2 姿勢探索木を用いた位置姿勢認識

テンプレートマッチングに基づく位置姿勢認識においてはモ デルテンプレートのデータ構造や探索手法も性能に大きな影響
Fig. 2 (a) 3D CAD of iron, its coordinate axes and a sphere for viewpoint sampling (b) Examples of depth images from randomized viewpoints around a certain vertex
を与える. 多数の候補の中から最も類似したものを効率的に探索するための主要な手法として探索木があり, これまでに類似 したテンプレートをクラスタリングして決定木を樓成し姿勢や 形状の探索処理を効率化させる手法が提案されてきた 19 ) 20 19 ) 20 ^(19))^(20){ }^{19)}{ }^{20}. また画像内での物体位置探索処理を効率化させるため,テンプ レートマッチングによる 2 次元あるいは 3 次元物体位置姿勢認識において画像ピラミッドを用いた粗密探索が古くから用いら れてきた 21 ) 21 ) ^(21)){ }^{21)}
これらの姿勢と位置の効率的探索手法を組み合わせ, 2 次元 テンプレート同士の類似度に基づいて画像ピラミッドの階層 ごとにクラスタリングすることで,物体の画像上での位置と 3 次元姿勢の探索処理を同時に効率化する手法が提案されてい る 13 ) 14 ) 13 ) 14 ) ^(13))^(14)){ }^{13)}{ }^{14)} 。しかしテンプレート同士の類似度に基づいて適応的に 探索木を作成した場合, 物体が大きく見えているテンプレート (カメラ位置が近い)と小さく見えているテンプレート(カメ ラ位置が遠い)とでは探索木の深さが異なったり,各視点から の見え方の違いによって各親ノードに連結する子ノードの数に 偏りが発生したりすることで,探索時間がばらついたり平均処理時間が長くなったりする欠点がある。

3. PCOF-MOD

PCOF-MOD は Konishi ら 13 ) 13 ) ^(13)){ }^{13)} が提案した透視投影に基づく累積勾配方向特徵量(PCOF: Perspectively Cumulated Orientation Feature)を拡張した特徵量である。PCOF は RGB 画像から抽出した輝度勾配方向特徴量を用いていたが、我々はそれに加え てデプス画像から算出可能な法線方向特徴量 12 ) 12 ) ^(12)){ }^{12)} を組み合わせ ることで,より高精度かつ複雑背景に対して頑健な 3 次元物体位置姿勢認識を可能にする RGB-D 特徵量を提案する。
ここからはアイロンの CAD(図 2)を例として用いPCOFMOD の算出方法について説明する。まず対象物体を中心とし た球面上(図2(a))に仮想の視点をランダムに設定し,その 視点から見たデプス画像を多数生成する。視点位置を決定する ためのパラメータは x y x y x*y\mathrm{x} \cdot \mathrm{y} 軸周りの回転角度, 物体までの距離, カメラ光軸周りの回転角度の 4 種類であり, 一定笵囲内にお いて発生させた一様乱数により決定する。ここで発生させる乱

Fig. 3 (a) Colored gradient directions of the upper-left image of Figure 2(b) (b) Quantization of gradients © Colored normal directions of same image (d) Quantization of normals
数の範囲は一つのテンプレートで対応できる物体の見えの変動範囲内にとどめる必要があり,本研究では最適な範囲を実験的 に決定し,x・y軸周り回転角度 ± 10 ± 10 +-10\pm 10 度以内,物体までの距離 ± 90 mm ± 90 mm +-90mm\pm 90 \mathrm{~mm} 以内, 光軸周り回転角度 ± 7.5 ± 7.5 +-7.5\pm 7.5 度以内とした。例とし てx軸周り角度 33.9 度, y y yy 軸周り角度 25.5 度,光軸周り回転角度 0 度,距離 900 mm にある視点を中心とし,この変動範囲内のパラメータから生成されたデプス画像例を図2(b)に示し た。 ただし左上の画像は変動範囲の中心視点において生成した デプス画像である.
以上の手順によって生成した N N NN 枚のデプス画像を用い,物体輪郭付近のデプス勾配ベクトルと物体表面の法線ベクトルに ついて累䅡勾配方向特徴量の抽出 13 ) 13 ) ^(13)){ }^{13)} を行う。まず生成した全 てのデプス画像に対して,Sobel フィルタによるデプス勾配ベ クトル算出と局所領域への平面当てはめによる法線ベクトル算出 12 12 ^(12)){ }^{12 )} を行う。作成したデプス勾配ベクトル画像と法線ベクト ル(xy 平面成分のみ)画像の一例について,方向に応じて色づ けして図3(a)(c)に示す。
次にこれらのベクトル方向画像群から画素毎に勾配方向ヒス トグラム及び法線方向ヒストグラムを作成する。画像群共通座標系の各画素に八つのビンを持つヒストグラムを用意し,全画像のベクトル方向を図 3 (b)(d)のように 8 方向に量子化した 後,対応する画素のヒストグラムに投票を行う. この際ベクト ル方向に近い二つのビンに対して(図3の例では5と6)頻度値の加算を行い,ベクトル方向を持たない画素については何も 加算しない。その結果,頻度の合計値が最大で N N NN となるよう な方向ヒストグラムが各画素において得られる。なお隣り合う 二つのビンに加算する頻度値は,各ビンの中心角度とベクトル 角度との差分の比に基づいて合計が 1 となるように算出する。 このため各ビンに加算される値は小数となる。
最後に各画素の方向ヒストグラムにおいて頻度しきい値 (Th)以上の勾配方向のみを選択し,対応するビットを 1 にし た 8 桁の二進数を累積方向特徴量として抽出する。 また頻度の 大きな方向は安定して出現する主要な特徴量であると考えられ るため,ヒストグラムの最大頻度値を照合時に使用する特徴量 の重みとして抽出する。最大頻度がしきい値以下の場合は安定的な特徴量が得られなかったとし,その画素を照合には用いな いこととする.
図2(b)と同じ視点範囲において生成したデプス画像から 算出した方向ヒストグラム,累積方向特徴量(ori),特徴量の 重み(w)を任意に選択した四つの画素について図4に示し た. 点 A と B は勾配方向画像群から,点 C と D は法線方向画像群から選択した。画像の生成枚数 ( N ) ( N ) (N)(N) 及び頻度に対す るしきい値( T h ) T h ) Th)T h) は実験的に決定し 13 ) 13 ) ^(13)){ }^{13)} ,勾配方向画像群に対 しては N = 1000 N = 1000 N=1000N=1000 T h = 100 T h = 100 Th=100T h=100 ,法線方向画像群に対しては N = 1000 N = 1000 N=1000N=1000 T h = 200 T h = 200 Th=200T h=200 とした。PCOF 抽出処理の結果,勾配
Fig. 4 Examples of the orientation histograms, binary features (ori) and their weights (w) on arbitrarily selected pixels. Pixel A and B are extracted from gradient orientations, and pixel C and D are from normal orientations. Red dotted lines show the threshold for feature extraction
方向特徴量に関して点 B のような滑らかな輪郭上においては 少数の勾配方向に投票が集中し,重みの大きな特徴量が抽出さ れる傾向が見られた。一方で点A のような急峻な曲線上にお いては,多数の勾配方向に投票が分散し重みの小さい特徵量が 抽出されるあるいは最大頻度がしきい値以下となり照合に使用 されないといった傾向が見られた. 法線方向特徴量についても 同様に,点Dのような滑らかな曲面上においては重みの大き な特徴量が抽出され,点 Cのような形状が大きく変わる点にお いては重みの小さな特徴量が抽出される傾向が見られた。
重みがゼロとなった画素を除く n n nn 個の PCOF からなるテン プレート T T TT は次のように表され,
T : { x i , y i , ori i , w i i = 1 , , n } T : x i , y i ,  ori  i , w i i = 1 , , n T:{x_(i),y_(i)," ori "_(i),w_(i)∣i=1,dots,n}T:\left\{x_{i}, y_{i}, \text { ori }_{i}, w_{i} \mid i=1, \ldots, n\right\}
入力画像中の座標 ( x , y ) ( x , y ) (x,y)(x, y) における照合スコアは次式で算出 する。
score ( x , y ) = i = 1 n δ k ( ori ( x + x i , y + y i ) I ori i T ) i = 1 n w i score ( x , y ) = i = 1 n δ k ori x + x i , y + y i I ori i T i = 1 n w i score(x,y)=(sum_(i=1)^(n)delta_(k)(ori_((x+x_(i),y+y_(i)))^(I)inori_(i)^(T)))/(sum_(i=1)^(n)w_(i))\operatorname{score}(x, y)=\frac{\sum_{i=1}^{n} \delta_{k}\left(\operatorname{ori}_{\left(x+x_{i}, y+y_{i}\right)}^{I} \in \operatorname{ori}_{i}^{T}\right)}{\sum_{i=1}^{n} w_{i}}
上式では入力画像の量子化方向 ( o r i I ) o r i I (ori^(I))\left(o r i^{I}\right) がテンプレートの PCOF ( ori T T ^(T){ }^{T} )に含まれている場合に重み( w w ww )が照合スコアに加算 される. また式(2)のデルタ関数は式(3)のようにビット積 (記号へ)で高速に演算可能であり,CPU 固有のSIMD 命令を 用いることで照合演算の更なる高速化を図ることもできる。
δ i ( o r i I o r i T ) = { w i if ori i I o r i T > 0 0 otherwise δ i o r i I o r i T = w i       if   ori  i I o r i T > 0 0       otherwise  delta_(i)(ori^(I)in ori^(T))={[w_(i)," if "" ori "i^(I)^^ori^(T) > 0],[0," otherwise "]:}\delta_{i}\left(o r i^{I} \in o r i^{T}\right)= \begin{cases}w_{i} & \text { if } \text { ori } i^{I} \wedge o r i^{T}>0 \\ 0 & \text { otherwise }\end{cases}
以上の PCOF テンプレート作成と照合スコア演算は勾配方向 と法線方向それぞれについて行い,両者の照合スコアの和を位置姿勢認識に用いる。

4. 平衡姿勢探索木

3 章で説明した PCOF-MOD テンプレートは, デプス画像生成時に用いた視点変動パラメータ範囲内の物体の見えの変化に 対応可能である(本研究では x y x y x*y\mathrm{x} \cdot \mathrm{y} 軸周り ± 10 ± 10 +-10\pm 10 度以内,カメラ 距離 ± 90 mm ± 90 mm +-90mm\pm 90 \mathrm{~mm} 以内,光軸周り ± 7.5 ± 7.5 +-7.5\pm 7.5 度以内)。さらに広い範囲

Fig. 5 Icosahedron (left) and almost regular polyhedrons those are generated by recursive decompositions
の 3 次元姿勢の認識を行うため, 図 2 (a) のように球面上に 変動中心視点位置をほぼ等間隔に設定して PCOF-MOD テンプ レートを作成する。このような視点位置は図5左端に示した正 20 面体の各辺を 2 等分していくことで作成し 22 ) 22 ) ^(22)){ }^{22)} ,この操作を 3 回繰り返して図5左から順に示すように正 20 面体, 80 面体, 320 面体, 1280 面体を得る(各多面体の頂点数は 12 , 42 , 162 12 , 42 , 162 12,42,16212,42,162, 642). こうして得られた 1280 面体を入力画像解像度における テンプレート作成に利用する。 1280 面体の隣り合う頂点は x・ y 軸周り約 8 度間隔となり,この 642 個の頂点を変動中心視点 として用いることで一つの PCOF-MOD テンプレートの認識可能な 3 次元姿勢箢囲( ± 10 ± 10 +-10\pm 10 度)に重複部分が生じる。さらに 他二つの姿勢変動パラメータに関しても重複部分が生じるよう に,物体までの距離は 70 mm 刻み,光軸周り回転角度は 6 度刻 みでテンプレートを作成した。
このようにして作成した多数のテンプレートを用い,解像度 の異なるテンプレート階層から構成される姿勢探索木を作成す る. 姿勢探索木に関して,これまでに 2 次元的な見えに基づい て類似したテンプレートをクラスタリングする方法が提案され てきた 13 ) 14 ) 13 ) 14 ) ^(13))^(14)){ }^{13)}{ }^{14)} 。こういった手法ではクラスタ内の見えの変動幅 が一定となるように探索木が作成され,ノード数は物体の形状 に対して最適な値になると考えられる。一方で探索木毎に深さ や親ノードに連結する子ノードの数が大きく変化するため,探索処理が非効率になるという欠点がある。そこで我々は探索処理の効率化を最優先に考え,探索木の深さや親ノードに連結す る子ノードの数ができるだけ均一になるように構成された平衡姿勢探索木を提案する。
まず図5に示した多面体の頂点を視点位置として用い,階層 が深くなる度に 3 次元姿勢の分割数が増えていくような姿勢探索木を作成する。具体的には図 5 左端の正 20 面体の各頂点を 探索木の根ノードとし,右隣の 80 面体と中心が重なるように 置いた場合に各根ノードから距離の近い 80 面体の頂点を 3 点 もしくは 4 点選択して子ノードとする。これを 80 面体の各頂点から 320 面体の近傍頂点, 320 面体の各頂点から 1280 面体 の近傍頂点と繰り返すことで物体の全周囲を覆うする視点につ いて深さ 3 の探索木を作成する。 3 次元姿勢を決定する他の 2 つのパラメータ,光軸周り回転角度と物体までの距離について は深さが 1 つ深くなる度に分割数を 2 倍にした。これにより 我々の提案する平衡姿勢探索木は,全ての親ノードに 12 個あ るいは 16 個の子ノードが連結する深さ 3 の平衡な多分木(B 木)となる.
平衡姿勢探索木の各ノードは,その視点を中心とする一定範囲内の視点において生成されたデプス画像を用いて抽出された 勾配方向特徴量テンプレートと法線方向特徴量テンプレートと で構成される. 深さ 3 における勾配方向特徴量テンプレート T g 3 T g 3 (Tg_(3))( T g_{3} ) と法線方向特徴量テンプレート( T n 3 ) T n 3 {:Tn_(3))\left.T n_{3}\right) は 3 章で述べた 方法により作成し,深さ 2 より上位のテンプレートは 1 つ下の
Algorithm 1 上位階層(低解像度階層)におけるテンプレート
作成アルゴリズム
Require: Orientation histograms \(H g_{d}, H n_{d}\), and balanced pose
    trees \(B P T\) with depth \(d\)
Ensure: Templates \(T g_{i}, T n_{i}(i=0, \ldots, d-1)\)
    for \(i \leftarrow d-1\) to 0 do
        \(P_{i} \leftarrow\) parent viewpoints of \(i\) th level in \(B P T\)
        for each parent viewpoint \(P_{i, j}\) do
            \(C_{i+1, j} \leftarrow\) child viewpoints of \(P_{i, j}\)
            \(H g_{i+1, j}^{\prime} \leftarrow\) add histograms at each pixel of
            \(H g_{i+1} \in C_{i+1, j}\)
            \(H n_{i+1, j}^{\prime} \leftarrow\) add histograms at each pixel of
                \(H n_{i+1} \in C_{i+1, j}\)
            \(H g_{i+1, j}^{\prime} \leftarrow\) normalize histograms \(H g_{i+1, j}^{\prime}\)
            \(H n_{i+1, j}^{\prime} \leftarrow\) normalize histograms \(H n_{i+1, j}^{\prime}\)
            \(H g_{i, j}^{\prime} \leftarrow\) add histograms of nearby \(2 \times 2 \mathrm{px}\) of \(H g_{i+1, j}^{\prime}\)
            \(H n_{i, j}^{\prime} \leftarrow\) add histograms of nearby \(2 \times 2 \mathrm{px}\) of \(H n_{i+1, j}^{\prime}\)
            \(H g_{i, j} \leftarrow\) normalize histograms \(H g_{i, j}^{\prime}\)
            \(H n_{i, j} \leftarrow\) normalize histograms \(H n_{i, j}^{\prime}\)
            \(T g_{i, j} \leftarrow\) thresholding \(H g_{i, j}\) and extracting new binary
                features and weights
            \(T n_{i, j} \leftarrow\) thresholding \(H n_{i, j}\) and extracting new binary
                features and weights
        end for
    end for
階層の勾配・法線方向ヒストグラムを用いて作成する。上位階層(低解像度階層)におけるテンプレート作成方法をアルゴリ ズム 1 に示す。 まず深さ i i ii の変動中心視点位置 P i P i P_(i)P_{i} の子ノード C i + 1 C i + 1 C_(i+1)C_{i+1} に含まれる全ての視点位置・光軸周り回転角度・物体ま での距離で作成した勾配・法線方向ヒストグラム ( H g i + 1 H g i + 1 (Hg_(i+1):}\left(H g_{i+1}\right. 及び H n i + 1 H n i + 1 Hn_(i+1)H n_{i+1} )を加算,正規化することで,親ノードが包含する 3 次元姿勢笵囲内で抽出された勾配・法線方向ヒストグラムを作成 する. 次に近傍 2 × 2 2 × 2 2xx22 \times 2 画素の勾配・法線方向ヒストグラムを加算,正規化することでテンプレートの幅・高さをそれぞれ 1 / 2 1 / 2 1//21 / 2 に縮小する. その後しきい値処理を行って二進数特徵量と重み を抽出し,深さ i i ii のテンプレート ( T g i , T n i ) T g i , T n i (Tg_(i),Tn_(i))\left(T g_{i}, T n_{i}\right) とする. これを 深さ 0 まで繰り返し,探索を行うRGB-D 画像ピラミッドの各階層の解像度と一致したテンプレートを作成する。
図2のアイロンを用いて作成した平衡姿勢探索木の一部を図 6 に示した. この図では光軸周りの回転角度と物体までの距離 による 3 次元姿勢の分割を省略しているため, それぞれの親 ノードに 3 つから 4 つの子ノードが連結している. モデル登録時にはまず深さ 3 のテンプレートを全て作成した後, 3 次元姿勢パラメータの近い子ノードの勾配・法線方向ヒストグラムを 統合・低解像度化することで親ノードの特徴量を算出し, 1 つ 上位の(低解像度の)テンプレートを作成していく(アルゴリ ズム 1). なお 6 章の実験設定 ( x y ( x y (x*y(\mathrm{x} \cdot \mathrm{y} 軸周り ± 90 ± 90 +-90\pm 90 度以内,カメ ラ光軸周り ± 45 ± 45 +-45\pm 45 度以内, 物体までの距離 650 mm 1150 mm 650 mm 1150 mm 650mm-1150mm650 \mathrm{~mm}-1150 \mathrm{~mm} ) に 基づいて平衡姿勢探索木を作成した場合,変動中心視点位置は 半球上にだけ設定すれば良くその数は深さ 0 から順に 6,21 , 81,321 点となる. 光軸周り回転角度分割数は 2 , 4 , 8 , 16 2 , 4 , 8 , 16 2,4,8,162,4,8,16 個,物体までの距離分割数は 1 , 2 , 4 , 8 1 , 2 , 4 , 8 1,2,4,81,2,4,8 個であり, 各深さのノード 数はそれぞれの分割数の乗算により深さ 0 から順に 12,168 ,
Fig. 6 Part of the balanced pose tree of the iron are shown. The bottom templates are originally created PCOF-MOD templates and the tree structures are built in a bottom-up way by adding and downscaling of orientation histograms. In the estimation of object pose, the tree is traced from top to bottom along the red arrow
2592, 41088 個となる.

5. 3 次元物体位置姿勢認識

3 次元位置姿勢認識時は,まず取得したRGB 画像とデプス 画像それぞれについて画像ピラミッドを作成した後,各階層に おいて RGB 画像からは量子化輝度勾配方向特徴量を,デプス 画像からは量子化法線方向特徵量を算出する. 次に量子化輝度勾配方向特徴量画像及び量子化法線方向特徴量画像の最上位階層において,平衡姿勢探索木の勾配方向ルートテンプレートと 法線方向ルートテンプレートを用いて画像内の走査を行い,式 (2)に基づいて 2 種類の照合スコアを算出する。 2 種類の照合 スコアの和が探索しきい值以上の認識結果については, 一つ下 の高解像度階層において対応する 3 次元姿勢のテンプレートを 用いて照合を行う. これを繰り返しながら徐々に解像度の高い 画像においてより詳細な位置姿勢を特定していき(図6の赤矢印),最後に最下位階層において探索しきい値以上の照合スコ アを持つ 3 次元姿勢テンプレートとその照合位置座標が得ら れる。 一つの正解位置に対して複数の認識結果が得られる場合 もあるため,互いに近い位置で検出された認識結果はクラスタ リングし照合スコアが最も高い認識結果に代表させた(非極大値抑制処理)。 このようにして照合に用いたテンプレートと入力画像上での 2 次元検出位置とが特定され, 3 次元 CAD 上の 3 次元座標と入力画像上での 2 次元座標との対応関係が得られ る. この 2 次元と 3 次元の位置座標対応関係を用いて P n P P n P PnP\mathrm{P} n \mathrm{P} 問題を解くことで,認識された物体の 3 次元位置姿勢を算出す る 23 ) 23 ) ^(23)){ }^{23)}
さらに従来研究 ( 6 ) 10 ) ( 6 ) 10 ) ^((6))^(10)){ }^{(6)}{ }^{10)} と同様に,位置姿勢精度向上のための 後段処理を追加で行った。 まずテンプレートマッチングによっ て得られた 3 次元位置姿勢を初期値として用い,ICP による 3 次元点群レジストレーション 24 ) 24 ) ^(24)){ }^{24)} を行ってより詳細な位置姿勢 を求める。 次にその位置姿勢パラメータを用いて 3 次元 CAD の頂点を変換・投影し,入力データ中の近傍点までの 3 次元空間距離及び HSV 色空間における距離に基づいて誤認識結果の 除去を行った。
Fig. 7 Example images of ACCV-3D dataset. 1st row: ape, benchivise, cam. 2nd row: cat, driller, duck. 3rd row: eggbox, glue, holepuncher. 4th row: iron, lamp, phone

6. 実 験

提案手法の有効性を検証するため, 15 種類のテクスチャレ ス物体からなるACCV-3D データセット ® ®  ^("® "){ }^{\text {® }} を用いた性能評価 を行った. ACCV-3D データセットは各物体について PSDK5.0 (PrimeSense 社) を用いて様々な角度から撮影を行った 1000 枚以上の RGB-D 画像から構成され, AR マーカー認識による 3 次元位置姿勢正解値と各物体の 3 次元 C A D C A D CADC A D と共に公開され ている. 本研究では 3 次元 CAD が提供されていない bowl と cup を除く 13 種類の物体を評価対象とし,RGB 画像に認識結果に基づくエッジ画像を重畳表示したデータセット画像例を図 7 に示した。
撮影された物体の姿勢は, x y x y x*y\mathrm{x} \cdot \mathrm{y} 軸周り ± 90 ± 90 +-90\pm 90 度以内,カメラ 光軸周り ± 45 ± 45 +-45\pm 45 度以内, 物体までの距離 650 mm 1150 mm 650 mm 1150 mm 650mm-1150mm650 \mathrm{~mm}-1150 \mathrm{~mm} であ り, この範囲内の PCOF-MOD テンプレートと平衡姿勢探索木 を作成して認識を行った. ACCV-3D データセットを性能評価 に用いている他の先行研究に倣い,推定された 3 次元位置姿勢パラメータに基づいて変換された CAD の頂点座標と正解値 に基づいて変換された頂点座標との平均二乗距離が物体の直径 の 10 % 10 % 10%10 \% 以内であった結果を認識成功とした。認識処理は PC (CPU: Core i7-5820K 3.3GHz)上にて,CPU コアを一つだけ使用して行った. また探索処理中の照合スコアに適用するしきい 值に関しては, 0 から 1 までの間において 0.01 刻みでしきい値 を変化させて認識処理を行い,認識成功率が最も高い時のしき い値を採用した。
ACCV-3D データセットでは, 認識結果である 6 つの 3 次元位置姿勢パラメータそれぞれに対してしきい値を設けて認識成功の可否を判断するのではなく,認識結果に基づいて物体位置姿勢を変換した場合の物体表面上の頂点の平均二乗誤差という 一つの評価指標を用いて認識成功率を算出している。認識結果 の平均二乗誤差が本データセットにおける認識成功基準である 物体の直径の 10 % 10 % 10%10 \% 程度となった結果について, 物体の輪郭を 描画した画像を図 8 に示す。 左の driller の誤差が 9.6 % 9.6 % 9.6%9.6 \%, 右の
Fig. 8 Examples of results whose mean squared errors of transformed vertices were almost 10 % 10 % 10%10 \%. Left: driller (the error was 9.6 % 9.6 % 9.6%9.6 \% ). Right: duck (the error was 9.7 % 9.7 % 9.7%9.7 \% )
duck の誤差が 9.7 % 9.7 % 9.7%9.7 \% であるが,描画結果からは対像物体の位置姿勢をほぼ正しく認識できていることが確認でき, 10 % 10 % 10%10 \% は認識成功率の基準として妥当であると言える。

6.1 認識成功率

表 1 に物体毎の認識成功率及び全物体の平均値を示した。近年提案されたテンプレートマッチングに基づく手法 3 種類 6 10 11 6 10 11 ^(6))^(10))^(11)){ }^{6 )}{ }^{10 )}{ }^{11 )} に加え,一般化ハフ変換に基づく手法 9 3 9 3 ^(9))3{ }^{9 )} 3 次元点群に基づく手法 5 5 ^(5)){ }^{5 )} の認識成功率も同様に示した。従来手法と 比較して提案手法がより高い認識成功率を示していることがこ の表から分かる。
テンプレートマッチングに基づく手法では,テンプレートを 作成するための視点位置を密に設定した方がテンプレートと入力画像内の対象物体との見えの差分が生じにくく認識性能は高 くなる。従来のテンプレートマッチングに基づく手法では提案手法と比較して少ない視点数でテンプレートを作成しており,例えば Hinterstoisser 6 ) 6 ) ^(6))^{6)} は 81 点の視点位置,光軸周り回転角度を 15 度刻み,物体までの距離を 100 mm 刻みでテンプレート を作成し,その合計数は 3402 個であった。他の2つの従来研究においても同程度のテンプレート数を用いており,提案手法 のテンプレート数 41088 個と比較すると 1 / 10 1 / 10 1//101 / 10 以下である。こ のことが提案手法の認識成功率が高かった要因の一つであると 考えられる。
従来手法よりも認識成功率が高かった要因としてもう一つ挙 げられるのは,テンプレートを作成した視点以外の見えに対す る照合許容性の高さである。Hinterstoisser ら 12 ) 12 ) ^(12)){ }^{12)} は 3 次元姿勢変化による見えの変化に対する許容性を高めるため拡散方向特徴量を提案し,特徴量を周辺画素に機械的に複製することで特徴量の照合条件を緩和している。しかし背景領域においても同様に照合を許容してしまうために複雑背景下において誤認識 が増加する恐れがある。これに対して本研究で提案している PCOF-MOD は,一定範囲内の 3 次元姿勢のデプス画像を実際 に生成し特徴抽出を行うことで物体の 3 次元姿勢変化による見 えの変化に対してのみ照合許容性を高めている。このため複雑背景下における誤認識を増加させることなくテンプレート作成視点以外の見えに対する照合許容性を高めることができている と考えられる。

6.2 認識処理時間

表 2 に各手法の平均処理時間を示した。それぞれ異なる実行環境で時間計測されているため単純な比較はできないが,3 次元点群に基づく手法(PPF)や一般化ハフ変換に基づく手法 (Deep-patch)はテンプレートマッチングに基づく手法と比較 してより長い処理時間を要する傾向にあることが分かる。
また提案手法の処理時間は LINEMOD や Hashmod と同程
Fig. 9 Typical examples of pose recognition errors on driller (left) and glue (right)
度であった. 6.1 節で述べたように提案手法はこれらの手法 と比較して 10 倍以上の数のテンプレートを用いて照合処理 を行っており,単純計算では 10 倍以上の処理時間を要する ことになる。さらに LINEMOD では特徴量のメモリ上配置の 最適化,Hashmod ではハッシュテーブルを用いた照合処理に よってさらなる高速化を図っている。これに対して提案手法で は, 3 次元姿勢を徐々に解像度を上げながら絞り込むことを可能にする平衡姿勢探索木による効率的な位置姿勢探索処理を 行っており, 10 倍以上のテンプレートを用いても LINEMOD や Hashmod と同等程度の処理速度を実現できていると考えら れる.
4 章で述べたように,平衡姿勢探索木では 2 次元投影時の見 えの変動幅が一定になるように物体形状毎に 3 次元姿勢の分割数を最適化するのではなく,探索効率を重視してテンプレー ト作成視点位置をできるだけ等間隔に設定している。このため 一つの視点位置で対応すべき見えの変動幅はテンプレート毎に 偏りがあり,見えの変化が大きな視点位置付近においては認識精度が低下する危険がある。しかし提案手法では従来手法より も視点を密に設定することで,一つの視点位置における見えの 変動幅を小さく抑えている。さらに PCOF-MOD によってテン プレート作成視点以外の見えに対する照合許容性を高めること で,一定間隔に設定した視点位置で作成したテンプレートで あってもあらゆる見えに対する照合スコアの低下を十分に小さ く抑えられていると考えられる。こういった理由から,探索効率を優先した平衡姿勢探索木であっても従来手法よりも高い認識精度を実現できたのであろう.

6.3 認識失敗例及び提案手法の短所

提案手法の評価において典型的に見られた認識失敗例を図9 に示した。左はdriller の認識失敗例であるが,下部の比較的小 さな把持部分の認識を誤っているために姿勢認識に失敗してい る. PCOF-MOD では姿勢変動が生じた場合でも見えが安定し ている部分に重点を置いて特徴量のサンプリングを行ってい る. このため driller を上から見た場合のテンプレートにおいて は,上部の比較的大きな円筒部分において重みの大きな特徴量 が多く抽出され,下部の把持部分では特徴量があまり多く抽出 されない。その結果,把持部分の見え方の違いによる姿勢の違 いを正しく認識できなかったと考えられる。 driller を上から見 た場合のように物体の一部でしか正しい姿勢を区別できないよ うな形状や見えに対しては,どのような 3 次元位置姿勢認識ア ルゴリズムを用いても認識性能の低下が生じやすい。ただし提案手法においてはその傾向が顕著に現れやすいと考えられる。
図 9 右には glue の認識失敗例を示した。この画像のように 対象物体が視野に対して小さく映るような物体及び姿勢の場合,背景部分を対象物体として誤認識する可能性が高まる.こ
Table 1 Recognition rates (%) on ACCV-3D dataset for different methods
Ours LINEMOD ( ) ( ) ^(())^{()} Hashmod 10 ) 10 ) ^(10))^{10)} Hodan 11) 11)  ^("11) ")^{\text {11) }} Deep-patch 9 ) 9 ) ^(9))^{9)} PPF 5 ) 5 ) ^(5))^{5)}
Ape 9 9 . 4 9 9 . 4 99.4\mathbf{9 9 . 4} 95.8 96.1 93.9 96.9 98.5
BenchVise 9 9 . 8 9 9 . 8 99.8\mathbf{9 9 . 8} 98.7 92.8 99.8 94.1 9 9 . 8 9 9 . 8 99.8\mathbf{9 9 . 8}
Cam 9 9 . 6 9 9 . 6 99.6\mathbf{9 9 . 6} 97.5 97.8 95.5 97.7 99.3
Can 98.6 95.4 92.8 95.9 95.2 9 8 . 7 9 8 . 7 98.7\mathbf{9 8 . 7}
Cat 99.7 99.3 98.9 98.2 97.4 9.9
Driller 94.6 93.6 98.2 94.1 96.2 93.4
Duck 99.5 95.9 94.1 94.3 97.3 98.2
EggBox 99.9 99.8 99.9 1 0 0 . 0 1 0 0 . 0 100.0\mathbf{1 0 0 . 0} 99.9 98.8
Glue 95.6 91.8 96.8 98.0 78.6 7 5 . 4 7 5 . 4 75.4\mathbf{7 5 . 4}
HolePuncher 98.7 95.9 95.7 88.0 96.8 98.1
Iron 99.7 97.5 96.5 97.0 98.7 98.3
Lamp 97.0 97.7 98.4 88.8 96.2 96.0
Phone 96.1 93.3 93.3 89.4 92.8 9 8 . 6 9 8 . 6 98.6\mathbf{9 8 . 6}
Mean 98.3 96.3 96.3 94.8 95.2 96.4
Ours LINEMOD ^(()) Hashmod ^(10)) Hodan ^("11) ") Deep-patch ^(9)) PPF ^(5)) Ape 99.4 95.8 96.1 93.9 96.9 98.5 BenchVise 99.8 98.7 92.8 99.8 94.1 99.8 Cam 99.6 97.5 97.8 95.5 97.7 99.3 Can 98.6 95.4 92.8 95.9 95.2 98.7 Cat 99.7 99.3 98.9 98.2 97.4 9.9 Driller 94.6 93.6 98.2 94.1 96.2 93.4 Duck 99.5 95.9 94.1 94.3 97.3 98.2 EggBox 99.9 99.8 99.9 100.0 99.9 98.8 Glue 95.6 91.8 96.8 98.0 78.6 75.4 HolePuncher 98.7 95.9 95.7 88.0 96.8 98.1 Iron 99.7 97.5 96.5 97.0 98.7 98.3 Lamp 97.0 97.7 98.4 88.8 96.2 96.0 Phone 96.1 93.3 93.3 89.4 92.8 98.6 Mean 98.3 96.3 96.3 94.8 95.2 96.4| | Ours | LINEMOD $^{()}$ | Hashmod $^{10)}$ | Hodan $^{\text {11) }}$ | Deep-patch $^{9)}$ | PPF $^{5)}$ | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | Ape | $\mathbf{9 9 . 4}$ | 95.8 | 96.1 | 93.9 | 96.9 | 98.5 | | BenchVise | $\mathbf{9 9 . 8}$ | 98.7 | 92.8 | 99.8 | 94.1 | $\mathbf{9 9 . 8}$ | | Cam | $\mathbf{9 9 . 6}$ | 97.5 | 97.8 | 95.5 | 97.7 | 99.3 | | Can | 98.6 | 95.4 | 92.8 | 95.9 | 95.2 | $\mathbf{9 8 . 7}$ | | Cat | 99.7 | 99.3 | 98.9 | 98.2 | 97.4 | 9.9 | | Driller | 94.6 | 93.6 | 98.2 | 94.1 | 96.2 | 93.4 | | Duck | 99.5 | 95.9 | 94.1 | 94.3 | 97.3 | 98.2 | | EggBox | 99.9 | 99.8 | 99.9 | $\mathbf{1 0 0 . 0}$ | 99.9 | 98.8 | | Glue | 95.6 | 91.8 | 96.8 | 98.0 | 78.6 | $\mathbf{7 5 . 4}$ | | HolePuncher | 98.7 | 95.9 | 95.7 | 88.0 | 96.8 | 98.1 | | Iron | 99.7 | 97.5 | 96.5 | 97.0 | 98.7 | 98.3 | | Lamp | 97.0 | 97.7 | 98.4 | 88.8 | 96.2 | 96.0 | | Phone | 96.1 | 93.3 | 93.3 | 89.4 | 92.8 | $\mathbf{9 8 . 6}$ | | Mean | 98.3 | 96.3 | 96.3 | 94.8 | 95.2 | 96.4 |
Table 2 Mean processing time (ms) on ACCV-3D dataset for different methods
Ours LINEMOD 6 ) 6 ) ^(6))^{6)} Hashmod ( 0 ) ( 0 ) ^((0))^{(0)} Hodan 11 ) 11 ) ^(11))^{11)} Deep-patch 9 ) 9 ) ^(9))^{9)} PPF 5 ) 5 ) ^(5))^{5)}
Time (ms) 97 119 83 750 671 100 800 100 800 100-800100-800
Ours LINEMOD ^(6)) Hashmod ^((0)) Hodan ^(11)) Deep-patch ^(9)) PPF ^(5)) Time (ms) 97 119 83 750 671 100-800| | Ours | LINEMOD $^{6)}$ | Hashmod $^{(0)}$ | Hodan $^{11)}$ | Deep-patch $^{9)}$ | PPF $^{5)}$ | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | Time (ms) | 97 | 119 | 83 | 750 | 671 | $100-800$ |
ういった傾向は,提案手法に限らずどのような 3 次元位置姿勢認識アルゴリズムにおいても共通の課題であると考えられる。
処理時間に関して, ACCV-3D データセットのように画像中 に認識対象物体が 1 種類しか存在しない場合には提案手法は既存手法と比較して同等以上の高速性を示した。しかし認識対象物体の種類数が増加した場合,提案手法や LINEMOD は種類数に応じて線形的に処理時間が増加するという欠点がある。こ れに対してハッシュテーブルを用いた特徵量照合や一般化ハフ 変換に基づく手法は,種類数が増えた場合でも処理時間の増加 が比較的緩やかである。 ただし提案手法である平衡姿勢探索木 とハッシュテーブルを用いた特徴量照合は併用することが可能 であり, 両者を組み合わせることでこの点の克服を図ること ができる。

7. 結 論

本研究では, 3 次元姿告変化による対象物体の見えの変化に 対する許容性と複雉背景に対する頑健性とを両立させた透視投影に基づく累積勾配方向特徵量(PCOF)を,従来の輝度勾配方向特徴量だけでなくデプス画像から抽出可能な法線方向特徵量にも適用した(PCOF-MOD)。さらに解像度を高めながら 徐々に詳細な 3 次元姿勢を決定する平衡姿勢探索木も併せて提案し, RGB-D 画像の公開データセットにおいて既存手法と同等の処理速度でより高精度に物体の 3 次元位置姿勢を認識可能 であることを示した。

参 考 文 献

  1. A. Johnson and M. Hebert: Using spin images for efficient object recognition in cluttered 3D scenes, IEEE Trans. Pattern Anal. Mach. Intell. 21, 5, (1999) 433.
  2. R.B. Rusu, N. Blodow and M. Beetz: Fast point feature histogram (FPFH) for 3d registration, Proc. IEEE Int. Conf. Robotics and Automation, (2009) 1848
  3. F. Tombari, S. Salti, L.D. Stefanob: Unique signatures of histograms for local surface description, Proc. European Conf. Comput. Vision, (2010) 356 .
  4. B. Drost, M. Ulrich, N. Navab and S. Ilic: Model globally, match locally: Efficient and robust 3D object recognition, Proc. IEEE Conf. Comput. Vision Pattern Recognit., (2010) 998.
  5. S. Hinterstoisser, V. Lepetit, N. Rajkumar and K. Konolige: Going further with point pair features, Proc. European Conf. Comput. Vision, (2016) 834
  6. S. Hinterstoisser, V. Lepetit, S. Ilic, S. Holzer, G.R. Bradski, K. Konolige and N. Navab: Model based training, detection and pose estimation of texture-less 3D objects in heavily cluttered scenes, Proc. Asian Conf. Comput. Vision, (2012) 548.
  7. E. Brachmann, A. Krull, F. Michel, S. Gumhold, J. Shotton and C. Rother: Learning 6D object pose estimation using 3 d object coordinates, Proc. European Conf. Comput. Vision, (2014) 536.
  8. A. Tejani, D. Tang, R. Kouskouridas and T.K. Kim: Latent-class hough forests for 3D object detection and pose estimation, Proc. European Conf. Comput. Vision, (2014) 462.
  9. W. Kehl, F. Milletari, F. Tombari, S. Ilic, and N. Navab: Deep learning of local rgb-d patches for 3D object detection and 6D pose estimation, Proc. European Conf. Comput. Vision, (2016) 205.
  10. W. Kehl, F. Tombari, N. Navab, S. Ilic and V. Lepetit: Hashmod: A hashing method for scalable 3D object detection, Proc. British Mach. Vision Conf., (2015).
  11. T. Hodan, X. Zabulis, M. Lourakis, S. Obdrzalek and J. Matas: Detection and fine 3D pose estimation of texture-less objects in RGB-D images, Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst., (2015) 4421.
  12. S. Hinterstoisser, C. Cagniart, S. Ilic, P. Sturm, N. Navab, P. Fua and V. Lepetit: Gradient response maps for real-time detection of textureless objects, IEEE Trans. Pattern Anal. Mach. Intell. 34, 5, (2012) 876.
  13. Y. Konishi, Y. Hanzawa, M. Kawade and M. Hashimoto: Fast 6 D 6 D 6D6 D pose estimation from a monocular image using hierarchical pose tree, Proc. European Conf. Comput. Vision, (2016) 398.
  14. M. Ulrich, C. Wiedemann and C. Steger: Combining scale-space and similarity-based aspect graphs for fast 3D object recognition, IEEE Trans. Pattern Anal. Mach. Intell. 34, 10, (2012) 1902.
  15. A. Crivellaro, M. Rad, Y. Verdie, K.M. Yi, P. Fua and V. Lepetit: A novel representation of parts for accurate 3D object detection and tracking in monocular images, Proc. IEEE Int. Conf. Comput. Vision, (2015) 4391 .
  16. V. Lepetit, J. Pilet and P. Fua: Pointmatching as a classification problem for fast and robust object pose estimation, Proc. IEEE Conf. Comput. Vision Pattern Recognit., (2004) 244.
  17. E. Brachmann, F. Michel, A. Krull, M.Y. Yang, S. Gumhold and C. Rother: Uncertainty-driven 6D pose estimation of objects and scenes from a single RGB image, Proc. IEEE Conf. Comput. Vision Pattern Recognit., (2016) 3364.
  18. R. Rios-Cabrera and T. Tuytelaars: Discriminatively trained templates for 3D object detection: A real time scalable approach, Proc. IEEE Int. Conf. Comput. Vision, (2013) 2048.
  19. C.F. Olson and D.P. Huttenlocher: Automatic target recognition by matching oriented edge pixels, IEEE Trans. Image Process. 6, 1, (1997) 103.
  20. D.M. Gavrila: A Bayesian, exemplar-based approach to hierarchical shape matching, IEEE Trans. Pattern Anal. Mach. Intell. 29, 8, (2007) 1408.
  21. G. Borgefors: Hierarchical chamfer matching: a parametric edge matching algorithm, IEEE Trans. Pattern Anal. Mach. Intell., 10, 6, (1988) 849 .
  22. S. Hinterstoisser, S. Benhimane, V. Lepetit, P. Fua and N. Navab: Simultaneous recognition and homography extraction of local patches with a simple linear classifier, Proc. British Mach. Vision Conf., (2008).
  23. R.I. Hartley and A. Zisserman: Multiple View Geometry in Computer Vision, Second edn., Cambridge University Press, 2004.
  24. S. Rusinkiewicz and M. Levoy: Efficient variants of the ICP algorithm, Proc. 3D Digital Imaging and Modeling, (2001) 145.

    • 原稿受付 平成 29 年 7 月 29 日
    掲载決定平成 29 年 11 月 30 日
    ** 正会員 オムロン株式会社 技術・知財本部(京都府木津川市)
    *** 正 会員 中京大学工学部 (愛知県名古屋市昭和区八事本町 101-2)