1.需求简介
将用户上传的图片与美国外观专利(USPTO)数据图片进行比对,按照相似度从高到低排列这些图片,就是图片的近似性检索。
2.实现过程
目前团队思路清晰,需要技术合伙人实现
(1)从美国商标专利局下载外观专利数据,约80万条,每条专利有6张不同角度的框线图,这个数据库是每天更新且公开的,目前已经把数据下载整理好
https://developer.uspto.gov/product/patent-grant-single-page-tiff-images#product-files
(2)解析下载的tif文件,提取其中的图片信息,建成外观专利数据库。PDF文件转图片的技术难点是每页PDF文档中有多张图片,解决办法有两个:一是用神经网络+人工标注的办法识别每张图片下方的FIG字样,这部分团队其他成员会协助解决,并承担相关费用;二是用页面信息密度做图片分割;并进行各个角度的旋转变换,这是为了提高图片匹配的精度,因为用户上传的图片角度可能千差万别;
(3)将用户上传的图片转为黑白的且只有外框轮廓的矢量图,因为USPTO的外观专利数据图片也是黑白的;
(4)将转化后的矢量图与建好的外观专利数据库进行以图识图对比,可以调用公共库,并在此基础上修改;第(2)、(3)两步的整理阶段会花费较多时间,也是为了提高后面的识别精度,减少工作量;
(5)列出相似度高于某个值的外观专利
3.数据处理量:最多80万条×6张=480万张图片
4.数据处理难点:美国商标专利局数据库里的数据为框线图,有6个不同角度,用户上传的图片为实拍图,且只有一个角度,即1对1地用实拍图查找框线图
5.数据处理时间:半年-1年时间完成,开发完成后要长期维护
6.数据处理报酬:现金10万RMB作为一次性开发的报酬,也可以加入公司成为长期技术合伙人,以图识图将申请发明专利,技术合伙人将作为专利的共同发明人,并分享部分公司股权;目前公司有4位合伙人,正在申请全国高新技术企业,有意了解公司情况和商业模式请微信或邮箱联系;
7.说明:这个项目不是短期单纯外包,希望申请人认可公司商业前景,加入团队,共同成长;要有相关项目经验,减少重新学习时间。如果有意合作,我会给100条测试数据,检验识别效果。