都说开源公司赚钱难,到底是为什么?( 三 )


我相信没有一个软件从推出第一天起就是完美的 , 第一个版本肯定全是bug 。 但最终决定这个软件能否长久生存下去的 , 是你能以多快的速度消灭bug , 向下一个版本迭代 。
速度 , 才是最核心的竞争力 。
FounderPark:开源公司商业化的挑战在哪里?
肖涵:我是深信开源的那种人 。 开源不是一个宣传自己的方式 , 也不仅仅是一个爱好 , 更多的是一个经济体系 。 它不仅能喂饱你自己 , 还能营造一个市值几千亿的公司 。
作为商业化开源公司来说 , 最大的挑战 , 其实有三点 。
第一是如何从0到1打造一个开发者社区 。 当你脱去了大厂光环 , 一切的影响力只有通过技术本身施加 。 开发者本身就是一个对技术非常挑剔的群体 , 你只有证明你的技术确实比别人好 , 才能说服他们 。
当你拥有了一个规模不小的社区之后 , 第二个难点就是如何去深耕这个社区 。 良性的社区生态是一个双向的互动 , 既要去给予社区 , 也要从社区中获得反馈 。 不论是作为布道师还是核心代码的贡献者 , 只有当你和社区形成这种共生共建的生态之后 , 社区才能成为你的护城河 。
更难的第三步 , 如何将一个开源项目塑造成可以商业化的产品 , 它其中哪些点可以商业化?
如果能很好地解决这三步 , 那一家开源商业公司就具备了成功的前提 。
都说开源公司赚钱难,到底是为什么?
文章图片
02
搜索永远
会是硬需求
FounderPark:跟我们传统认知的搜索相比 , 神经搜索有什么不同?
肖涵:传统所说的搜索 , 其实是符号化搜索 。
这个概念 , 在计算机发明之初就存在了 。 包括老一辈程序员用的DOS操作系统下的WPS文字处理系统 , 就已经包含了搜索功能 。 到今天百度、谷歌的网页搜索 , 微信聊天记录和公众号文章的搜索 , 他们都属于符号化搜索 。
符号化搜索的原理就是在文本框中输入一段文字 , 然后逐字地扫描这个文字的值 。 满足一定的阈值之后 , 就达成匹配 。
都说开源公司赚钱难,到底是为什么?
文章图片
WPS2.2主菜单画面截图|图片来源:WIKIPEDIA
问题在于 , 符号化搜索针对的场景是文本信息 , 但是今天互联网发展到这个阶段 , 信息已经慢慢从单纯的文本逐渐过渡到了图片、声音、视频、文字的多元形态 。 10年前我们拿起手机刷的是新闻 , 今天往往就是短视频了 。
在这种情况下 , 传统搜索就需要给视频打标签 , 再通过标签来建立模态之间的联系 。 要实现这样的系统 , 无论是转化为标签 , 还是维护标签体系 , 在实际工程中是都很有挑战的 。
但是这两年AI技术的发展提供了一种新的搜索范式 。 通过深度学习模型 , 神经搜索可以将不同模态的数据投射到同一个向量空间 , 实现不同模态间的相互搜索 。 从结果上来说 , 有了AI的加持 , 不管是搜索的输入还是结果的呈现 , 计算机就可以做到用人类的思维表达 。
这是我觉得AI给搜索带来最大的改变——之前的搜索是人在适应机器 , 神经搜索是让机器适应人 。
都说开源公司赚钱难,到底是为什么?
文章图片
JinaHub中提供跨模态搜索常用的CLIP预训练模型 , 开发者还可以进一步使用finetuner对模型进行领域适配|图片来源:JinaAI
FounderPark:B端用户为什么需要Jina的搜索技术?百度、谷歌不是已经很成熟了吗?
肖涵:如果是构建像百度、谷歌这样广义的全网搜索引擎的话 , 那它肯定受众是最广的 。 但作为一个B端用户 , 要在内部使用百度、谷歌的搜索技术是非常难的 。