Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

这是不是没有成功,是怎么回事呀 #23

Open
haoiwang opened this issue Jun 7, 2024 · 6 comments
Open

这是不是没有成功,是怎么回事呀 #23

haoiwang opened this issue Jun 7, 2024 · 6 comments

Comments

@haoiwang
Copy link

haoiwang commented Jun 7, 2024

e550a0cb-5456-434b-9779-c0e9aea92c08

@junyangwang0410
Copy link
Collaborator

Your picture doesn't seem to be uploaded successfully. Can you show other error messages so I can help you?

@haoiwang
Copy link
Author

haoiwang commented Jun 9, 2024

我已经重新上传了,我查看两个截图都一样,没有截到打开app的效果,在我重新尝试启动后给的指令是打开微信,但是他总是打开我手机上的信息这个软件,是不是识别错误了app把信息这个app识别为了微信,我手机上的这两个软件的图标很相似,

@haoiwang
Copy link
Author

haoiwang commented Jun 9, 2024

我试了一下把两个软件分开放置,打开成功了,我认为这个识别模型应该是还有误差的,相似的软件图标可能会出现误差,而且依赖算力,算力太低反应会很慢

@junyangwang0410
Copy link
Collaborator

我试了一下把两个软件分开放置,打开成功了,我认为这个识别模型应该是还有误差的,相似的软件图标可能会出现误差,而且依赖算力,算力太低反应会很慢

目前的确还有一些能力上的瓶颈,我们会继续优化体验的

@haoiwang
Copy link
Author

有没有其他解决方案如果依赖视觉的话,感觉处理起来速度很难提升,能不能以指令形式打开,让大模型根据提示词解析指令,使用agent来执行指令,在移动端如果我换个手机主题,他就可能识别不到了,并且我在实验时,就是把主题更改了,或者这个项目只是agent在移动端的一种实现方案的案例,而且我对这个项目很感兴趣,也在做这方面探索,相信如果成功了,可能是一次交互革命,让传统的点击事件响应以提示触发或者是用户的言语,在用户和app之间增加了一个调度或者是执行者,也可能他就叫agent,让用户交互更加‘’无感知‘’,反馈更加智能化,如果能够把这个调度执行在app域内,软件的形式也可能会被更改,或者传统软件的形式并不能满足这种需求,很期待这个项目的下一次更新。

@junyangwang0410
Copy link
Collaborator

有没有其他解决方案如果依赖视觉的话,感觉处理起来速度很难提升,能不能以指令形式打开,让大模型根据提示词解析指令,使用agent来执行指令,在移动端如果我换个手机主题,他就可能识别不到了,并且我在实验时,就是把主题更改了,或者这个项目只是agent在移动端的一种实现方案的案例,而且我对这个项目很感兴趣,也在做这方面探索,相信如果成功了,可能是一次交互革命,让传统的点击事件响应以提示触发或者是用户的言语,在用户和app之间增加了一个调度或者是执行者,也可能他就叫agent,让用户交互更加‘’无感知‘’,反馈更加智能化,如果能够把这个调度执行在app域内,软件的形式也可能会被更改,或者传统软件的形式并不能满足这种需求,很期待这个项目的下一次更新。

感谢你对我们工作的关注,你的建议对我们非常重要,我们会认真讨论可行性

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants